Fix finetuning RuntimeError and add pyproject.toml

- Fix block_size mismatch causing "params, grads, exp_avgs, and
exp_avg_sqs must have same dtype" RuntimeError when finetuning with
block_size different from checkpoint. Set finetuning config
block_size=1024 to match pretrained model_updated.pt.
- Add warning when config model parameters differ from checkpoint to
help users diagnose shape mismatch issues.
- Fix GradScaler logic: enabled=(dtype=='float32') was inverted,
corrected to enabled=(dtype=='float16').
- Add pyproject.toml with complete dependency list (transformers, tqdm,
tiktoken were missing) and project metadata.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Files changed (3) hide show

configs/example_finetuning.py +1 -1
pyproject.toml +16 -0
train.py +15 -1

configs/example_finetuning.py CHANGED Viewed

@@ -9,7 +9,7 @@ log_dir = os.path.join(out_dir, 'logs') # logs will be written in to out_dir/log
 # -----------------------------------------------------------------------------
 # model parameters
 meta_vocab_size = 1024
-block_size = 256
 n_layer=24
 n_head=16
 n_embd=1024 # 350M, medium

 # -----------------------------------------------------------------------------
 # model parameters
 meta_vocab_size = 1024
+block_size = 1024
 n_layer=24
 n_head=16
 n_embd=1024 # 350M, medium

pyproject.toml ADDED Viewed

	@@ -0,0 +1,16 @@

+[project]
+readme = "README.md"
+license = {text = "MIT"}
+requires-python = ">=3.10"
+dependencies = [
+    "torch>=2.0",
+    "numpy",
+    "pynvml",
+    "transformers",
+    "tqdm",
+    "tiktoken",
+]
+[project.urls]
+Repository = "https://huggingface.co/zhaoyichong/GenerRNA"

train.py CHANGED Viewed

@@ -125,6 +125,20 @@ elif init_from == 'resume':
     # the rest of the attributes (e.g. dropout) can stay as desired from command line
     for k in ['n_layer', 'n_head', 'n_embd', 'block_size', 'bias', 'vocab_size']:
         model_args[k] = checkpoint_model_args[k]
     # create the model
     gptconf = GPTConfig(**model_args)
     model = GPT(gptconf)
@@ -143,7 +157,7 @@ if block_size < model.config.block_size:
 model.to(device)
 # initialize a GradScaler. If enabled=False scaler is a no-op
-scaler = torch.cuda.amp.GradScaler(enabled=(dtype == 'float32'))
 # optimizer
 optimizer = model.configure_optimizers(weight_decay, learning_rate, (beta1, beta2), device_type)

     # the rest of the attributes (e.g. dropout) can stay as desired from command line
     for k in ['n_layer', 'n_head', 'n_embd', 'block_size', 'bias', 'vocab_size']:
         model_args[k] = checkpoint_model_args[k]
+    # check config vs checkpoint model parameter consistency
+    mismatches = []
+    for k in ['n_layer', 'n_head', 'n_embd', 'block_size', 'bias']:
+        config_val = globals().get(k)
+        ckpt_val = checkpoint_model_args[k]
+        if config_val is not None and config_val != ckpt_val:
+            mismatches.append(f"  {k}: config={config_val}, checkpoint={ckpt_val}")
+    if mismatches:
+        print("WARNING: config and checkpoint model parameters differ:")
+        for m in mismatches:
+            print(m)
+        print("The checkpoint values will be used. If you intended to use a different block_size,")
+        print("note that crop_block_size + optimizer state loading will cause a RuntimeError.")
+        print("Either match block_size to the checkpoint or do not load the optimizer state.")
     # create the model
     gptconf = GPTConfig(**model_args)
     model = GPT(gptconf)
 model.to(device)
 # initialize a GradScaler. If enabled=False scaler is a no-op
+scaler = torch.cuda.amp.GradScaler(enabled=(dtype == 'float16'))
 # optimizer
 optimizer = model.configure_optimizers(weight_decay, learning_rate, (beta1, beta2), device_type)