josephmayo
/

gemma-4-E4B-it-coding-lora

@@ -1,175 +1,177 @@
-{
-  "run_id": "20260512_190433",
-  "model_id": "google/gemma-4-E4B-it",
-  "dataset_id": "ise-uiuc/Magicoder-Evol-Instruct-110K",
-  "adapter_repo": "josephmayo/gemma-4-E4B-it-coding-lora",
-  "merged_repo": "josephmayo/gemma-4-E4B-it-coding-merged",
-  "stage": "after_eval",
-  "errors": [],
-  "cuda_available": true,
-  "cuda_device_count": 2,
-  "devices": [
-    "Tesla T4",
-    "Tesla T4"
-  ],
-  "torch_version_initial": "2.10.0+cu128",
-  "hf_token_present": false,
-  "max_train_samples": 1024,
-  "max_steps": 200,
-  "max_seq_length": 512,
-  "eval_count": 8,
-  "lora_r": 16,
-  "lora_alpha": 32,
-  "lr": 0.0001,
-  "grad_accum": 8,
-  "push_to_hf": true,
-  "merge_and_push": false,
-  "load_in_4bit": true,
-  "memory_after_load": [
-    0,
-    9302143488
-  ],
-  "eval_source": "openai/openai_humaneval:8",
-  "baseline_avg_score": 0.76875,
-  "safe_train_rows": 1024,
-  "trainable_parameters": {
-    "trainable": 50499584,
-    "total": 7991600416
-  },
-  "log_history_tail": [
-    {
-      "loss": 1.0154043197631837,
-      "grad_norm": 0.37521687150001526,
-      "learning_rate": 4.51495073572676e-05,
-      "epoch": 1.71875
-    },
-    {
-      "loss": 0.9917967796325684,
-      "grad_norm": 0.42887604236602783,
-      "learning_rate": 4.114045042103887e-05,
-      "epoch": 1.796875
-    },
-    {
-      "loss": 1.1146905899047852,
-      "grad_norm": 0.4208148717880249,
-      "learning_rate": 3.718944461187138e-05,
-      "epoch": 1.875
-    },
-    {
-      "loss": 0.9283761978149414,
-      "grad_norm": 0.3849687874317169,
-      "learning_rate": 3.332237841745898e-05,
-      "epoch": 1.953125
-    },
-    {
-      "loss": 1.113053035736084,
-      "grad_norm": 0.4142734110355377,
-      "learning_rate": 2.9564590321322207e-05,
-      "epoch": 2.03125
-    },
-    {
-      "loss": 0.9842248916625976,
-      "grad_norm": 0.44529953598976135,
-      "learning_rate": 2.5940702775459747e-05,
-      "epoch": 2.109375
-    },
-    {
-      "loss": 0.9449721336364746,
-      "grad_norm": 0.3756776750087738,
-      "learning_rate": 2.2474460864709824e-05,
-      "epoch": 2.1875
-    },
-    {
-      "loss": 1.0590093612670899,
-      "grad_norm": 0.4192875325679779,
-      "learning_rate": 1.9188576719953633e-05,
-      "epoch": 2.265625
-    },
-    {
-      "loss": 0.9768091201782226,
-      "grad_norm": 0.5095818638801575,
-      "learning_rate": 1.6104580699624837e-05,
-      "epoch": 2.34375
-    },
-    {
-      "loss": 1.038302516937256,
-      "grad_norm": 0.41709497570991516,
-      "learning_rate": 1.3242680314639993e-05,
-      "epoch": 2.421875
-    },
-    {
-      "loss": 0.9975608825683594,
-      "grad_norm": 0.5563586354255676,
-      "learning_rate": 1.0621627821127289e-05,
-      "epoch": 2.5
-    },
-    {
-      "loss": 0.9714397430419922,
-      "grad_norm": 0.8915637135505676,
-      "learning_rate": 8.25859734853645e-06,
-      "epoch": 2.578125
-    },
-    {
-      "loss": 0.9948483467102051,
-      "grad_norm": 0.4391196370124817,
-      "learning_rate": 6.16907236823262e-06,
-      "epoch": 2.65625
-    },
-    {
-      "loss": 0.9389057159423828,
-      "grad_norm": 0.4650712311267853,
-      "learning_rate": 4.366744239922998e-06,
-      "epoch": 2.734375
-    },
-    {
-      "loss": 1.06390380859375,
-      "grad_norm": 0.4836062788963318,
-      "learning_rate": 2.8634225006782865e-06,
-      "epoch": 2.8125
-    },
-    {
-      "loss": 1.008359718322754,
-      "grad_norm": 0.45215511322021484,
-      "learning_rate": 1.6689574843694433e-06,
-      "epoch": 2.890625
-    },
-    {
-      "loss": 1.0110493659973145,
-      "grad_norm": 0.5408219695091248,
-      "learning_rate": 7.911757785462881e-07,
-      "epoch": 2.96875
-    },
-    {
-      "loss": 0.911649227142334,
-      "grad_norm": 0.4599083364009857,
-      "learning_rate": 2.3582894166930268e-07,
-      "epoch": 3.046875
-    },
-    {
-      "loss": 0.9673548698425293,
-      "grad_norm": 0.43304941058158875,
-      "learning_rate": 6.5558167183898955e-09,
-      "epoch": 3.125
-    },
-    {
-      "train_runtime": 4256.6409,
-      "train_samples_per_second": 0.752,
-      "train_steps_per_second": 0.047,
-      "total_flos": 4.259313762009523e+16,
-      "train_loss": 1.142699921131134,
-      "epoch": 3.125
-    }
-  ],
-  "train_metrics": {
-    "train_runtime": 4256.6409,
-    "train_samples_per_second": 0.752,
-    "train_steps_per_second": 0.047,
-    "total_flos": 4.259313762009523e+16,
-    "train_loss": 1.142699921131134,
-    "epoch": 3.125
-  },
-  "after_avg_score": 0.76875,
-  "score_delta": 0.0,
-  "adapter_dir": "/kaggle/working/gemma4_e4b_coding_lora",
-  "release_gate_pass": true
-}

+{
+    "run_id":  "20260512_190433",
+    "model_id":  "google/gemma-4-E4B-it",
+    "adapter_repo":  "josephmayo/gemma-4-E4B-it-coding-lora",
+    "merged_repo":  "josephmayo/gemma-4-E4B-it-coding-merged",
+    "stage":  "after_eval",
+    "errors":  [
+               ],
+    "cuda_available":  true,
+    "cuda_device_count":  2,
+    "devices":  [
+                    "Tesla T4",
+                    "Tesla T4"
+                ],
+    "torch_version_initial":  "2.10.0+cu128",
+    "hf_token_present":  false,
+    "max_train_samples":  1024,
+    "max_steps":  200,
+    "max_seq_length":  512,
+    "eval_count":  8,
+    "lora_r":  16,
+    "lora_alpha":  32,
+    "lr":  0.0001,
+    "grad_accum":  8,
+    "push_to_hf":  true,
+    "merge_and_push":  false,
+    "load_in_4bit":  true,
+    "memory_after_load":  [
+                              0,
+                              9302143488
+                          ],
+    "eval_source":  "openai/openai_humaneval:8",
+    "baseline_avg_score":  0.76875,
+    "safe_train_rows":  1024,
+    "trainable_parameters":  {
+                                 "trainable":  50499584,
+                                 "total":  7991600416
+                             },
+    "log_history_tail":  [
+                             {
+                                 "loss":  1.0154043197631837,
+                                 "grad_norm":  0.37521687150001526,
+                                 "learning_rate":  4.51495073572676E-05,
+                                 "epoch":  1.71875
+                             },
+                             {
+                                 "loss":  0.9917967796325684,
+                                 "grad_norm":  0.42887604236602783,
+                                 "learning_rate":  4.1140450421038868E-05,
+                                 "epoch":  1.796875
+                             },
+                             {
+                                 "loss":  1.1146905899047852,
+                                 "grad_norm":  0.4208148717880249,
+                                 "learning_rate":  3.718944461187138E-05,
+                                 "epoch":  1.875
+                             },
+                             {
+                                 "loss":  0.9283761978149414,
+                                 "grad_norm":  0.3849687874317169,
+                                 "learning_rate":  3.332237841745898E-05,
+                                 "epoch":  1.953125
+                             },
+                             {
+                                 "loss":  1.113053035736084,
+                                 "grad_norm":  0.4142734110355377,
+                                 "learning_rate":  2.9564590321322207E-05,
+                                 "epoch":  2.03125
+                             },
+                             {
+                                 "loss":  0.9842248916625976,
+                                 "grad_norm":  0.44529953598976135,
+                                 "learning_rate":  2.5940702775459747E-05,
+                                 "epoch":  2.109375
+                             },
+                             {
+                                 "loss":  0.9449721336364746,
+                                 "grad_norm":  0.3756776750087738,
+                                 "learning_rate":  2.2474460864709824E-05,
+                                 "epoch":  2.1875
+                             },
+                             {
+                                 "loss":  1.0590093612670899,
+                                 "grad_norm":  0.4192875325679779,
+                                 "learning_rate":  1.9188576719953633E-05,
+                                 "epoch":  2.265625
+                             },
+                             {
+                                 "loss":  0.9768091201782226,
+                                 "grad_norm":  0.5095818638801575,
+                                 "learning_rate":  1.6104580699624837E-05,
+                                 "epoch":  2.34375
+                             },
+                             {
+                                 "loss":  1.038302516937256,
+                                 "grad_norm":  0.41709497570991516,
+                                 "learning_rate":  1.3242680314639993E-05,
+                                 "epoch":  2.421875
+                             },
+                             {
+                                 "loss":  0.9975608825683594,
+                                 "grad_norm":  0.5563586354255676,
+                                 "learning_rate":  1.0621627821127289E-05,
+                                 "epoch":  2.5
+                             },
+                             {
+                                 "loss":  0.9714397430419922,
+                                 "grad_norm":  0.8915637135505676,
+                                 "learning_rate":  8.25859734853645E-06,
+                                 "epoch":  2.578125
+                             },
+                             {
+                                 "loss":  0.9948483467102051,
+                                 "grad_norm":  0.4391196370124817,
+                                 "learning_rate":  6.16907236823262E-06,
+                                 "epoch":  2.65625
+                             },
+                             {
+                                 "loss":  0.9389057159423828,
+                                 "grad_norm":  0.4650712311267853,
+                                 "learning_rate":  4.3667442399229984E-06,
+                                 "epoch":  2.734375
+                             },
+                             {
+                                 "loss":  1.06390380859375,
+                                 "grad_norm":  0.4836062788963318,
+                                 "learning_rate":  2.8634225006782865E-06,
+                                 "epoch":  2.8125
+                             },
+                             {
+                                 "loss":  1.008359718322754,
+                                 "grad_norm":  0.45215511322021484,
+                                 "learning_rate":  1.6689574843694433E-06,
+                                 "epoch":  2.890625
+                             },
+                             {
+                                 "loss":  1.0110493659973145,
+                                 "grad_norm":  0.5408219695091248,
+                                 "learning_rate":  7.9117577854628813E-07,
+                                 "epoch":  2.96875
+                             },
+                             {
+                                 "loss":  0.911649227142334,
+                                 "grad_norm":  0.4599083364009857,
+                                 "learning_rate":  2.3582894166930268E-07,
+                                 "epoch":  3.046875
+                             },
+                             {
+                                 "loss":  0.9673548698425293,
+                                 "grad_norm":  0.43304941058158875,
+                                 "learning_rate":  6.5558167183898955E-09,
+                                 "epoch":  3.125
+                             },
+                             {
+                                 "train_runtime":  4256.6409,
+                                 "train_samples_per_second":  0.752,
+                                 "train_steps_per_second":  0.047,
+                                 "total_flos":  42593137620095232,
+                                 "train_loss":  1.142699921131134,
+                                 "epoch":  3.125
+                             }
+                         ],
+    "train_metrics":  {
+                          "train_runtime":  4256.6409,
+                          "train_samples_per_second":  0.752,
+                          "train_steps_per_second":  0.047,
+                          "total_flos":  42593137620095232,
+                          "train_loss":  1.142699921131134,
+                          "epoch":  3.125
+                      },
+    "after_avg_score":  0.76875,
+    "score_delta":  0.0,
+    "adapter_dir":  "/kaggle/working/gemma4_e4b_coding_lora",
+    "release_gate_pass":  true,
+    "data_description":  "filtered benign coding instruction data"
+}