StevenHH2000

Upload 21 files

c568233 verified 28 days ago

21.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.235294117647058,
	"eval_steps": 500,
	"global_step": 120,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0784313725490196,
	"grad_norm": 5.935066953271119,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 1.1559,
	"step": 1
	},
	{
	"epoch": 0.1568627450980392,
	"grad_norm": 5.931820940431562,
	"learning_rate": 8.333333333333333e-07,
	"loss": 1.1107,
	"step": 2
	},
	{
	"epoch": 0.23529411764705882,
	"grad_norm": 6.143905320771078,
	"learning_rate": 1.25e-06,
	"loss": 1.1384,
	"step": 3
	},
	{
	"epoch": 0.3137254901960784,
	"grad_norm": 6.065274861977263,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 1.1421,
	"step": 4
	},
	{
	"epoch": 0.39215686274509803,
	"grad_norm": 5.8625107951536535,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 1.1439,
	"step": 5
	},
	{
	"epoch": 0.47058823529411764,
	"grad_norm": 5.067374092992189,
	"learning_rate": 2.5e-06,
	"loss": 1.0618,
	"step": 6
	},
	{
	"epoch": 0.5490196078431373,
	"grad_norm": 4.755801552471063,
	"learning_rate": 2.916666666666667e-06,
	"loss": 1.0401,
	"step": 7
	},
	{
	"epoch": 0.6274509803921569,
	"grad_norm": 3.3129565953149323,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.9898,
	"step": 8
	},
	{
	"epoch": 0.7058823529411765,
	"grad_norm": 3.3912326629630547,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 1.011,
	"step": 9
	},
	{
	"epoch": 0.7843137254901961,
	"grad_norm": 3.2048784731280806,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.9935,
	"step": 10
	},
	{
	"epoch": 0.8627450980392157,
	"grad_norm": 3.752806588180809,
	"learning_rate": 4.583333333333333e-06,
	"loss": 0.9037,
	"step": 11
	},
	{
	"epoch": 0.9411764705882353,
	"grad_norm": 3.7034973959501185,
	"learning_rate": 5e-06,
	"loss": 0.9095,
	"step": 12
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.7034973959501185,
	"learning_rate": 4.998942375205502e-06,
	"loss": 0.6715,
	"step": 13
	},
	{
	"epoch": 1.0784313725490196,
	"grad_norm": 3.3436999577667104,
	"learning_rate": 4.995770395678171e-06,
	"loss": 0.8186,
	"step": 14
	},
	{
	"epoch": 1.156862745098039,
	"grad_norm": 2.662791286273683,
	"learning_rate": 4.990486745229364e-06,
	"loss": 0.7876,
	"step": 15
	},
	{
	"epoch": 1.2352941176470589,
	"grad_norm": 3.1462660546154915,
	"learning_rate": 4.983095894354858e-06,
	"loss": 0.7498,
	"step": 16
	},
	{
	"epoch": 1.3137254901960784,
	"grad_norm": 2.806483473961631,
	"learning_rate": 4.973604096452361e-06,
	"loss": 0.7377,
	"step": 17
	},
	{
	"epoch": 1.392156862745098,
	"grad_norm": 2.4168449532239933,
	"learning_rate": 4.962019382530521e-06,
	"loss": 0.6722,
	"step": 18
	},
	{
	"epoch": 1.4705882352941178,
	"grad_norm": 2.1659663165693823,
	"learning_rate": 4.948351554413879e-06,
	"loss": 0.6785,
	"step": 19
	},
	{
	"epoch": 1.5490196078431373,
	"grad_norm": 1.9715057945884606,
	"learning_rate": 4.93261217644956e-06,
	"loss": 0.6873,
	"step": 20
	},
	{
	"epoch": 1.6274509803921569,
	"grad_norm": 2.03020256390926,
	"learning_rate": 4.914814565722671e-06,
	"loss": 0.659,
	"step": 21
	},
	{
	"epoch": 1.7058823529411766,
	"grad_norm": 1.9753159977423889,
	"learning_rate": 4.894973780788722e-06,
	"loss": 0.6438,
	"step": 22
	},
	{
	"epoch": 1.784313725490196,
	"grad_norm": 1.7231552446064127,
	"learning_rate": 4.873106608932585e-06,
	"loss": 0.6467,
	"step": 23
	},
	{
	"epoch": 1.8627450980392157,
	"grad_norm": 1.7271946867600179,
	"learning_rate": 4.849231551964771e-06,
	"loss": 0.6004,
	"step": 24
	},
	{
	"epoch": 1.9411764705882353,
	"grad_norm": 1.908074354983798,
	"learning_rate": 4.823368810567056e-06,
	"loss": 0.6608,
	"step": 25
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.8986968468078707,
	"learning_rate": 4.7955402672006855e-06,
	"loss": 0.4767,
	"step": 26
	},
	{
	"epoch": 2.0784313725490198,
	"grad_norm": 1.7821876091389497,
	"learning_rate": 4.765769467591626e-06,
	"loss": 0.5677,
	"step": 27
	},
	{
	"epoch": 2.156862745098039,
	"grad_norm": 1.5729961003705275,
	"learning_rate": 4.734081600808531e-06,
	"loss": 0.5875,
	"step": 28
	},
	{
	"epoch": 2.235294117647059,
	"grad_norm": 1.6161908564695435,
	"learning_rate": 4.700503477950278e-06,
	"loss": 0.5528,
	"step": 29
	},
	{
	"epoch": 2.313725490196078,
	"grad_norm": 1.453253235686431,
	"learning_rate": 4.665063509461098e-06,
	"loss": 0.5471,
	"step": 30
	},
	{
	"epoch": 2.392156862745098,
	"grad_norm": 1.5747903710062445,
	"learning_rate": 4.627791681092499e-06,
	"loss": 0.5058,
	"step": 31
	},
	{
	"epoch": 2.4705882352941178,
	"grad_norm": 1.4435044859613202,
	"learning_rate": 4.588719528532342e-06,
	"loss": 0.5226,
	"step": 32
	},
	{
	"epoch": 2.549019607843137,
	"grad_norm": 1.39605748394361,
	"learning_rate": 4.54788011072248e-06,
	"loss": 0.5071,
	"step": 33
	},
	{
	"epoch": 2.627450980392157,
	"grad_norm": 1.5254258052298646,
	"learning_rate": 4.50530798188761e-06,
	"loss": 0.4998,
	"step": 34
	},
	{
	"epoch": 2.7058823529411766,
	"grad_norm": 1.4261873477979348,
	"learning_rate": 4.46103916229894e-06,
	"loss": 0.5009,
	"step": 35
	},
	{
	"epoch": 2.784313725490196,
	"grad_norm": 1.4137129832097197,
	"learning_rate": 4.415111107797445e-06,
	"loss": 0.479,
	"step": 36
	},
	{
	"epoch": 2.8627450980392157,
	"grad_norm": 1.520647591268587,
	"learning_rate": 4.367562678102491e-06,
	"loss": 0.5122,
	"step": 37
	},
	{
	"epoch": 2.9411764705882355,
	"grad_norm": 1.437130314805203,
	"learning_rate": 4.318434103932622e-06,
	"loss": 0.4938,
	"step": 38
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.381198514753958,
	"learning_rate": 4.267766952966369e-06,
	"loss": 0.3629,
	"step": 39
	},
	{
	"epoch": 3.0784313725490198,
	"grad_norm": 1.4414609712821322,
	"learning_rate": 4.215604094671835e-06,
	"loss": 0.4262,
	"step": 40
	},
	{
	"epoch": 3.156862745098039,
	"grad_norm": 1.3346547206899726,
	"learning_rate": 4.161989664034844e-06,
	"loss": 0.4259,
	"step": 41
	},
	{
	"epoch": 3.235294117647059,
	"grad_norm": 1.2955870784243064,
	"learning_rate": 4.106969024216348e-06,
	"loss": 0.4009,
	"step": 42
	},
	{
	"epoch": 3.313725490196078,
	"grad_norm": 1.381727916852796,
	"learning_rate": 4.0505887281706505e-06,
	"loss": 0.4082,
	"step": 43
	},
	{
	"epoch": 3.392156862745098,
	"grad_norm": 1.2215807897629705,
	"learning_rate": 3.992896479256966e-06,
	"loss": 0.4012,
	"step": 44
	},
	{
	"epoch": 3.4705882352941178,
	"grad_norm": 1.341754935028127,
	"learning_rate": 3.933941090877615e-06,
	"loss": 0.4003,
	"step": 45
	},
	{
	"epoch": 3.549019607843137,
	"grad_norm": 1.3219873249674265,
	"learning_rate": 3.8737724451770155e-06,
	"loss": 0.3906,
	"step": 46
	},
	{
	"epoch": 3.627450980392157,
	"grad_norm": 1.2735261344863207,
	"learning_rate": 3.8124414508364005e-06,
	"loss": 0.3956,
	"step": 47
	},
	{
	"epoch": 3.7058823529411766,
	"grad_norm": 1.408667555717726,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.3841,
	"step": 48
	},
	{
	"epoch": 3.784313725490196,
	"grad_norm": 1.3920186495457132,
	"learning_rate": 3.6865009243691015e-06,
	"loss": 0.3998,
	"step": 49
	},
	{
	"epoch": 3.8627450980392157,
	"grad_norm": 1.3668192562682828,
	"learning_rate": 3.621997950501156e-06,
	"loss": 0.3947,
	"step": 50
	},
	{
	"epoch": 3.9411764705882355,
	"grad_norm": 1.3220345352979812,
	"learning_rate": 3.556545654351749e-06,
	"loss": 0.3898,
	"step": 51
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.273119605790472,
	"learning_rate": 3.4901994150978926e-06,
	"loss": 0.2635,
	"step": 52
	},
	{
	"epoch": 4.078431372549019,
	"grad_norm": 1.5507480548662818,
	"learning_rate": 3.4230153682817112e-06,
	"loss": 0.3232,
	"step": 53
	},
	{
	"epoch": 4.1568627450980395,
	"grad_norm": 1.2464576840916806,
	"learning_rate": 3.3550503583141726e-06,
	"loss": 0.2997,
	"step": 54
	},
	{
	"epoch": 4.235294117647059,
	"grad_norm": 1.2140787104099877,
	"learning_rate": 3.2863618903790346e-06,
	"loss": 0.3061,
	"step": 55
	},
	{
	"epoch": 4.313725490196078,
	"grad_norm": 1.2569518947420275,
	"learning_rate": 3.217008081777726e-06,
	"loss": 0.2995,
	"step": 56
	},
	{
	"epoch": 4.392156862745098,
	"grad_norm": 1.2248006221848717,
	"learning_rate": 3.147047612756302e-06,
	"loss": 0.2973,
	"step": 57
	},
	{
	"epoch": 4.470588235294118,
	"grad_norm": 1.2928146585389553,
	"learning_rate": 3.0765396768561005e-06,
	"loss": 0.2987,
	"step": 58
	},
	{
	"epoch": 4.549019607843137,
	"grad_norm": 1.3574488686929125,
	"learning_rate": 3.0055439308300954e-06,
	"loss": 0.3132,
	"step": 59
	},
	{
	"epoch": 4.627450980392156,
	"grad_norm": 1.2894955154605787,
	"learning_rate": 2.9341204441673267e-06,
	"loss": 0.2929,
	"step": 60
	},
	{
	"epoch": 4.705882352941177,
	"grad_norm": 1.2326192638645608,
	"learning_rate": 2.862329648268117e-06,
	"loss": 0.2794,
	"step": 61
	},
	{
	"epoch": 4.784313725490196,
	"grad_norm": 1.3599625008219607,
	"learning_rate": 2.7902322853130758e-06,
	"loss": 0.2911,
	"step": 62
	},
	{
	"epoch": 4.862745098039216,
	"grad_norm": 1.2507485894142631,
	"learning_rate": 2.717889356869146e-06,
	"loss": 0.2945,
	"step": 63
	},
	{
	"epoch": 4.9411764705882355,
	"grad_norm": 1.3120759092640928,
	"learning_rate": 2.6453620722761897e-06,
	"loss": 0.3093,
	"step": 64
	},
	{
	"epoch": 5.0,
	"grad_norm": 1.3120759092640928,
	"learning_rate": 2.572711796857779e-06,
	"loss": 0.2038,
	"step": 65
	},
	{
	"epoch": 5.078431372549019,
	"grad_norm": 1.2133928459250458,
	"learning_rate": 2.5e-06,
	"loss": 0.2457,
	"step": 66
	},
	{
	"epoch": 5.1568627450980395,
	"grad_norm": 1.1164096271756436,
	"learning_rate": 2.4272882031422216e-06,
	"loss": 0.2378,
	"step": 67
	},
	{
	"epoch": 5.235294117647059,
	"grad_norm": 1.1865964714246466,
	"learning_rate": 2.3546379277238107e-06,
	"loss": 0.2365,
	"step": 68
	},
	{
	"epoch": 5.313725490196078,
	"grad_norm": 1.1133005502471431,
	"learning_rate": 2.2821106431308546e-06,
	"loss": 0.2273,
	"step": 69
	},
	{
	"epoch": 5.392156862745098,
	"grad_norm": 1.0726780522048756,
	"learning_rate": 2.2097677146869242e-06,
	"loss": 0.2251,
	"step": 70
	},
	{
	"epoch": 5.470588235294118,
	"grad_norm": 1.1507923857528541,
	"learning_rate": 2.1376703517318835e-06,
	"loss": 0.2199,
	"step": 71
	},
	{
	"epoch": 5.549019607843137,
	"grad_norm": 1.1965895392459576,
	"learning_rate": 2.0658795558326745e-06,
	"loss": 0.2275,
	"step": 72
	},
	{
	"epoch": 5.627450980392156,
	"grad_norm": 1.2081935303041835,
	"learning_rate": 1.994456069169906e-06,
	"loss": 0.2219,
	"step": 73
	},
	{
	"epoch": 5.705882352941177,
	"grad_norm": 1.2037511840449118,
	"learning_rate": 1.9234603231439e-06,
	"loss": 0.2204,
	"step": 74
	},
	{
	"epoch": 5.784313725490196,
	"grad_norm": 1.1530325179032028,
	"learning_rate": 1.852952387243698e-06,
	"loss": 0.22,
	"step": 75
	},
	{
	"epoch": 5.862745098039216,
	"grad_norm": 1.1780261182347391,
	"learning_rate": 1.7829919182222752e-06,
	"loss": 0.2199,
	"step": 76
	},
	{
	"epoch": 5.9411764705882355,
	"grad_norm": 1.1895169708488194,
	"learning_rate": 1.7136381096209665e-06,
	"loss": 0.2037,
	"step": 77
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.0854093120483197,
	"learning_rate": 1.6449496416858285e-06,
	"loss": 0.1583,
	"step": 78
	},
	{
	"epoch": 6.078431372549019,
	"grad_norm": 1.0801354684612592,
	"learning_rate": 1.5769846317182894e-06,
	"loss": 0.1934,
	"step": 79
	},
	{
	"epoch": 6.1568627450980395,
	"grad_norm": 1.0439246440370717,
	"learning_rate": 1.509800584902108e-06,
	"loss": 0.1705,
	"step": 80
	},
	{
	"epoch": 6.235294117647059,
	"grad_norm": 1.0284457474816655,
	"learning_rate": 1.443454345648252e-06,
	"loss": 0.1723,
	"step": 81
	},
	{
	"epoch": 6.313725490196078,
	"grad_norm": 0.9926653408766625,
	"learning_rate": 1.3780020494988447e-06,
	"loss": 0.1792,
	"step": 82
	},
	{
	"epoch": 6.392156862745098,
	"grad_norm": 1.0138502371712474,
	"learning_rate": 1.313499075630899e-06,
	"loss": 0.1679,
	"step": 83
	},
	{
	"epoch": 6.470588235294118,
	"grad_norm": 1.0083965688320564,
	"learning_rate": 1.2500000000000007e-06,
	"loss": 0.169,
	"step": 84
	},
	{
	"epoch": 6.549019607843137,
	"grad_norm": 1.0514389443911982,
	"learning_rate": 1.1875585491636e-06,
	"loss": 0.1807,
	"step": 85
	},
	{
	"epoch": 6.627450980392156,
	"grad_norm": 1.0545495890932062,
	"learning_rate": 1.1262275548229852e-06,
	"loss": 0.1735,
	"step": 86
	},
	{
	"epoch": 6.705882352941177,
	"grad_norm": 1.1020211072090924,
	"learning_rate": 1.0660589091223854e-06,
	"loss": 0.1728,
	"step": 87
	},
	{
	"epoch": 6.784313725490196,
	"grad_norm": 1.0983738677411488,
	"learning_rate": 1.0071035207430352e-06,
	"loss": 0.171,
	"step": 88
	},
	{
	"epoch": 6.862745098039216,
	"grad_norm": 1.0848006154577043,
	"learning_rate": 9.494112718293503e-07,
	"loss": 0.1761,
	"step": 89
	},
	{
	"epoch": 6.9411764705882355,
	"grad_norm": 1.0504620709430657,
	"learning_rate": 8.930309757836517e-07,
	"loss": 0.1689,
	"step": 90
	},
	{
	"epoch": 7.0,
	"grad_norm": 1.0335128775784548,
	"learning_rate": 8.380103359651554e-07,
	"loss": 0.1193,
	"step": 91
	},
	{
	"epoch": 7.078431372549019,
	"grad_norm": 0.9668349947212325,
	"learning_rate": 7.843959053281663e-07,
	"loss": 0.1531,
	"step": 92
	},
	{
	"epoch": 7.1568627450980395,
	"grad_norm": 0.9049193018844318,
	"learning_rate": 7.322330470336314e-07,
	"loss": 0.1449,
	"step": 93
	},
	{
	"epoch": 7.235294117647059,
	"grad_norm": 0.8855250299857752,
	"learning_rate": 6.815658960673782e-07,
	"loss": 0.1398,
	"step": 94
	},
	{
	"epoch": 7.313725490196078,
	"grad_norm": 0.9608687848192914,
	"learning_rate": 6.324373218975105e-07,
	"loss": 0.1487,
	"step": 95
	},
	{
	"epoch": 7.392156862745098,
	"grad_norm": 0.9692880229899594,
	"learning_rate": 5.848888922025553e-07,
	"loss": 0.1403,
	"step": 96
	},
	{
	"epoch": 7.470588235294118,
	"grad_norm": 0.9035708627250062,
	"learning_rate": 5.389608377010608e-07,
	"loss": 0.1449,
	"step": 97
	},
	{
	"epoch": 7.549019607843137,
	"grad_norm": 0.8748928881891229,
	"learning_rate": 4.946920181123904e-07,
	"loss": 0.1451,
	"step": 98
	},
	{
	"epoch": 7.627450980392156,
	"grad_norm": 0.8912371091414796,
	"learning_rate": 4.5211988927752026e-07,
	"loss": 0.134,
	"step": 99
	},
	{
	"epoch": 7.705882352941177,
	"grad_norm": 0.9454342145405766,
	"learning_rate": 4.1128047146765936e-07,
	"loss": 0.1497,
	"step": 100
	},
	{
	"epoch": 7.784313725490196,
	"grad_norm": 0.9466608405460601,
	"learning_rate": 3.722083189075007e-07,
	"loss": 0.1523,
	"step": 101
	},
	{
	"epoch": 7.862745098039216,
	"grad_norm": 0.9716836299571869,
	"learning_rate": 3.3493649053890325e-07,
	"loss": 0.1406,
	"step": 102
	},
	{
	"epoch": 7.9411764705882355,
	"grad_norm": 0.9517618408879835,
	"learning_rate": 2.9949652204972257e-07,
	"loss": 0.1414,
	"step": 103
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.8961669761492526,
	"learning_rate": 2.6591839919146963e-07,
	"loss": 0.0988,
	"step": 104
	},
	{
	"epoch": 8.07843137254902,
	"grad_norm": 0.8800809597012162,
	"learning_rate": 2.3423053240837518e-07,
	"loss": 0.1326,
	"step": 105
	},
	{
	"epoch": 8.156862745098039,
	"grad_norm": 0.8678268581817502,
	"learning_rate": 2.044597327993153e-07,
	"loss": 0.1382,
	"step": 106
	},
	{
	"epoch": 8.235294117647058,
	"grad_norm": 0.8749341283858125,
	"learning_rate": 1.7663118943294367e-07,
	"loss": 0.1394,
	"step": 107
	},
	{
	"epoch": 8.313725490196079,
	"grad_norm": 0.8593112391578863,
	"learning_rate": 1.507684480352292e-07,
	"loss": 0.1278,
	"step": 108
	},
	{
	"epoch": 8.392156862745098,
	"grad_norm": 0.9129847126820709,
	"learning_rate": 1.2689339106741529e-07,
	"loss": 0.1391,
	"step": 109
	},
	{
	"epoch": 8.470588235294118,
	"grad_norm": 0.8656126791419273,
	"learning_rate": 1.0502621921127776e-07,
	"loss": 0.1311,
	"step": 110
	},
	{
	"epoch": 8.549019607843137,
	"grad_norm": 0.8593751089585534,
	"learning_rate": 8.518543427732951e-08,
	"loss": 0.1296,
	"step": 111
	},
	{
	"epoch": 8.627450980392156,
	"grad_norm": 0.8879560191886899,
	"learning_rate": 6.738782355044048e-08,
	"loss": 0.1263,
	"step": 112
	},
	{
	"epoch": 8.705882352941176,
	"grad_norm": 0.9206743688905853,
	"learning_rate": 5.164844558612131e-08,
	"loss": 0.1381,
	"step": 113
	},
	{
	"epoch": 8.784313725490197,
	"grad_norm": 0.8795400657114122,
	"learning_rate": 3.798061746947995e-08,
	"loss": 0.1282,
	"step": 114
	},
	{
	"epoch": 8.862745098039216,
	"grad_norm": 0.8568365367984947,
	"learning_rate": 2.6395903547638825e-08,
	"loss": 0.1331,
	"step": 115
	},
	{
	"epoch": 8.941176470588236,
	"grad_norm": 0.847262314471311,
	"learning_rate": 1.6904105645142443e-08,
	"loss": 0.1264,
	"step": 116
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.847262314471311,
	"learning_rate": 9.513254770636138e-09,
	"loss": 0.0991,
	"step": 117
	},
	{
	"epoch": 9.07843137254902,
	"grad_norm": 0.8727190548675097,
	"learning_rate": 4.229604321829561e-09,
	"loss": 0.1293,
	"step": 118
	},
	{
	"epoch": 9.156862745098039,
	"grad_norm": 0.816661788373,
	"learning_rate": 1.0576247944985018e-09,
	"loss": 0.1269,
	"step": 119
	},
	{
	"epoch": 9.235294117647058,
	"grad_norm": 0.885147564294731,
	"learning_rate": 0.0,
	"loss": 0.1341,
	"step": 120
	},
	{
	"epoch": 9.235294117647058,
	"step": 120,
	"total_flos": 27074593947648.0,
	"train_loss": 0.388430199213326,
	"train_runtime": 2487.6221,
	"train_samples_per_second": 1.624,
	"train_steps_per_second": 0.048
	}
	],
	"logging_steps": 1.0,
	"max_steps": 120,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 27074593947648.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}