Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
.ipynb_checkpoints/README-checkpoint.md +69 -0
README.md +69 -0
all_results.json +9 -0
chat_template.jinja +154 -0
config.json +113 -0
generation_config.json +10 -0
model.safetensors +3 -0
processor_config.json +60 -0
tokenizer.json +3 -0
tokenizer_config.json +33 -0
train_results.json +9 -0
trainer_log.jsonl +164 -0
trainer_state.json +1184 -0
training_args.bin +3 -0
training_loss.png +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

.ipynb_checkpoints/README-checkpoint.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+library_name: transformers
+license: other
+base_model: Qwen3.5-9B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: qwen35_caption_galore
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen35_caption_galore
+This model is a fine-tuned version of [/workspace/models/Qwen3.5-9B](https://huggingface.co//workspace/models/Qwen3.5-9B) on the my_caption dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+    family_to_muon_lr = {
+        "language": _fallback(getattr(training_args, "language_muon_lr", 4e-5), language_lr),
+        "vision": _fallback(getattr(training_args, "vision_muon_lr", 1e-5), vision_lr),
+        "merger": _fallback(getattr(training_args, "merger_muon_lr", 1e-4), merger_lr),
+    }
+    family_to_adamw_lr = {
+        "language": _fallback(getattr(training_args, "language_adamw_lr", 1e-5), language_lr),
+        "vision": _fallback(getattr(training_args, "vision_adamw_lr", 1e-6), vision_lr),
+        "merger": _fallback(getattr(training_args, "merger_adamw_lr", 1e-5), merger_lr),
+    }
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine_with_min_lr
+- lr_scheduler_warmup_steps: 0.05
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 5.5.0
+- Pytorch 2.11.0+cu128
+- Datasets 4.0.0
+- Tokenizers 0.22.2

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+library_name: transformers
+license: other
+base_model: Qwen3.5-9B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: qwen35_caption_galore
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen35_caption_galore
+This model is a fine-tuned version of [/workspace/models/Qwen3.5-9B](https://huggingface.co//workspace/models/Qwen3.5-9B) on the my_caption dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+    family_to_muon_lr = {
+        "language": _fallback(getattr(training_args, "language_muon_lr", 4e-5), language_lr),
+        "vision": _fallback(getattr(training_args, "vision_muon_lr", 1e-5), vision_lr),
+        "merger": _fallback(getattr(training_args, "merger_muon_lr", 1e-4), merger_lr),
+    }
+    family_to_adamw_lr = {
+        "language": _fallback(getattr(training_args, "language_adamw_lr", 1e-5), language_lr),
+        "vision": _fallback(getattr(training_args, "vision_adamw_lr", 1e-6), vision_lr),
+        "merger": _fallback(getattr(training_args, "merger_adamw_lr", 1e-5), merger_lr),
+    }
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine_with_min_lr
+- lr_scheduler_warmup_steps: 0.05
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 5.5.0
+- Pytorch 2.11.0+cu128
+- Datasets 4.0.0
+- Tokenizers 0.22.2

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "effective_tokens_per_sec": 4074.350224923108,
+    "epoch": 1.0,
+    "total_flos": 8.183535699912294e+17,
+    "train_loss": 1.4031060467437138,
+    "train_runtime": 3980.916,
+    "train_samples_per_second": 2.629,
+    "train_steps_per_second": 0.082
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,154 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count, is_system_content=false) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain images.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Picture ' ~ image_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|image_pad|><|vision_end|>' }}
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain videos.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Video ' ~ video_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|video_pad|><|vision_end|>' }}
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- else %}
+                {{- raise_exception('Unexpected item type in content.') }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif content is none or content is undefined %}
+        {{- '' }}
+    {%- else %}
+        {{- raise_exception('Unexpected content type.') }}
+    {%- endif %}
+{%- endmacro %}
+{%- if not messages %}
+    {{- raise_exception('No messages provided.') }}
+{%- endif %}
+{%- if tools and tools is iterable and tools is not mapping %}
+    {{- '<|im_start|>system\n' }}
+    {{- "# Tools\n\nYou have access to the following functions:\n\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>" }}
+    {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {%- if content %}
+            {{- '\n\n' + content }}
+        {%- endif %}
+    {%- endif %}
+    {{- '<|im_end|>\n' }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {{- '<|im_start|>system\n' + content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false)|trim %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if ns.multi_step_tool %}
+    {{- raise_exception('No user query found in messages.') }}
+{%- endif %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, true)|trim %}
+    {%- if message.role == "system" %}
+        {%- if not loop.first %}
+            {{- raise_exception('System message must be at the beginning.') }}
+        {%- endif %}
+    {%- elif message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- set reasoning_content = reasoning_content|trim %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if tool_call.function is defined %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {%- if loop.first %}
+                    {%- if content|trim %}
+                        {{- '\n\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- else %}
+                        {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- endif %}
+                {%- else %}
+                    {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                {%- endif %}
+                {%- if tool_call.arguments is defined %}
+                    {%- for args_name, args_value in tool_call.arguments|items %}
+                        {{- '<parameter=' + args_name + '>\n' }}
+                        {%- set args_value = args_value | tojson | safe if args_value is mapping or (args_value is sequence and args_value is not string) else args_value | string %}
+                        {{- args_value }}
+                        {{- '\n</parameter>\n' }}
+                    {%- endfor %}
+                {%- endif %}
+                {{- '</function>\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.previtem and loop.previtem.role != "tool" %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if not loop.last and loop.nextitem.role != "tool" %}
+            {{- '<|im_end|>\n' }}
+        {%- elif loop.last %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- else %}
+        {{- raise_exception('Unexpected message role.') }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,113 @@

+{
+  "architectures": [
+    "Qwen3_5ForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "eos_token_id": 248046,
+  "hidden_size": 4096,
+  "image_token_id": 248056,
+  "model_type": "qwen3_5",
+  "pad_token_id": 248044,
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_output_gate": true,
+    "bos_token_id": null,
+    "dtype": "bfloat16",
+    "eos_token_id": 248044,
+    "full_attention_interval": 4,
+    "head_dim": 256,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "layer_types": [
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention",
+      "linear_attention",
+      "linear_attention",
+      "linear_attention",
+      "full_attention"
+    ],
+    "linear_conv_kernel_dim": 4,
+    "linear_key_head_dim": 128,
+    "linear_num_key_heads": 16,
+    "linear_num_value_heads": 32,
+    "linear_value_head_dim": 128,
+    "mamba_ssm_dtype": "float32",
+    "max_position_embeddings": 262144,
+    "mlp_only_layers": [],
+    "model_type": "qwen3_5_text",
+    "mtp_num_hidden_layers": 1,
+    "mtp_use_dedicated_embeddings": false,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 32,
+    "num_key_value_heads": 4,
+    "pad_token_id": null,
+    "partial_rotary_factor": 0.25,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        11,
+        11,
+        10
+      ],
+      "partial_rotary_factor": 0.25,
+      "rope_theta": 10000000,
+      "rope_type": "default"
+    },
+    "tie_word_embeddings": false,
+    "use_cache": false,
+    "vocab_size": 248320
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "5.5.0",
+  "use_cache": false,
+  "video_token_id": 248057,
+  "vision_config": {
+    "deepstack_visual_indexes": [],
+    "depth": 27,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4304,
+    "model_type": "qwen3_5",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 4096,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 248054,
+  "vision_start_token_id": 248053
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": [
+    248046,
+    248044
+  ],
+  "pad_token_id": 248044,
+  "transformers_version": "5.5.0",
+  "use_cache": true
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:632156ab8249dea449f231344353bf0a640a020392dfdac6bfed3458c8bb0963
+size 18819740168

processor_config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "image_processor": {
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_processor_type": "Qwen2VLImageProcessor",
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "merge_size": 2,
+    "patch_size": 16,
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "longest_edge": 16777216,
+      "shortest_edge": 65536
+    },
+    "temporal_patch_size": 2
+  },
+  "processor_class": "Qwen3VLProcessor",
+  "video_processor": {
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "do_sample_frames": true,
+    "fps": 2,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "max_frames": 768,
+    "merge_size": 2,
+    "min_frames": 4,
+    "patch_size": 16,
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "return_metadata": false,
+    "size": {
+      "longest_edge": 25165824,
+      "shortest_edge": 4096
+    },
+    "temporal_patch_size": 2,
+    "video_processor_type": "Qwen3VLVideoProcessor"
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87a7830d63fcf43bf241c3c5242e96e62dd3fdc29224ca26fed8ea333db72de4
+size 19989343

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_prefix_space": false,
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "image_token": "<|image_pad|>",
+  "is_local": true,
+  "model_max_length": 262144,
+  "model_specific_special_tokens": {
+    "audio_bos_token": "<|audio_start|>",
+    "audio_eos_token": "<|audio_end|>",
+    "audio_token": "<|audio_pad|>",
+    "image_token": "<|image_pad|>",
+    "video_token": "<|video_pad|>",
+    "vision_bos_token": "<|vision_start|>",
+    "vision_eos_token": "<|vision_end|>"
+  },
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "pretokenize_regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?[\\p{L}\\p{M}]+|\\p{N}| ?[^\\s\\p{L}\\p{M}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": null,
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "effective_tokens_per_sec": 4074.350224923108,
+    "epoch": 1.0,
+    "total_flos": 8.183535699912294e+17,
+    "train_loss": 1.4031060467437138,
+    "train_runtime": 3980.916,
+    "train_samples_per_second": 2.629,
+    "train_steps_per_second": 0.082
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,164 @@

+{"current_steps": 2, "total_steps": 327, "loss": 1.96957528591156, "lr": 2.3529411764705885e-06, "epoch": 0.0061162079510703364, "percentage": 0.61, "elapsed_time": "0:00:46", "remaining_time": "2:05:00"}
+{"current_steps": 4, "total_steps": 327, "loss": 2.0347838401794434, "lr": 7.058823529411766e-06, "epoch": 0.012232415902140673, "percentage": 1.22, "elapsed_time": "0:01:09", "remaining_time": "1:33:52"}
+{"current_steps": 6, "total_steps": 327, "loss": 1.9940425157546997, "lr": 1.1764705882352942e-05, "epoch": 0.01834862385321101, "percentage": 1.83, "elapsed_time": "0:01:33", "remaining_time": "1:23:41"}
+{"current_steps": 8, "total_steps": 327, "loss": 2.06846284866333, "lr": 1.647058823529412e-05, "epoch": 0.024464831804281346, "percentage": 2.45, "elapsed_time": "0:01:58", "remaining_time": "1:18:41"}
+{"current_steps": 10, "total_steps": 327, "loss": 1.9072656631469727, "lr": 2.1176470588235296e-05, "epoch": 0.03058103975535168, "percentage": 3.06, "elapsed_time": "0:02:22", "remaining_time": "1:15:24"}
+{"current_steps": 12, "total_steps": 327, "loss": 1.8469384908676147, "lr": 2.5882352941176475e-05, "epoch": 0.03669724770642202, "percentage": 3.67, "elapsed_time": "0:02:46", "remaining_time": "1:13:01"}
+{"current_steps": 14, "total_steps": 327, "loss": 1.822761058807373, "lr": 3.0588235294117644e-05, "epoch": 0.04281345565749235, "percentage": 4.28, "elapsed_time": "0:03:10", "remaining_time": "1:11:08"}
+{"current_steps": 16, "total_steps": 327, "loss": 1.7572168111801147, "lr": 3.529411764705883e-05, "epoch": 0.04892966360856269, "percentage": 4.89, "elapsed_time": "0:03:35", "remaining_time": "1:09:45"}
+{"current_steps": 18, "total_steps": 327, "loss": 1.7028628587722778, "lr": 4e-05, "epoch": 0.05504587155963303, "percentage": 5.5, "elapsed_time": "0:03:58", "remaining_time": "1:08:14"}
+{"current_steps": 20, "total_steps": 327, "loss": 1.8212647438049316, "lr": 3.999630287622123e-05, "epoch": 0.06116207951070336, "percentage": 6.12, "elapsed_time": "0:04:22", "remaining_time": "1:07:13"}
+{"current_steps": 22, "total_steps": 327, "loss": 1.6563327312469482, "lr": 3.9985213023632064e-05, "epoch": 0.0672782874617737, "percentage": 6.73, "elapsed_time": "0:04:47", "remaining_time": "1:06:21"}
+{"current_steps": 24, "total_steps": 327, "loss": 1.6510090827941895, "lr": 3.996673499785002e-05, "epoch": 0.07339449541284404, "percentage": 7.34, "elapsed_time": "0:05:10", "remaining_time": "1:05:21"}
+{"current_steps": 26, "total_steps": 327, "loss": 1.5338315963745117, "lr": 3.99408763894916e-05, "epoch": 0.07951070336391437, "percentage": 7.95, "elapsed_time": "0:05:35", "remaining_time": "1:04:38"}
+{"current_steps": 28, "total_steps": 327, "loss": 1.451381802558899, "lr": 3.9907647821054114e-05, "epoch": 0.0856269113149847, "percentage": 8.56, "elapsed_time": "0:05:59", "remaining_time": "1:04:03"}
+{"current_steps": 30, "total_steps": 327, "loss": 1.5903527736663818, "lr": 3.986706294255207e-05, "epoch": 0.09174311926605505, "percentage": 9.17, "elapsed_time": "0:06:24", "remaining_time": "1:03:25"}
+{"current_steps": 32, "total_steps": 327, "loss": 1.5307936668395996, "lr": 3.981913842590985e-05, "epoch": 0.09785932721712538, "percentage": 9.79, "elapsed_time": "0:06:48", "remaining_time": "1:02:42"}
+{"current_steps": 34, "total_steps": 327, "loss": 1.413094401359558, "lr": 3.9763893958113005e-05, "epoch": 0.10397553516819572, "percentage": 10.4, "elapsed_time": "0:07:12", "remaining_time": "1:02:03"}
+{"current_steps": 36, "total_steps": 327, "loss": 1.4268063306808472, "lr": 3.970135223312103e-05, "epoch": 0.11009174311926606, "percentage": 11.01, "elapsed_time": "0:07:36", "remaining_time": "1:01:26"}
+{"current_steps": 38, "total_steps": 327, "loss": 1.4923566579818726, "lr": 3.96315389425449e-05, "epoch": 0.1162079510703364, "percentage": 11.62, "elapsed_time": "0:08:00", "remaining_time": "1:00:55"}
+{"current_steps": 40, "total_steps": 327, "loss": 1.574055790901184, "lr": 3.9554482765093134e-05, "epoch": 0.12232415902140673, "percentage": 12.23, "elapsed_time": "0:08:23", "remaining_time": "1:00:11"}
+{"current_steps": 42, "total_steps": 327, "loss": 1.415814995765686, "lr": 3.947021535479083e-05, "epoch": 0.12844036697247707, "percentage": 12.84, "elapsed_time": "0:08:47", "remaining_time": "0:59:39"}
+{"current_steps": 44, "total_steps": 327, "loss": 1.4422385692596436, "lr": 3.937877132797649e-05, "epoch": 0.1345565749235474, "percentage": 13.46, "elapsed_time": "0:09:12", "remaining_time": "0:59:12"}
+{"current_steps": 46, "total_steps": 327, "loss": 1.4337655305862427, "lr": 3.928018824908187e-05, "epoch": 0.14067278287461774, "percentage": 14.07, "elapsed_time": "0:09:36", "remaining_time": "0:58:41"}
+{"current_steps": 48, "total_steps": 327, "loss": 1.5849357843399048, "lr": 3.917450661520088e-05, "epoch": 0.14678899082568808, "percentage": 14.68, "elapsed_time": "0:10:00", "remaining_time": "0:58:09"}
+{"current_steps": 50, "total_steps": 327, "loss": 1.5441187620162964, "lr": 3.906176983945371e-05, "epoch": 0.1529051987767584, "percentage": 15.29, "elapsed_time": "0:10:23", "remaining_time": "0:57:36"}
+{"current_steps": 52, "total_steps": 327, "loss": 1.4055734872817993, "lr": 3.894202423315306e-05, "epoch": 0.15902140672782875, "percentage": 15.9, "elapsed_time": "0:10:47", "remaining_time": "0:57:04"}
+{"current_steps": 54, "total_steps": 327, "loss": 1.543579339981079, "lr": 3.8815318986779875e-05, "epoch": 0.1651376146788991, "percentage": 16.51, "elapsed_time": "0:11:11", "remaining_time": "0:56:33"}
+{"current_steps": 56, "total_steps": 327, "loss": 1.4346128702163696, "lr": 3.868170614977628e-05, "epoch": 0.1712538226299694, "percentage": 17.13, "elapsed_time": "0:11:35", "remaining_time": "0:56:04"}
+{"current_steps": 58, "total_steps": 327, "loss": 1.5318936109542847, "lr": 3.854124060916415e-05, "epoch": 0.17737003058103976, "percentage": 17.74, "elapsed_time": "0:11:59", "remaining_time": "0:55:36"}
+{"current_steps": 60, "total_steps": 327, "loss": 1.3749366998672485, "lr": 3.839398006699797e-05, "epoch": 0.1834862385321101, "percentage": 18.35, "elapsed_time": "0:12:22", "remaining_time": "0:55:03"}
+{"current_steps": 62, "total_steps": 327, "loss": 1.436793565750122, "lr": 3.823998501666131e-05, "epoch": 0.18960244648318042, "percentage": 18.96, "elapsed_time": "0:12:46", "remaining_time": "0:54:34"}
+{"current_steps": 64, "total_steps": 327, "loss": 1.3264566659927368, "lr": 3.8079318718016666e-05, "epoch": 0.19571865443425077, "percentage": 19.57, "elapsed_time": "0:13:09", "remaining_time": "0:54:03"}
+{"current_steps": 66, "total_steps": 327, "loss": 1.4578938484191895, "lr": 3.7912047171418815e-05, "epoch": 0.2018348623853211, "percentage": 20.18, "elapsed_time": "0:13:33", "remaining_time": "0:53:36"}
+{"current_steps": 68, "total_steps": 327, "loss": 1.3888816833496094, "lr": 3.773823909060248e-05, "epoch": 0.20795107033639143, "percentage": 20.8, "elapsed_time": "0:13:57", "remaining_time": "0:53:08"}
+{"current_steps": 70, "total_steps": 327, "loss": 1.4028871059417725, "lr": 3.755796587445528e-05, "epoch": 0.21406727828746178, "percentage": 21.41, "elapsed_time": "0:14:20", "remaining_time": "0:52:39"}
+{"current_steps": 72, "total_steps": 327, "loss": 1.3480572700500488, "lr": 3.7371301577687666e-05, "epoch": 0.22018348623853212, "percentage": 22.02, "elapsed_time": "0:14:44", "remaining_time": "0:52:12"}
+{"current_steps": 74, "total_steps": 327, "loss": 1.4603177309036255, "lr": 3.717832288041188e-05, "epoch": 0.22629969418960244, "percentage": 22.63, "elapsed_time": "0:15:07", "remaining_time": "0:51:43"}
+{"current_steps": 76, "total_steps": 327, "loss": 1.4285566806793213, "lr": 3.697910905664243e-05, "epoch": 0.2324159021406728, "percentage": 23.24, "elapsed_time": "0:15:31", "remaining_time": "0:51:16"}
+{"current_steps": 78, "total_steps": 327, "loss": 1.462870478630066, "lr": 3.6773741941730975e-05, "epoch": 0.23853211009174313, "percentage": 23.85, "elapsed_time": "0:15:55", "remaining_time": "0:50:48"}
+{"current_steps": 80, "total_steps": 327, "loss": 1.3728106021881104, "lr": 3.656230589874905e-05, "epoch": 0.24464831804281345, "percentage": 24.46, "elapsed_time": "0:16:19", "remaining_time": "0:50:22"}
+{"current_steps": 82, "total_steps": 327, "loss": 1.3789210319519043, "lr": 3.6344887783832474e-05, "epoch": 0.25076452599388377, "percentage": 25.08, "elapsed_time": "0:16:42", "remaining_time": "0:49:54"}
+{"current_steps": 84, "total_steps": 327, "loss": 1.438659429550171, "lr": 3.6121576910501517e-05, "epoch": 0.25688073394495414, "percentage": 25.69, "elapsed_time": "0:17:06", "remaining_time": "0:49:30"}
+{"current_steps": 86, "total_steps": 327, "loss": 1.4267497062683105, "lr": 3.589246501297172e-05, "epoch": 0.26299694189602446, "percentage": 26.3, "elapsed_time": "0:17:30", "remaining_time": "0:49:04"}
+{"current_steps": 88, "total_steps": 327, "loss": 1.297946572303772, "lr": 3.565764620847024e-05, "epoch": 0.2691131498470948, "percentage": 26.91, "elapsed_time": "0:17:54", "remaining_time": "0:48:38"}
+{"current_steps": 90, "total_steps": 327, "loss": 1.3422534465789795, "lr": 3.541721695857328e-05, "epoch": 0.27522935779816515, "percentage": 27.52, "elapsed_time": "0:18:18", "remaining_time": "0:48:11"}
+{"current_steps": 92, "total_steps": 327, "loss": 1.3573137521743774, "lr": 3.5171276029580485e-05, "epoch": 0.28134556574923547, "percentage": 28.13, "elapsed_time": "0:18:41", "remaining_time": "0:47:43"}
+{"current_steps": 94, "total_steps": 327, "loss": 1.4575246572494507, "lr": 3.4919924451942625e-05, "epoch": 0.2874617737003058, "percentage": 28.75, "elapsed_time": "0:19:05", "remaining_time": "0:47:18"}
+{"current_steps": 96, "total_steps": 327, "loss": 1.3683665990829468, "lr": 3.466326547875907e-05, "epoch": 0.29357798165137616, "percentage": 29.36, "elapsed_time": "0:19:27", "remaining_time": "0:46:50"}
+{"current_steps": 98, "total_steps": 327, "loss": 1.2624497413635254, "lr": 3.440140454336236e-05, "epoch": 0.2996941896024465, "percentage": 29.97, "elapsed_time": "0:19:51", "remaining_time": "0:46:24"}
+{"current_steps": 100, "total_steps": 327, "loss": 1.4250640869140625, "lr": 3.413444921600705e-05, "epoch": 0.3058103975535168, "percentage": 30.58, "elapsed_time": "0:20:16", "remaining_time": "0:46:00"}
+{"current_steps": 102, "total_steps": 327, "loss": 1.4060899019241333, "lr": 3.3862509159680775e-05, "epoch": 0.3119266055045872, "percentage": 31.19, "elapsed_time": "0:20:39", "remaining_time": "0:45:35"}
+{"current_steps": 104, "total_steps": 327, "loss": 1.44656503200531, "lr": 3.3585696085055594e-05, "epoch": 0.3180428134556575, "percentage": 31.8, "elapsed_time": "0:21:03", "remaining_time": "0:45:10"}
+{"current_steps": 106, "total_steps": 327, "loss": 1.5084904432296753, "lr": 3.330412370459823e-05, "epoch": 0.3241590214067278, "percentage": 32.42, "elapsed_time": "0:21:27", "remaining_time": "0:44:44"}
+{"current_steps": 108, "total_steps": 327, "loss": 1.4001638889312744, "lr": 3.301790768585793e-05, "epoch": 0.3302752293577982, "percentage": 33.03, "elapsed_time": "0:21:51", "remaining_time": "0:44:18"}
+{"current_steps": 110, "total_steps": 327, "loss": 1.4370101690292358, "lr": 3.272716560395123e-05, "epoch": 0.3363914373088685, "percentage": 33.64, "elapsed_time": "0:22:14", "remaining_time": "0:43:52"}
+{"current_steps": 112, "total_steps": 327, "loss": 1.4086581468582153, "lr": 3.243201689326306e-05, "epoch": 0.3425076452599388, "percentage": 34.25, "elapsed_time": "0:22:37", "remaining_time": "0:43:26"}
+{"current_steps": 114, "total_steps": 327, "loss": 1.389402151107788, "lr": 3.213258279838416e-05, "epoch": 0.3486238532110092, "percentage": 34.86, "elapsed_time": "0:23:01", "remaining_time": "0:43:01"}
+{"current_steps": 116, "total_steps": 327, "loss": 1.371553897857666, "lr": 3.182898632430479e-05, "epoch": 0.3547400611620795, "percentage": 35.47, "elapsed_time": "0:23:25", "remaining_time": "0:42:37"}
+{"current_steps": 118, "total_steps": 327, "loss": 1.4507074356079102, "lr": 3.1521352185885326e-05, "epoch": 0.36085626911314983, "percentage": 36.09, "elapsed_time": "0:23:49", "remaining_time": "0:42:12"}
+{"current_steps": 120, "total_steps": 327, "loss": 1.3349779844284058, "lr": 3.120980675662449e-05, "epoch": 0.3669724770642202, "percentage": 36.7, "elapsed_time": "0:24:13", "remaining_time": "0:41:47"}
+{"current_steps": 122, "total_steps": 327, "loss": 1.3503204584121704, "lr": 3.0894478016746106e-05, "epoch": 0.3730886850152905, "percentage": 37.31, "elapsed_time": "0:24:37", "remaining_time": "0:41:22"}
+{"current_steps": 124, "total_steps": 327, "loss": 1.4363230466842651, "lr": 3.0575495500626015e-05, "epoch": 0.37920489296636084, "percentage": 37.92, "elapsed_time": "0:25:01", "remaining_time": "0:40:58"}
+{"current_steps": 126, "total_steps": 327, "loss": 1.3254035711288452, "lr": 3.025299024358036e-05, "epoch": 0.3853211009174312, "percentage": 38.53, "elapsed_time": "0:25:25", "remaining_time": "0:40:33"}
+{"current_steps": 128, "total_steps": 327, "loss": 1.410750389099121, "lr": 2.9927094728037422e-05, "epoch": 0.39143730886850153, "percentage": 39.14, "elapsed_time": "0:25:49", "remaining_time": "0:40:08"}
+{"current_steps": 130, "total_steps": 327, "loss": 1.397456169128418, "lr": 2.9597942829114976e-05, "epoch": 0.39755351681957185, "percentage": 39.76, "elapsed_time": "0:26:14", "remaining_time": "0:39:45"}
+{"current_steps": 132, "total_steps": 327, "loss": 1.3679834604263306, "lr": 2.926566975962551e-05, "epoch": 0.4036697247706422, "percentage": 40.37, "elapsed_time": "0:26:37", "remaining_time": "0:39:19"}
+{"current_steps": 134, "total_steps": 327, "loss": 1.4191218614578247, "lr": 2.8930412014531924e-05, "epoch": 0.40978593272171254, "percentage": 40.98, "elapsed_time": "0:27:00", "remaining_time": "0:38:54"}
+{"current_steps": 136, "total_steps": 327, "loss": 1.2690709829330444, "lr": 2.859230731487661e-05, "epoch": 0.41590214067278286, "percentage": 41.59, "elapsed_time": "0:27:24", "remaining_time": "0:38:28"}
+{"current_steps": 138, "total_steps": 327, "loss": 1.3012070655822754, "lr": 2.8251494551206767e-05, "epoch": 0.42201834862385323, "percentage": 42.2, "elapsed_time": "0:27:48", "remaining_time": "0:38:04"}
+{"current_steps": 140, "total_steps": 327, "loss": 1.2863593101501465, "lr": 2.7908113726519356e-05, "epoch": 0.42813455657492355, "percentage": 42.81, "elapsed_time": "0:28:12", "remaining_time": "0:37:40"}
+{"current_steps": 142, "total_steps": 327, "loss": 1.442170262336731, "lr": 2.7562305898749054e-05, "epoch": 0.43425076452599387, "percentage": 43.43, "elapsed_time": "0:28:36", "remaining_time": "0:37:16"}
+{"current_steps": 144, "total_steps": 327, "loss": 1.3614513874053955, "lr": 2.7214213122822864e-05, "epoch": 0.44036697247706424, "percentage": 44.04, "elapsed_time": "0:29:00", "remaining_time": "0:36:52"}
+{"current_steps": 146, "total_steps": 327, "loss": 1.2583218812942505, "lr": 2.6863978392305118e-05, "epoch": 0.44648318042813456, "percentage": 44.65, "elapsed_time": "0:29:24", "remaining_time": "0:36:27"}
+{"current_steps": 148, "total_steps": 327, "loss": 1.4321554899215698, "lr": 2.651174558065697e-05, "epoch": 0.4525993883792049, "percentage": 45.26, "elapsed_time": "0:29:48", "remaining_time": "0:36:02"}
+{"current_steps": 150, "total_steps": 327, "loss": 1.414106845855713, "lr": 2.6157659382134384e-05, "epoch": 0.45871559633027525, "percentage": 45.87, "elapsed_time": "0:30:13", "remaining_time": "0:35:39"}
+{"current_steps": 152, "total_steps": 327, "loss": 1.4366655349731445, "lr": 2.5801865252348935e-05, "epoch": 0.4648318042813456, "percentage": 46.48, "elapsed_time": "0:30:36", "remaining_time": "0:35:14"}
+{"current_steps": 154, "total_steps": 327, "loss": 1.3970258235931396, "lr": 2.5444509348515912e-05, "epoch": 0.4709480122324159, "percentage": 47.09, "elapsed_time": "0:31:00", "remaining_time": "0:34:50"}
+{"current_steps": 156, "total_steps": 327, "loss": 1.4000701904296875, "lr": 2.508573846941417e-05, "epoch": 0.47706422018348627, "percentage": 47.71, "elapsed_time": "0:31:24", "remaining_time": "0:34:25"}
+{"current_steps": 158, "total_steps": 327, "loss": 1.4267001152038574, "lr": 2.472569999508238e-05, "epoch": 0.4831804281345566, "percentage": 48.32, "elapsed_time": "0:31:48", "remaining_time": "0:34:01"}
+{"current_steps": 160, "total_steps": 327, "loss": 1.4192265272140503, "lr": 2.4364541826276638e-05, "epoch": 0.4892966360856269, "percentage": 48.93, "elapsed_time": "0:32:12", "remaining_time": "0:33:37"}
+{"current_steps": 162, "total_steps": 327, "loss": 1.314334511756897, "lr": 2.4002412323714026e-05, "epoch": 0.4954128440366973, "percentage": 49.54, "elapsed_time": "0:32:37", "remaining_time": "0:33:13"}
+{"current_steps": 164, "total_steps": 327, "loss": 1.355038046836853, "lr": 2.363946024712732e-05, "epoch": 0.5015290519877675, "percentage": 50.15, "elapsed_time": "0:33:01", "remaining_time": "0:32:48"}
+{"current_steps": 166, "total_steps": 327, "loss": 1.2806464433670044, "lr": 2.3275834694155716e-05, "epoch": 0.5076452599388379, "percentage": 50.76, "elapsed_time": "0:33:25", "remaining_time": "0:32:24"}
+{"current_steps": 168, "total_steps": 327, "loss": 1.3307536840438843, "lr": 2.2911685039096834e-05, "epoch": 0.5137614678899083, "percentage": 51.38, "elapsed_time": "0:33:48", "remaining_time": "0:32:00"}
+{"current_steps": 170, "total_steps": 327, "loss": 1.3525010347366333, "lr": 2.2547160871544973e-05, "epoch": 0.5198776758409785, "percentage": 51.99, "elapsed_time": "0:34:12", "remaining_time": "0:31:35"}
+{"current_steps": 172, "total_steps": 327, "loss": 1.3771812915802002, "lr": 2.2182411934941004e-05, "epoch": 0.5259938837920489, "percentage": 52.6, "elapsed_time": "0:34:35", "remaining_time": "0:31:10"}
+{"current_steps": 174, "total_steps": 327, "loss": 1.342699408531189, "lr": 2.1817588065059008e-05, "epoch": 0.5321100917431193, "percentage": 53.21, "elapsed_time": "0:34:59", "remaining_time": "0:30:46"}
+{"current_steps": 176, "total_steps": 327, "loss": 1.3631731271743774, "lr": 2.145283912845504e-05, "epoch": 0.5382262996941896, "percentage": 53.82, "elapsed_time": "0:35:23", "remaining_time": "0:30:22"}
+{"current_steps": 178, "total_steps": 327, "loss": 1.3468397855758667, "lr": 2.1088314960903172e-05, "epoch": 0.5443425076452599, "percentage": 54.43, "elapsed_time": "0:35:47", "remaining_time": "0:29:57"}
+{"current_steps": 180, "total_steps": 327, "loss": 1.3079278469085693, "lr": 2.072416530584429e-05, "epoch": 0.5504587155963303, "percentage": 55.05, "elapsed_time": "0:36:12", "remaining_time": "0:29:34"}
+{"current_steps": 182, "total_steps": 327, "loss": 1.3927726745605469, "lr": 2.0360539752872688e-05, "epoch": 0.5565749235474006, "percentage": 55.66, "elapsed_time": "0:36:35", "remaining_time": "0:29:09"}
+{"current_steps": 184, "total_steps": 327, "loss": 1.3745498657226562, "lr": 1.9997587676285976e-05, "epoch": 0.5626911314984709, "percentage": 56.27, "elapsed_time": "0:36:58", "remaining_time": "0:28:44"}
+{"current_steps": 186, "total_steps": 327, "loss": 1.3934822082519531, "lr": 1.9635458173723365e-05, "epoch": 0.5688073394495413, "percentage": 56.88, "elapsed_time": "0:37:23", "remaining_time": "0:28:20"}
+{"current_steps": 188, "total_steps": 327, "loss": 1.4668513536453247, "lr": 1.9274300004917625e-05, "epoch": 0.5749235474006116, "percentage": 57.49, "elapsed_time": "0:37:46", "remaining_time": "0:27:56"}
+{"current_steps": 190, "total_steps": 327, "loss": 1.2894922494888306, "lr": 1.8914261530585842e-05, "epoch": 0.581039755351682, "percentage": 58.1, "elapsed_time": "0:38:10", "remaining_time": "0:27:31"}
+{"current_steps": 192, "total_steps": 327, "loss": 1.3256540298461914, "lr": 1.855549065148409e-05, "epoch": 0.5871559633027523, "percentage": 58.72, "elapsed_time": "0:38:33", "remaining_time": "0:27:06"}
+{"current_steps": 194, "total_steps": 327, "loss": 1.3802309036254883, "lr": 1.8198134747651067e-05, "epoch": 0.5932721712538226, "percentage": 59.33, "elapsed_time": "0:38:57", "remaining_time": "0:26:42"}
+{"current_steps": 196, "total_steps": 327, "loss": 1.3032485246658325, "lr": 1.7842340617865625e-05, "epoch": 0.599388379204893, "percentage": 59.94, "elapsed_time": "0:39:22", "remaining_time": "0:26:18"}
+{"current_steps": 198, "total_steps": 327, "loss": 1.236058235168457, "lr": 1.748825441934303e-05, "epoch": 0.6055045871559633, "percentage": 60.55, "elapsed_time": "0:39:45", "remaining_time": "0:25:54"}
+{"current_steps": 200, "total_steps": 327, "loss": 1.4403380155563354, "lr": 1.713602160769489e-05, "epoch": 0.6116207951070336, "percentage": 61.16, "elapsed_time": "0:40:09", "remaining_time": "0:25:30"}
+{"current_steps": 202, "total_steps": 327, "loss": 1.3596861362457275, "lr": 1.6785786877177145e-05, "epoch": 0.617737003058104, "percentage": 61.77, "elapsed_time": "0:40:33", "remaining_time": "0:25:05"}
+{"current_steps": 204, "total_steps": 327, "loss": 1.3777844905853271, "lr": 1.643769410125095e-05, "epoch": 0.6238532110091743, "percentage": 62.39, "elapsed_time": "0:40:57", "remaining_time": "0:24:41"}
+{"current_steps": 206, "total_steps": 327, "loss": 1.3549814224243164, "lr": 1.609188627348065e-05, "epoch": 0.6299694189602446, "percentage": 63.0, "elapsed_time": "0:41:21", "remaining_time": "0:24:17"}
+{"current_steps": 208, "total_steps": 327, "loss": 1.2403396368026733, "lr": 1.574850544879324e-05, "epoch": 0.636085626911315, "percentage": 63.61, "elapsed_time": "0:41:45", "remaining_time": "0:23:53"}
+{"current_steps": 210, "total_steps": 327, "loss": 1.3685152530670166, "lr": 1.5407692685123392e-05, "epoch": 0.6422018348623854, "percentage": 64.22, "elapsed_time": "0:42:09", "remaining_time": "0:23:29"}
+{"current_steps": 212, "total_steps": 327, "loss": 1.3501070737838745, "lr": 1.5069587985468078e-05, "epoch": 0.6483180428134556, "percentage": 64.83, "elapsed_time": "0:42:33", "remaining_time": "0:23:05"}
+{"current_steps": 214, "total_steps": 327, "loss": 1.292812466621399, "lr": 1.4734330240374504e-05, "epoch": 0.654434250764526, "percentage": 65.44, "elapsed_time": "0:42:57", "remaining_time": "0:22:40"}
+{"current_steps": 216, "total_steps": 327, "loss": 1.287298560142517, "lr": 1.4402057170885026e-05, "epoch": 0.6605504587155964, "percentage": 66.06, "elapsed_time": "0:43:21", "remaining_time": "0:22:16"}
+{"current_steps": 218, "total_steps": 327, "loss": 1.3475459814071655, "lr": 1.4072905271962585e-05, "epoch": 0.6666666666666666, "percentage": 66.67, "elapsed_time": "0:43:44", "remaining_time": "0:21:52"}
+{"current_steps": 220, "total_steps": 327, "loss": 1.2376188039779663, "lr": 1.3747009756419657e-05, "epoch": 0.672782874617737, "percentage": 67.28, "elapsed_time": "0:44:08", "remaining_time": "0:21:28"}
+{"current_steps": 222, "total_steps": 327, "loss": 1.315477728843689, "lr": 1.3424504499373994e-05, "epoch": 0.6788990825688074, "percentage": 67.89, "elapsed_time": "0:44:32", "remaining_time": "0:21:04"}
+{"current_steps": 224, "total_steps": 327, "loss": 1.364182949066162, "lr": 1.31055219832539e-05, "epoch": 0.6850152905198776, "percentage": 68.5, "elapsed_time": "0:44:55", "remaining_time": "0:20:39"}
+{"current_steps": 226, "total_steps": 327, "loss": 1.3197802305221558, "lr": 1.2790193243375521e-05, "epoch": 0.691131498470948, "percentage": 69.11, "elapsed_time": "0:45:20", "remaining_time": "0:20:15"}
+{"current_steps": 228, "total_steps": 327, "loss": 1.2909021377563477, "lr": 1.2478647814114683e-05, "epoch": 0.6972477064220184, "percentage": 69.72, "elapsed_time": "0:45:44", "remaining_time": "0:19:51"}
+{"current_steps": 230, "total_steps": 327, "loss": 1.2902398109436035, "lr": 1.2171013675695222e-05, "epoch": 0.7033639143730887, "percentage": 70.34, "elapsed_time": "0:46:07", "remaining_time": "0:19:27"}
+{"current_steps": 232, "total_steps": 327, "loss": 1.3986810445785522, "lr": 1.1867417201615848e-05, "epoch": 0.709480122324159, "percentage": 70.95, "elapsed_time": "0:46:31", "remaining_time": "0:19:03"}
+{"current_steps": 234, "total_steps": 327, "loss": 1.2758734226226807, "lr": 1.1567983106736946e-05, "epoch": 0.7155963302752294, "percentage": 71.56, "elapsed_time": "0:46:55", "remaining_time": "0:18:38"}
+{"current_steps": 236, "total_steps": 327, "loss": 1.317265272140503, "lr": 1.1272834396048777e-05, "epoch": 0.7217125382262997, "percentage": 72.17, "elapsed_time": "0:47:19", "remaining_time": "0:18:14"}
+{"current_steps": 238, "total_steps": 327, "loss": 1.4039820432662964, "lr": 1.0982092314142068e-05, "epoch": 0.72782874617737, "percentage": 72.78, "elapsed_time": "0:47:43", "remaining_time": "0:17:50"}
+{"current_steps": 240, "total_steps": 327, "loss": 1.330233097076416, "lr": 1.0695876295401771e-05, "epoch": 0.7339449541284404, "percentage": 73.39, "elapsed_time": "0:48:06", "remaining_time": "0:17:26"}
+{"current_steps": 242, "total_steps": 327, "loss": 1.3207037448883057, "lr": 1.041430391494441e-05, "epoch": 0.7400611620795107, "percentage": 74.01, "elapsed_time": "0:48:30", "remaining_time": "0:17:02"}
+{"current_steps": 244, "total_steps": 327, "loss": 1.3986611366271973, "lr": 1.013749084031923e-05, "epoch": 0.746177370030581, "percentage": 74.62, "elapsed_time": "0:48:56", "remaining_time": "0:16:38"}
+{"current_steps": 246, "total_steps": 327, "loss": 1.3146181106567383, "lr": 9.86555078399295e-06, "epoch": 0.7522935779816514, "percentage": 75.23, "elapsed_time": "0:49:20", "remaining_time": "0:16:14"}
+{"current_steps": 248, "total_steps": 327, "loss": 1.3460875749588013, "lr": 9.598595456637642e-06, "epoch": 0.7584097859327217, "percentage": 75.84, "elapsed_time": "0:49:45", "remaining_time": "0:15:51"}
+{"current_steps": 250, "total_steps": 327, "loss": 1.2672019004821777, "lr": 9.336734521240934e-06, "epoch": 0.764525993883792, "percentage": 76.45, "elapsed_time": "0:50:09", "remaining_time": "0:15:26"}
+{"current_steps": 252, "total_steps": 327, "loss": 1.3179923295974731, "lr": 9.080075548057383e-06, "epoch": 0.7706422018348624, "percentage": 77.06, "elapsed_time": "0:50:32", "remaining_time": "0:15:02"}
+{"current_steps": 254, "total_steps": 327, "loss": 1.4186333417892456, "lr": 8.828723970419519e-06, "epoch": 0.7767584097859327, "percentage": 77.68, "elapsed_time": "0:50:57", "remaining_time": "0:14:38"}
+{"current_steps": 256, "total_steps": 327, "loss": 1.2970129251480103, "lr": 8.582783041426728e-06, "epoch": 0.7828746177370031, "percentage": 78.29, "elapsed_time": "0:51:21", "remaining_time": "0:14:14"}
+{"current_steps": 258, "total_steps": 327, "loss": 1.3273588418960571, "lr": 8.342353791529765e-06, "epoch": 0.7889908256880734, "percentage": 78.9, "elapsed_time": "0:51:44", "remaining_time": "0:13:50"}
+{"current_steps": 260, "total_steps": 327, "loss": 1.3187005519866943, "lr": 8.107534987028286e-06, "epoch": 0.7951070336391437, "percentage": 79.51, "elapsed_time": "0:52:08", "remaining_time": "0:13:26"}
+{"current_steps": 262, "total_steps": 327, "loss": 1.288523554801941, "lr": 7.878423089498492e-06, "epoch": 0.8012232415902141, "percentage": 80.12, "elapsed_time": "0:52:33", "remaining_time": "0:13:02"}
+{"current_steps": 264, "total_steps": 327, "loss": 1.3323516845703125, "lr": 7.655112216167533e-06, "epoch": 0.8073394495412844, "percentage": 80.73, "elapsed_time": "0:52:57", "remaining_time": "0:12:38"}
+{"current_steps": 266, "total_steps": 327, "loss": 1.3667104244232178, "lr": 7.437694101250949e-06, "epoch": 0.8134556574923547, "percentage": 81.35, "elapsed_time": "0:53:21", "remaining_time": "0:12:14"}
+{"current_steps": 268, "total_steps": 327, "loss": 1.354952096939087, "lr": 7.226258058269031e-06, "epoch": 0.8195718654434251, "percentage": 81.96, "elapsed_time": "0:53:45", "remaining_time": "0:11:50"}
+{"current_steps": 270, "total_steps": 327, "loss": 1.2679226398468018, "lr": 7.020890943357573e-06, "epoch": 0.8256880733944955, "percentage": 82.57, "elapsed_time": "0:54:09", "remaining_time": "0:11:26"}
+{"current_steps": 272, "total_steps": 327, "loss": 1.3207221031188965, "lr": 6.821677119588124e-06, "epoch": 0.8318042813455657, "percentage": 83.18, "elapsed_time": "0:54:33", "remaining_time": "0:11:01"}
+{"current_steps": 274, "total_steps": 327, "loss": 1.4085071086883545, "lr": 6.628698422312341e-06, "epoch": 0.8379204892966361, "percentage": 83.79, "elapsed_time": "0:54:57", "remaining_time": "0:10:37"}
+{"current_steps": 276, "total_steps": 327, "loss": 1.3547308444976807, "lr": 6.442034125544726e-06, "epoch": 0.8440366972477065, "percentage": 84.4, "elapsed_time": "0:55:22", "remaining_time": "0:10:13"}
+{"current_steps": 278, "total_steps": 327, "loss": 1.346556305885315, "lr": 6.261760909397523e-06, "epoch": 0.8501529051987767, "percentage": 85.02, "elapsed_time": "0:55:46", "remaining_time": "0:09:49"}
+{"current_steps": 280, "total_steps": 327, "loss": 1.3009809255599976, "lr": 6.087952828581187e-06, "epoch": 0.8562691131498471, "percentage": 85.63, "elapsed_time": "0:56:10", "remaining_time": "0:09:25"}
+{"current_steps": 282, "total_steps": 327, "loss": 1.3994947671890259, "lr": 5.920681281983339e-06, "epoch": 0.8623853211009175, "percentage": 86.24, "elapsed_time": "0:56:34", "remaining_time": "0:09:01"}
+{"current_steps": 284, "total_steps": 327, "loss": 1.291093111038208, "lr": 5.760014983338687e-06, "epoch": 0.8685015290519877, "percentage": 86.85, "elapsed_time": "0:56:58", "remaining_time": "0:08:37"}
+{"current_steps": 286, "total_steps": 327, "loss": 1.2565807104110718, "lr": 5.606019933002025e-06, "epoch": 0.8746177370030581, "percentage": 87.46, "elapsed_time": "0:57:22", "remaining_time": "0:08:13"}
+{"current_steps": 288, "total_steps": 327, "loss": 1.2513775825500488, "lr": 5.458759390835851e-06, "epoch": 0.8807339449541285, "percentage": 88.07, "elapsed_time": "0:57:46", "remaining_time": "0:07:49"}
+{"current_steps": 290, "total_steps": 327, "loss": 1.3214612007141113, "lr": 5.318293850223726e-06, "epoch": 0.8868501529051988, "percentage": 88.69, "elapsed_time": "0:58:09", "remaining_time": "0:07:25"}
+{"current_steps": 292, "total_steps": 327, "loss": 1.4418059587478638, "lr": 5.184681013220134e-06, "epoch": 0.8929663608562691, "percentage": 89.3, "elapsed_time": "0:58:33", "remaining_time": "0:07:01"}
+{"current_steps": 294, "total_steps": 327, "loss": 1.3208688497543335, "lr": 5.057975766846941e-06, "epoch": 0.8990825688073395, "percentage": 89.91, "elapsed_time": "0:58:57", "remaining_time": "0:06:37"}
+{"current_steps": 296, "total_steps": 327, "loss": 1.4112577438354492, "lr": 4.938230160546292e-06, "epoch": 0.9051987767584098, "percentage": 90.52, "elapsed_time": "0:59:20", "remaining_time": "0:06:12"}
+{"current_steps": 298, "total_steps": 327, "loss": 1.356927514076233, "lr": 4.825493384799122e-06, "epoch": 0.9113149847094801, "percentage": 91.13, "elapsed_time": "0:59:44", "remaining_time": "0:05:48"}
+{"current_steps": 300, "total_steps": 327, "loss": 1.3079042434692383, "lr": 4.719811750918136e-06, "epoch": 0.9174311926605505, "percentage": 91.74, "elapsed_time": "1:00:07", "remaining_time": "0:05:24"}
+{"current_steps": 302, "total_steps": 327, "loss": 1.2854888439178467, "lr": 4.621228672023517e-06, "epoch": 0.9235474006116208, "percentage": 92.35, "elapsed_time": "1:00:31", "remaining_time": "0:05:00"}
+{"current_steps": 304, "total_steps": 327, "loss": 1.2977776527404785, "lr": 4.529784645209172e-06, "epoch": 0.9296636085626911, "percentage": 92.97, "elapsed_time": "1:00:54", "remaining_time": "0:04:36"}
+{"current_steps": 306, "total_steps": 327, "loss": 1.2907675504684448, "lr": 4.4455172349068696e-06, "epoch": 0.9357798165137615, "percentage": 93.58, "elapsed_time": "1:01:19", "remaining_time": "0:04:12"}
+{"current_steps": 308, "total_steps": 327, "loss": 1.2298390865325928, "lr": 4.3684610574551e-06, "epoch": 0.9418960244648318, "percentage": 94.19, "elapsed_time": "1:01:43", "remaining_time": "0:03:48"}
+{"current_steps": 310, "total_steps": 327, "loss": 1.3057259321212769, "lr": 4.298647766878974e-06, "epoch": 0.9480122324159022, "percentage": 94.8, "elapsed_time": "1:02:08", "remaining_time": "0:03:24"}
+{"current_steps": 312, "total_steps": 327, "loss": 1.3313639163970947, "lr": 4.236106041887007e-06, "epoch": 0.9541284403669725, "percentage": 95.41, "elapsed_time": "1:02:31", "remaining_time": "0:03:00"}
+{"current_steps": 314, "total_steps": 327, "loss": 1.3252257108688354, "lr": 4.180861574090156e-06, "epoch": 0.9602446483180428, "percentage": 96.02, "elapsed_time": "1:02:55", "remaining_time": "0:02:36"}
+{"current_steps": 316, "total_steps": 327, "loss": 1.258653163909912, "lr": 4.1329370574479296e-06, "epoch": 0.9663608562691132, "percentage": 96.64, "elapsed_time": "1:03:20", "remaining_time": "0:02:12"}
+{"current_steps": 318, "total_steps": 327, "loss": 1.3827545642852783, "lr": 4.0923521789458876e-06, "epoch": 0.9724770642201835, "percentage": 97.25, "elapsed_time": "1:03:44", "remaining_time": "0:01:48"}
+{"current_steps": 320, "total_steps": 327, "loss": 1.2586948871612549, "lr": 4.059123610508407e-06, "epoch": 0.9785932721712538, "percentage": 97.86, "elapsed_time": "1:04:07", "remaining_time": "0:01:24"}
+{"current_steps": 322, "total_steps": 327, "loss": 1.1728885173797607, "lr": 4.033265002149985e-06, "epoch": 0.9847094801223242, "percentage": 98.47, "elapsed_time": "1:04:31", "remaining_time": "0:01:00"}
+{"current_steps": 324, "total_steps": 327, "loss": 1.230262041091919, "lr": 4.014786976367939e-06, "epoch": 0.9908256880733946, "percentage": 99.08, "elapsed_time": "1:04:55", "remaining_time": "0:00:36"}
+{"current_steps": 326, "total_steps": 327, "loss": 1.3188743591308594, "lr": 4.00369712377877e-06, "epoch": 0.9969418960244648, "percentage": 99.69, "elapsed_time": "1:05:18", "remaining_time": "0:00:12"}
+{"current_steps": 327, "total_steps": 327, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "1:06:20", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1184 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 327,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0061162079510703364,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.3529411764705885e-06,
+      "loss": 1.96957528591156,
+      "step": 2
+    },
+    {
+      "epoch": 0.012232415902140673,
+      "grad_norm": 0.65234375,
+      "learning_rate": 7.058823529411766e-06,
+      "loss": 2.0347838401794434,
+      "step": 4
+    },
+    {
+      "epoch": 0.01834862385321101,
+      "grad_norm": 0.578125,
+      "learning_rate": 1.1764705882352942e-05,
+      "loss": 1.9940425157546997,
+      "step": 6
+    },
+    {
+      "epoch": 0.024464831804281346,
+      "grad_norm": 0.640625,
+      "learning_rate": 1.647058823529412e-05,
+      "loss": 2.06846284866333,
+      "step": 8
+    },
+    {
+      "epoch": 0.03058103975535168,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.1176470588235296e-05,
+      "loss": 1.9072656631469727,
+      "step": 10
+    },
+    {
+      "epoch": 0.03669724770642202,
+      "grad_norm": 0.62109375,
+      "learning_rate": 2.5882352941176475e-05,
+      "loss": 1.8469384908676147,
+      "step": 12
+    },
+    {
+      "epoch": 0.04281345565749235,
+      "grad_norm": 0.67578125,
+      "learning_rate": 3.0588235294117644e-05,
+      "loss": 1.822761058807373,
+      "step": 14
+    },
+    {
+      "epoch": 0.04892966360856269,
+      "grad_norm": 0.59765625,
+      "learning_rate": 3.529411764705883e-05,
+      "loss": 1.7572168111801147,
+      "step": 16
+    },
+    {
+      "epoch": 0.05504587155963303,
+      "grad_norm": 0.45703125,
+      "learning_rate": 4e-05,
+      "loss": 1.7028628587722778,
+      "step": 18
+    },
+    {
+      "epoch": 0.06116207951070336,
+      "grad_norm": 0.6796875,
+      "learning_rate": 3.999630287622123e-05,
+      "loss": 1.8212647438049316,
+      "step": 20
+    },
+    {
+      "epoch": 0.0672782874617737,
+      "grad_norm": 0.40234375,
+      "learning_rate": 3.9985213023632064e-05,
+      "loss": 1.6563327312469482,
+      "step": 22
+    },
+    {
+      "epoch": 0.07339449541284404,
+      "grad_norm": 0.4921875,
+      "learning_rate": 3.996673499785002e-05,
+      "loss": 1.6510090827941895,
+      "step": 24
+    },
+    {
+      "epoch": 0.07951070336391437,
+      "grad_norm": 0.7109375,
+      "learning_rate": 3.99408763894916e-05,
+      "loss": 1.5338315963745117,
+      "step": 26
+    },
+    {
+      "epoch": 0.0856269113149847,
+      "grad_norm": 0.404296875,
+      "learning_rate": 3.9907647821054114e-05,
+      "loss": 1.451381802558899,
+      "step": 28
+    },
+    {
+      "epoch": 0.09174311926605505,
+      "grad_norm": 0.30859375,
+      "learning_rate": 3.986706294255207e-05,
+      "loss": 1.5903527736663818,
+      "step": 30
+    },
+    {
+      "epoch": 0.09785932721712538,
+      "grad_norm": 0.5078125,
+      "learning_rate": 3.981913842590985e-05,
+      "loss": 1.5307936668395996,
+      "step": 32
+    },
+    {
+      "epoch": 0.10397553516819572,
+      "grad_norm": 0.314453125,
+      "learning_rate": 3.9763893958113005e-05,
+      "loss": 1.413094401359558,
+      "step": 34
+    },
+    {
+      "epoch": 0.11009174311926606,
+      "grad_norm": 0.625,
+      "learning_rate": 3.970135223312103e-05,
+      "loss": 1.4268063306808472,
+      "step": 36
+    },
+    {
+      "epoch": 0.1162079510703364,
+      "grad_norm": 0.291015625,
+      "learning_rate": 3.96315389425449e-05,
+      "loss": 1.4923566579818726,
+      "step": 38
+    },
+    {
+      "epoch": 0.12232415902140673,
+      "grad_norm": 0.298828125,
+      "learning_rate": 3.9554482765093134e-05,
+      "loss": 1.574055790901184,
+      "step": 40
+    },
+    {
+      "epoch": 0.12844036697247707,
+      "grad_norm": 0.474609375,
+      "learning_rate": 3.947021535479083e-05,
+      "loss": 1.415814995765686,
+      "step": 42
+    },
+    {
+      "epoch": 0.1345565749235474,
+      "grad_norm": 0.37109375,
+      "learning_rate": 3.937877132797649e-05,
+      "loss": 1.4422385692596436,
+      "step": 44
+    },
+    {
+      "epoch": 0.14067278287461774,
+      "grad_norm": 0.375,
+      "learning_rate": 3.928018824908187e-05,
+      "loss": 1.4337655305862427,
+      "step": 46
+    },
+    {
+      "epoch": 0.14678899082568808,
+      "grad_norm": 0.478515625,
+      "learning_rate": 3.917450661520088e-05,
+      "loss": 1.5849357843399048,
+      "step": 48
+    },
+    {
+      "epoch": 0.1529051987767584,
+      "grad_norm": 0.578125,
+      "learning_rate": 3.906176983945371e-05,
+      "loss": 1.5441187620162964,
+      "step": 50
+    },
+    {
+      "epoch": 0.15902140672782875,
+      "grad_norm": 0.310546875,
+      "learning_rate": 3.894202423315306e-05,
+      "loss": 1.4055734872817993,
+      "step": 52
+    },
+    {
+      "epoch": 0.1651376146788991,
+      "grad_norm": 0.36328125,
+      "learning_rate": 3.8815318986779875e-05,
+      "loss": 1.543579339981079,
+      "step": 54
+    },
+    {
+      "epoch": 0.1712538226299694,
+      "grad_norm": 0.328125,
+      "learning_rate": 3.868170614977628e-05,
+      "loss": 1.4346128702163696,
+      "step": 56
+    },
+    {
+      "epoch": 0.17737003058103976,
+      "grad_norm": 0.310546875,
+      "learning_rate": 3.854124060916415e-05,
+      "loss": 1.5318936109542847,
+      "step": 58
+    },
+    {
+      "epoch": 0.1834862385321101,
+      "grad_norm": 0.4140625,
+      "learning_rate": 3.839398006699797e-05,
+      "loss": 1.3749366998672485,
+      "step": 60
+    },
+    {
+      "epoch": 0.18960244648318042,
+      "grad_norm": 0.47265625,
+      "learning_rate": 3.823998501666131e-05,
+      "loss": 1.436793565750122,
+      "step": 62
+    },
+    {
+      "epoch": 0.19571865443425077,
+      "grad_norm": 0.40625,
+      "learning_rate": 3.8079318718016666e-05,
+      "loss": 1.3264566659927368,
+      "step": 64
+    },
+    {
+      "epoch": 0.2018348623853211,
+      "grad_norm": 1.34375,
+      "learning_rate": 3.7912047171418815e-05,
+      "loss": 1.4578938484191895,
+      "step": 66
+    },
+    {
+      "epoch": 0.20795107033639143,
+      "grad_norm": 0.490234375,
+      "learning_rate": 3.773823909060248e-05,
+      "loss": 1.3888816833496094,
+      "step": 68
+    },
+    {
+      "epoch": 0.21406727828746178,
+      "grad_norm": 0.33984375,
+      "learning_rate": 3.755796587445528e-05,
+      "loss": 1.4028871059417725,
+      "step": 70
+    },
+    {
+      "epoch": 0.22018348623853212,
+      "grad_norm": 0.287109375,
+      "learning_rate": 3.7371301577687666e-05,
+      "loss": 1.3480572700500488,
+      "step": 72
+    },
+    {
+      "epoch": 0.22629969418960244,
+      "grad_norm": 1.4453125,
+      "learning_rate": 3.717832288041188e-05,
+      "loss": 1.4603177309036255,
+      "step": 74
+    },
+    {
+      "epoch": 0.2324159021406728,
+      "grad_norm": 0.3984375,
+      "learning_rate": 3.697910905664243e-05,
+      "loss": 1.4285566806793213,
+      "step": 76
+    },
+    {
+      "epoch": 0.23853211009174313,
+      "grad_norm": 0.353515625,
+      "learning_rate": 3.6773741941730975e-05,
+      "loss": 1.462870478630066,
+      "step": 78
+    },
+    {
+      "epoch": 0.24464831804281345,
+      "grad_norm": 0.578125,
+      "learning_rate": 3.656230589874905e-05,
+      "loss": 1.3728106021881104,
+      "step": 80
+    },
+    {
+      "epoch": 0.25076452599388377,
+      "grad_norm": 0.35546875,
+      "learning_rate": 3.6344887783832474e-05,
+      "loss": 1.3789210319519043,
+      "step": 82
+    },
+    {
+      "epoch": 0.25688073394495414,
+      "grad_norm": 0.318359375,
+      "learning_rate": 3.6121576910501517e-05,
+      "loss": 1.438659429550171,
+      "step": 84
+    },
+    {
+      "epoch": 0.26299694189602446,
+      "grad_norm": 0.6796875,
+      "learning_rate": 3.589246501297172e-05,
+      "loss": 1.4267497062683105,
+      "step": 86
+    },
+    {
+      "epoch": 0.2691131498470948,
+      "grad_norm": 0.265625,
+      "learning_rate": 3.565764620847024e-05,
+      "loss": 1.297946572303772,
+      "step": 88
+    },
+    {
+      "epoch": 0.27522935779816515,
+      "grad_norm": 0.50390625,
+      "learning_rate": 3.541721695857328e-05,
+      "loss": 1.3422534465789795,
+      "step": 90
+    },
+    {
+      "epoch": 0.28134556574923547,
+      "grad_norm": 0.302734375,
+      "learning_rate": 3.5171276029580485e-05,
+      "loss": 1.3573137521743774,
+      "step": 92
+    },
+    {
+      "epoch": 0.2874617737003058,
+      "grad_norm": 0.58203125,
+      "learning_rate": 3.4919924451942625e-05,
+      "loss": 1.4575246572494507,
+      "step": 94
+    },
+    {
+      "epoch": 0.29357798165137616,
+      "grad_norm": 0.376953125,
+      "learning_rate": 3.466326547875907e-05,
+      "loss": 1.3683665990829468,
+      "step": 96
+    },
+    {
+      "epoch": 0.2996941896024465,
+      "grad_norm": 0.244140625,
+      "learning_rate": 3.440140454336236e-05,
+      "loss": 1.2624497413635254,
+      "step": 98
+    },
+    {
+      "epoch": 0.3058103975535168,
+      "grad_norm": 0.369140625,
+      "learning_rate": 3.413444921600705e-05,
+      "loss": 1.4250640869140625,
+      "step": 100
+    },
+    {
+      "epoch": 0.3119266055045872,
+      "grad_norm": 0.69921875,
+      "learning_rate": 3.3862509159680775e-05,
+      "loss": 1.4060899019241333,
+      "step": 102
+    },
+    {
+      "epoch": 0.3180428134556575,
+      "grad_norm": 0.416015625,
+      "learning_rate": 3.3585696085055594e-05,
+      "loss": 1.44656503200531,
+      "step": 104
+    },
+    {
+      "epoch": 0.3241590214067278,
+      "grad_norm": 0.63671875,
+      "learning_rate": 3.330412370459823e-05,
+      "loss": 1.5084904432296753,
+      "step": 106
+    },
+    {
+      "epoch": 0.3302752293577982,
+      "grad_norm": 0.408203125,
+      "learning_rate": 3.301790768585793e-05,
+      "loss": 1.4001638889312744,
+      "step": 108
+    },
+    {
+      "epoch": 0.3363914373088685,
+      "grad_norm": 0.337890625,
+      "learning_rate": 3.272716560395123e-05,
+      "loss": 1.4370101690292358,
+      "step": 110
+    },
+    {
+      "epoch": 0.3425076452599388,
+      "grad_norm": 0.61328125,
+      "learning_rate": 3.243201689326306e-05,
+      "loss": 1.4086581468582153,
+      "step": 112
+    },
+    {
+      "epoch": 0.3486238532110092,
+      "grad_norm": 0.48828125,
+      "learning_rate": 3.213258279838416e-05,
+      "loss": 1.389402151107788,
+      "step": 114
+    },
+    {
+      "epoch": 0.3547400611620795,
+      "grad_norm": 0.3515625,
+      "learning_rate": 3.182898632430479e-05,
+      "loss": 1.371553897857666,
+      "step": 116
+    },
+    {
+      "epoch": 0.36085626911314983,
+      "grad_norm": 0.392578125,
+      "learning_rate": 3.1521352185885326e-05,
+      "loss": 1.4507074356079102,
+      "step": 118
+    },
+    {
+      "epoch": 0.3669724770642202,
+      "grad_norm": 0.703125,
+      "learning_rate": 3.120980675662449e-05,
+      "loss": 1.3349779844284058,
+      "step": 120
+    },
+    {
+      "epoch": 0.3730886850152905,
+      "grad_norm": 0.357421875,
+      "learning_rate": 3.0894478016746106e-05,
+      "loss": 1.3503204584121704,
+      "step": 122
+    },
+    {
+      "epoch": 0.37920489296636084,
+      "grad_norm": 0.435546875,
+      "learning_rate": 3.0575495500626015e-05,
+      "loss": 1.4363230466842651,
+      "step": 124
+    },
+    {
+      "epoch": 0.3853211009174312,
+      "grad_norm": 0.25390625,
+      "learning_rate": 3.025299024358036e-05,
+      "loss": 1.3254035711288452,
+      "step": 126
+    },
+    {
+      "epoch": 0.39143730886850153,
+      "grad_norm": 0.357421875,
+      "learning_rate": 2.9927094728037422e-05,
+      "loss": 1.410750389099121,
+      "step": 128
+    },
+    {
+      "epoch": 0.39755351681957185,
+      "grad_norm": 0.4609375,
+      "learning_rate": 2.9597942829114976e-05,
+      "loss": 1.397456169128418,
+      "step": 130
+    },
+    {
+      "epoch": 0.4036697247706422,
+      "grad_norm": 0.5,
+      "learning_rate": 2.926566975962551e-05,
+      "loss": 1.3679834604263306,
+      "step": 132
+    },
+    {
+      "epoch": 0.40978593272171254,
+      "grad_norm": 0.380859375,
+      "learning_rate": 2.8930412014531924e-05,
+      "loss": 1.4191218614578247,
+      "step": 134
+    },
+    {
+      "epoch": 0.41590214067278286,
+      "grad_norm": 0.41796875,
+      "learning_rate": 2.859230731487661e-05,
+      "loss": 1.2690709829330444,
+      "step": 136
+    },
+    {
+      "epoch": 0.42201834862385323,
+      "grad_norm": 0.439453125,
+      "learning_rate": 2.8251494551206767e-05,
+      "loss": 1.3012070655822754,
+      "step": 138
+    },
+    {
+      "epoch": 0.42813455657492355,
+      "grad_norm": 0.3515625,
+      "learning_rate": 2.7908113726519356e-05,
+      "loss": 1.2863593101501465,
+      "step": 140
+    },
+    {
+      "epoch": 0.43425076452599387,
+      "grad_norm": 0.498046875,
+      "learning_rate": 2.7562305898749054e-05,
+      "loss": 1.442170262336731,
+      "step": 142
+    },
+    {
+      "epoch": 0.44036697247706424,
+      "grad_norm": 0.3984375,
+      "learning_rate": 2.7214213122822864e-05,
+      "loss": 1.3614513874053955,
+      "step": 144
+    },
+    {
+      "epoch": 0.44648318042813456,
+      "grad_norm": 0.28125,
+      "learning_rate": 2.6863978392305118e-05,
+      "loss": 1.2583218812942505,
+      "step": 146
+    },
+    {
+      "epoch": 0.4525993883792049,
+      "grad_norm": 0.349609375,
+      "learning_rate": 2.651174558065697e-05,
+      "loss": 1.4321554899215698,
+      "step": 148
+    },
+    {
+      "epoch": 0.45871559633027525,
+      "grad_norm": 0.341796875,
+      "learning_rate": 2.6157659382134384e-05,
+      "loss": 1.414106845855713,
+      "step": 150
+    },
+    {
+      "epoch": 0.4648318042813456,
+      "grad_norm": 0.57421875,
+      "learning_rate": 2.5801865252348935e-05,
+      "loss": 1.4366655349731445,
+      "step": 152
+    },
+    {
+      "epoch": 0.4709480122324159,
+      "grad_norm": 0.392578125,
+      "learning_rate": 2.5444509348515912e-05,
+      "loss": 1.3970258235931396,
+      "step": 154
+    },
+    {
+      "epoch": 0.47706422018348627,
+      "grad_norm": 3.078125,
+      "learning_rate": 2.508573846941417e-05,
+      "loss": 1.4000701904296875,
+      "step": 156
+    },
+    {
+      "epoch": 0.4831804281345566,
+      "grad_norm": 0.431640625,
+      "learning_rate": 2.472569999508238e-05,
+      "loss": 1.4267001152038574,
+      "step": 158
+    },
+    {
+      "epoch": 0.4892966360856269,
+      "grad_norm": 0.33203125,
+      "learning_rate": 2.4364541826276638e-05,
+      "loss": 1.4192265272140503,
+      "step": 160
+    },
+    {
+      "epoch": 0.4954128440366973,
+      "grad_norm": 0.283203125,
+      "learning_rate": 2.4002412323714026e-05,
+      "loss": 1.314334511756897,
+      "step": 162
+    },
+    {
+      "epoch": 0.5015290519877675,
+      "grad_norm": 0.56640625,
+      "learning_rate": 2.363946024712732e-05,
+      "loss": 1.355038046836853,
+      "step": 164
+    },
+    {
+      "epoch": 0.5076452599388379,
+      "grad_norm": 0.6484375,
+      "learning_rate": 2.3275834694155716e-05,
+      "loss": 1.2806464433670044,
+      "step": 166
+    },
+    {
+      "epoch": 0.5137614678899083,
+      "grad_norm": 0.6015625,
+      "learning_rate": 2.2911685039096834e-05,
+      "loss": 1.3307536840438843,
+      "step": 168
+    },
+    {
+      "epoch": 0.5198776758409785,
+      "grad_norm": 0.333984375,
+      "learning_rate": 2.2547160871544973e-05,
+      "loss": 1.3525010347366333,
+      "step": 170
+    },
+    {
+      "epoch": 0.5259938837920489,
+      "grad_norm": 0.404296875,
+      "learning_rate": 2.2182411934941004e-05,
+      "loss": 1.3771812915802002,
+      "step": 172
+    },
+    {
+      "epoch": 0.5321100917431193,
+      "grad_norm": 0.337890625,
+      "learning_rate": 2.1817588065059008e-05,
+      "loss": 1.342699408531189,
+      "step": 174
+    },
+    {
+      "epoch": 0.5382262996941896,
+      "grad_norm": 0.52734375,
+      "learning_rate": 2.145283912845504e-05,
+      "loss": 1.3631731271743774,
+      "step": 176
+    },
+    {
+      "epoch": 0.5443425076452599,
+      "grad_norm": 0.4375,
+      "learning_rate": 2.1088314960903172e-05,
+      "loss": 1.3468397855758667,
+      "step": 178
+    },
+    {
+      "epoch": 0.5504587155963303,
+      "grad_norm": 0.341796875,
+      "learning_rate": 2.072416530584429e-05,
+      "loss": 1.3079278469085693,
+      "step": 180
+    },
+    {
+      "epoch": 0.5565749235474006,
+      "grad_norm": 0.478515625,
+      "learning_rate": 2.0360539752872688e-05,
+      "loss": 1.3927726745605469,
+      "step": 182
+    },
+    {
+      "epoch": 0.5626911314984709,
+      "grad_norm": 0.71875,
+      "learning_rate": 1.9997587676285976e-05,
+      "loss": 1.3745498657226562,
+      "step": 184
+    },
+    {
+      "epoch": 0.5688073394495413,
+      "grad_norm": 0.259765625,
+      "learning_rate": 1.9635458173723365e-05,
+      "loss": 1.3934822082519531,
+      "step": 186
+    },
+    {
+      "epoch": 0.5749235474006116,
+      "grad_norm": 0.3203125,
+      "learning_rate": 1.9274300004917625e-05,
+      "loss": 1.4668513536453247,
+      "step": 188
+    },
+    {
+      "epoch": 0.581039755351682,
+      "grad_norm": 0.375,
+      "learning_rate": 1.8914261530585842e-05,
+      "loss": 1.2894922494888306,
+      "step": 190
+    },
+    {
+      "epoch": 0.5871559633027523,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.855549065148409e-05,
+      "loss": 1.3256540298461914,
+      "step": 192
+    },
+    {
+      "epoch": 0.5932721712538226,
+      "grad_norm": 0.92578125,
+      "learning_rate": 1.8198134747651067e-05,
+      "loss": 1.3802309036254883,
+      "step": 194
+    },
+    {
+      "epoch": 0.599388379204893,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.7842340617865625e-05,
+      "loss": 1.3032485246658325,
+      "step": 196
+    },
+    {
+      "epoch": 0.6055045871559633,
+      "grad_norm": 0.54296875,
+      "learning_rate": 1.748825441934303e-05,
+      "loss": 1.236058235168457,
+      "step": 198
+    },
+    {
+      "epoch": 0.6116207951070336,
+      "grad_norm": 0.376953125,
+      "learning_rate": 1.713602160769489e-05,
+      "loss": 1.4403380155563354,
+      "step": 200
+    },
+    {
+      "epoch": 0.617737003058104,
+      "grad_norm": 0.359375,
+      "learning_rate": 1.6785786877177145e-05,
+      "loss": 1.3596861362457275,
+      "step": 202
+    },
+    {
+      "epoch": 0.6238532110091743,
+      "grad_norm": 0.408203125,
+      "learning_rate": 1.643769410125095e-05,
+      "loss": 1.3777844905853271,
+      "step": 204
+    },
+    {
+      "epoch": 0.6299694189602446,
+      "grad_norm": 0.4609375,
+      "learning_rate": 1.609188627348065e-05,
+      "loss": 1.3549814224243164,
+      "step": 206
+    },
+    {
+      "epoch": 0.636085626911315,
+      "grad_norm": 0.60546875,
+      "learning_rate": 1.574850544879324e-05,
+      "loss": 1.2403396368026733,
+      "step": 208
+    },
+    {
+      "epoch": 0.6422018348623854,
+      "grad_norm": 0.421875,
+      "learning_rate": 1.5407692685123392e-05,
+      "loss": 1.3685152530670166,
+      "step": 210
+    },
+    {
+      "epoch": 0.6483180428134556,
+      "grad_norm": 0.298828125,
+      "learning_rate": 1.5069587985468078e-05,
+      "loss": 1.3501070737838745,
+      "step": 212
+    },
+    {
+      "epoch": 0.654434250764526,
+      "grad_norm": 0.625,
+      "learning_rate": 1.4734330240374504e-05,
+      "loss": 1.292812466621399,
+      "step": 214
+    },
+    {
+      "epoch": 0.6605504587155964,
+      "grad_norm": 0.3125,
+      "learning_rate": 1.4402057170885026e-05,
+      "loss": 1.287298560142517,
+      "step": 216
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.27734375,
+      "learning_rate": 1.4072905271962585e-05,
+      "loss": 1.3475459814071655,
+      "step": 218
+    },
+    {
+      "epoch": 0.672782874617737,
+      "grad_norm": 0.376953125,
+      "learning_rate": 1.3747009756419657e-05,
+      "loss": 1.2376188039779663,
+      "step": 220
+    },
+    {
+      "epoch": 0.6788990825688074,
+      "grad_norm": 0.47265625,
+      "learning_rate": 1.3424504499373994e-05,
+      "loss": 1.315477728843689,
+      "step": 222
+    },
+    {
+      "epoch": 0.6850152905198776,
+      "grad_norm": 0.365234375,
+      "learning_rate": 1.31055219832539e-05,
+      "loss": 1.364182949066162,
+      "step": 224
+    },
+    {
+      "epoch": 0.691131498470948,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.2790193243375521e-05,
+      "loss": 1.3197802305221558,
+      "step": 226
+    },
+    {
+      "epoch": 0.6972477064220184,
+      "grad_norm": 0.26171875,
+      "learning_rate": 1.2478647814114683e-05,
+      "loss": 1.2909021377563477,
+      "step": 228
+    },
+    {
+      "epoch": 0.7033639143730887,
+      "grad_norm": 0.3984375,
+      "learning_rate": 1.2171013675695222e-05,
+      "loss": 1.2902398109436035,
+      "step": 230
+    },
+    {
+      "epoch": 0.709480122324159,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.1867417201615848e-05,
+      "loss": 1.3986810445785522,
+      "step": 232
+    },
+    {
+      "epoch": 0.7155963302752294,
+      "grad_norm": 0.29296875,
+      "learning_rate": 1.1567983106736946e-05,
+      "loss": 1.2758734226226807,
+      "step": 234
+    },
+    {
+      "epoch": 0.7217125382262997,
+      "grad_norm": 0.37109375,
+      "learning_rate": 1.1272834396048777e-05,
+      "loss": 1.317265272140503,
+      "step": 236
+    },
+    {
+      "epoch": 0.72782874617737,
+      "grad_norm": 3.296875,
+      "learning_rate": 1.0982092314142068e-05,
+      "loss": 1.4039820432662964,
+      "step": 238
+    },
+    {
+      "epoch": 0.7339449541284404,
+      "grad_norm": 0.40234375,
+      "learning_rate": 1.0695876295401771e-05,
+      "loss": 1.330233097076416,
+      "step": 240
+    },
+    {
+      "epoch": 0.7400611620795107,
+      "grad_norm": 1.7890625,
+      "learning_rate": 1.041430391494441e-05,
+      "loss": 1.3207037448883057,
+      "step": 242
+    },
+    {
+      "epoch": 0.746177370030581,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 1.013749084031923e-05,
+      "loss": 1.3986611366271973,
+      "step": 244
+    },
+    {
+      "epoch": 0.7522935779816514,
+      "grad_norm": 0.42578125,
+      "learning_rate": 9.86555078399295e-06,
+      "loss": 1.3146181106567383,
+      "step": 246
+    },
+    {
+      "epoch": 0.7584097859327217,
+      "grad_norm": 0.310546875,
+      "learning_rate": 9.598595456637642e-06,
+      "loss": 1.3460875749588013,
+      "step": 248
+    },
+    {
+      "epoch": 0.764525993883792,
+      "grad_norm": 0.267578125,
+      "learning_rate": 9.336734521240934e-06,
+      "loss": 1.2672019004821777,
+      "step": 250
+    },
+    {
+      "epoch": 0.7706422018348624,
+      "grad_norm": 0.291015625,
+      "learning_rate": 9.080075548057383e-06,
+      "loss": 1.3179923295974731,
+      "step": 252
+    },
+    {
+      "epoch": 0.7767584097859327,
+      "grad_norm": 0.703125,
+      "learning_rate": 8.828723970419519e-06,
+      "loss": 1.4186333417892456,
+      "step": 254
+    },
+    {
+      "epoch": 0.7828746177370031,
+      "grad_norm": 0.390625,
+      "learning_rate": 8.582783041426728e-06,
+      "loss": 1.2970129251480103,
+      "step": 256
+    },
+    {
+      "epoch": 0.7889908256880734,
+      "grad_norm": 0.21875,
+      "learning_rate": 8.342353791529765e-06,
+      "loss": 1.3273588418960571,
+      "step": 258
+    },
+    {
+      "epoch": 0.7951070336391437,
+      "grad_norm": 0.37109375,
+      "learning_rate": 8.107534987028286e-06,
+      "loss": 1.3187005519866943,
+      "step": 260
+    },
+    {
+      "epoch": 0.8012232415902141,
+      "grad_norm": 0.345703125,
+      "learning_rate": 7.878423089498492e-06,
+      "loss": 1.288523554801941,
+      "step": 262
+    },
+    {
+      "epoch": 0.8073394495412844,
+      "grad_norm": 0.6484375,
+      "learning_rate": 7.655112216167533e-06,
+      "loss": 1.3323516845703125,
+      "step": 264
+    },
+    {
+      "epoch": 0.8134556574923547,
+      "grad_norm": 0.345703125,
+      "learning_rate": 7.437694101250949e-06,
+      "loss": 1.3667104244232178,
+      "step": 266
+    },
+    {
+      "epoch": 0.8195718654434251,
+      "grad_norm": 0.294921875,
+      "learning_rate": 7.226258058269031e-06,
+      "loss": 1.354952096939087,
+      "step": 268
+    },
+    {
+      "epoch": 0.8256880733944955,
+      "grad_norm": 0.42578125,
+      "learning_rate": 7.020890943357573e-06,
+      "loss": 1.2679226398468018,
+      "step": 270
+    },
+    {
+      "epoch": 0.8318042813455657,
+      "grad_norm": 0.447265625,
+      "learning_rate": 6.821677119588124e-06,
+      "loss": 1.3207221031188965,
+      "step": 272
+    },
+    {
+      "epoch": 0.8379204892966361,
+      "grad_norm": 0.62109375,
+      "learning_rate": 6.628698422312341e-06,
+      "loss": 1.4085071086883545,
+      "step": 274
+    },
+    {
+      "epoch": 0.8440366972477065,
+      "grad_norm": 0.474609375,
+      "learning_rate": 6.442034125544726e-06,
+      "loss": 1.3547308444976807,
+      "step": 276
+    },
+    {
+      "epoch": 0.8501529051987767,
+      "grad_norm": 0.31640625,
+      "learning_rate": 6.261760909397523e-06,
+      "loss": 1.346556305885315,
+      "step": 278
+    },
+    {
+      "epoch": 0.8562691131498471,
+      "grad_norm": 0.46875,
+      "learning_rate": 6.087952828581187e-06,
+      "loss": 1.3009809255599976,
+      "step": 280
+    },
+    {
+      "epoch": 0.8623853211009175,
+      "grad_norm": 0.8671875,
+      "learning_rate": 5.920681281983339e-06,
+      "loss": 1.3994947671890259,
+      "step": 282
+    },
+    {
+      "epoch": 0.8685015290519877,
+      "grad_norm": 0.23046875,
+      "learning_rate": 5.760014983338687e-06,
+      "loss": 1.291093111038208,
+      "step": 284
+    },
+    {
+      "epoch": 0.8746177370030581,
+      "grad_norm": 0.83984375,
+      "learning_rate": 5.606019933002025e-06,
+      "loss": 1.2565807104110718,
+      "step": 286
+    },
+    {
+      "epoch": 0.8807339449541285,
+      "grad_norm": 0.326171875,
+      "learning_rate": 5.458759390835851e-06,
+      "loss": 1.2513775825500488,
+      "step": 288
+    },
+    {
+      "epoch": 0.8868501529051988,
+      "grad_norm": 0.49609375,
+      "learning_rate": 5.318293850223726e-06,
+      "loss": 1.3214612007141113,
+      "step": 290
+    },
+    {
+      "epoch": 0.8929663608562691,
+      "grad_norm": 0.5859375,
+      "learning_rate": 5.184681013220134e-06,
+      "loss": 1.4418059587478638,
+      "step": 292
+    },
+    {
+      "epoch": 0.8990825688073395,
+      "grad_norm": 0.29296875,
+      "learning_rate": 5.057975766846941e-06,
+      "loss": 1.3208688497543335,
+      "step": 294
+    },
+    {
+      "epoch": 0.9051987767584098,
+      "grad_norm": 0.66796875,
+      "learning_rate": 4.938230160546292e-06,
+      "loss": 1.4112577438354492,
+      "step": 296
+    },
+    {
+      "epoch": 0.9113149847094801,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.825493384799122e-06,
+      "loss": 1.356927514076233,
+      "step": 298
+    },
+    {
+      "epoch": 0.9174311926605505,
+      "grad_norm": 0.357421875,
+      "learning_rate": 4.719811750918136e-06,
+      "loss": 1.3079042434692383,
+      "step": 300
+    },
+    {
+      "epoch": 0.9235474006116208,
+      "grad_norm": 0.40234375,
+      "learning_rate": 4.621228672023517e-06,
+      "loss": 1.2854888439178467,
+      "step": 302
+    },
+    {
+      "epoch": 0.9296636085626911,
+      "grad_norm": 0.2890625,
+      "learning_rate": 4.529784645209172e-06,
+      "loss": 1.2977776527404785,
+      "step": 304
+    },
+    {
+      "epoch": 0.9357798165137615,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.4455172349068696e-06,
+      "loss": 1.2907675504684448,
+      "step": 306
+    },
+    {
+      "epoch": 0.9418960244648318,
+      "grad_norm": 0.53515625,
+      "learning_rate": 4.3684610574551e-06,
+      "loss": 1.2298390865325928,
+      "step": 308
+    },
+    {
+      "epoch": 0.9480122324159022,
+      "grad_norm": 0.33984375,
+      "learning_rate": 4.298647766878974e-06,
+      "loss": 1.3057259321212769,
+      "step": 310
+    },
+    {
+      "epoch": 0.9541284403669725,
+      "grad_norm": 0.3125,
+      "learning_rate": 4.236106041887007e-06,
+      "loss": 1.3313639163970947,
+      "step": 312
+    },
+    {
+      "epoch": 0.9602446483180428,
+      "grad_norm": 0.66015625,
+      "learning_rate": 4.180861574090156e-06,
+      "loss": 1.3252257108688354,
+      "step": 314
+    },
+    {
+      "epoch": 0.9663608562691132,
+      "grad_norm": 0.6171875,
+      "learning_rate": 4.1329370574479296e-06,
+      "loss": 1.258653163909912,
+      "step": 316
+    },
+    {
+      "epoch": 0.9724770642201835,
+      "grad_norm": 0.6328125,
+      "learning_rate": 4.0923521789458876e-06,
+      "loss": 1.3827545642852783,
+      "step": 318
+    },
+    {
+      "epoch": 0.9785932721712538,
+      "grad_norm": 1.2578125,
+      "learning_rate": 4.059123610508407e-06,
+      "loss": 1.2586948871612549,
+      "step": 320
+    },
+    {
+      "epoch": 0.9847094801223242,
+      "grad_norm": 0.333984375,
+      "learning_rate": 4.033265002149985e-06,
+      "loss": 1.1728885173797607,
+      "step": 322
+    },
+    {
+      "epoch": 0.9908256880733946,
+      "grad_norm": 0.37109375,
+      "learning_rate": 4.014786976367939e-06,
+      "loss": 1.230262041091919,
+      "step": 324
+    },
+    {
+      "epoch": 0.9969418960244648,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.00369712377877e-06,
+      "loss": 1.3188743591308594,
+      "step": 326
+    },
+    {
+      "epoch": 1.0,
+      "step": 327,
+      "total_flos": 8.183535699912294e+17,
+      "train_loss": 1.4031060467437138,
+      "train_runtime": 3980.916,
+      "train_samples_per_second": 2.629,
+      "train_steps_per_second": 0.082
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 327,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 9999999,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.183535699912294e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d45cb18d4c3ea7e48a7f69a78dad21eedda21c711e498e7099de63e208f811c
+size 5649

training_loss.png ADDED Viewed