QuangDuy commited on
Commit
78c3975
·
verified ·
1 Parent(s): 7d11bcd

Upload checkpoint-20000

Browse files
checkpoints/checkpoint-20000/1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
checkpoints/checkpoint-20000/README.md ADDED
@@ -0,0 +1,857 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:541248
9
+ - loss:MatryoshkaLoss
10
+ - loss:MultipleNegativesRankingLoss
11
+ base_model: QuangDuy/bert-tiny-stage2-hf
12
+ widget:
13
+ - source_sentence: sở hữu chung là gì?
14
+ sentences:
15
+ - Chủ nghĩa xã hội là một loạt các hệ thống kinh tế và xã hội được đặc trưng bởi
16
+ quyền sở hữu xã hội và quyền kiểm soát dân chủ đối với tư liệu sản xuất, cũng
17
+ như các lý thuyết và phong trào chính trị gắn liền với chúng. Sở hữu xã hội có
18
+ thể đề cập đến các hình thức sở hữu công cộng, tập thể hoặc hợp tác, hoặc quyền
19
+ sở hữu công bằng của công dân. Có nhiều loại hình chủ nghĩa xã hội và không có
20
+ một định nghĩa nào gói gọn tất cả chúng, mặc dù quyền sở hữu xã hội là yếu tố
21
+ chung được chia sẻ bởi các hình thức khác nhau của nó.
22
+ - Sở hữu chung là một chương trình do chính phủ tài trợ để giúp những người mua
23
+ lần đầu, những người sẽ không thể đặt chân lên nấc thang bất động sản. Chương
24
+ trình này chủ yếu được điều hành bởi các hiệp hội nhà ở của London.
25
+ - Malabar nằm gần trung tâm của Florida. Malabar là một phần của Quận Brevard. Malabar
26
+ có 10,67 dặm vuông diện tích đất và 2,57 dặm vuông diện tích mặt nước. Tính đến
27
+ năm 2010, tổng dân số Malabar là 2.757 người, tăng 5,15% kể từ năm 2000. Tỷ lệ
28
+ tăng dân số thấp hơn nhiều so với tỷ lệ trung bình của bang là 17,64% và thấp
29
+ hơn tỷ lệ trung bình của cả nước là 9,71%. Thu nhập trung bình của hộ gia đình
30
+ Malabar là 64.712 đô la trong năm 2008-2012 và đã tăng 30,27% kể từ năm 2000.
31
+ - source_sentence: ludobites là gì?
32
+ sentences:
33
+ - Ludobites là gì? Ludobites là một nhà hàng pop-up theo phong cách du kích do bếp
34
+ trưởng Ludo Lefebvre tạo ra, gần đây đã được giới thiệu là vua của món quesadillas
35
+ tai lợn tan chảy trên Top Chef Masters. Xin đừng giữ điều đó chống lại anh ta,
36
+ những người khác nhau làm việc tốt trong các loại tình huống khác nhau, và trong
37
+ nhà bếp của riêng anh ta, thức ăn của Ludo tỏa sáng.
38
+ - Một từ khác cho oxit boric là gì? Một từ khác cho borickites là gì? Một từ khác
39
+ cho borickite là gì? Một từ khác cho axit boric là gì? Một từ khác cho axit boric
40
+ là gì? Một từ khác cho vi sinh vật là gì? Một từ khác cho ngao ngán là gì? Một
41
+ từ khác cho ngao nhàm chán là gì? Một từ khác cho nhàm chán là gì? Một từ khác
42
+ cho nhàm chán nhất là gì? Một từ khác cho nhàm chán là gì?
43
+ - Nhà máy Tesla là một nhà máy sản xuất ô tô ở Fremont, California, Hoa Kỳ và là
44
+ cơ sở sản xuất chính của Tesla Motors. Xe Tesla Model S mới tại Nhà máy Tesla
45
+ vào năm 2012. Xe sản xuất loạt đầu tiên của nhà máy là Tesla Model S cỡ lớn. sedan
46
+ điện ắc quy. Vào năm 2011, Tesla Motors đã chuyển đổi từ các phiên bản alpha lắp
47
+ ráp thủ công sang các phiên bản beta, những chiếc xe xác nhận sản xuất được chế
48
+ tạo hoàn toàn tại Nhà máy Tesla.
49
+ - source_sentence: galveston indiana ở quận nào
50
+ sentences:
51
+ - Nhà bán ở Galveston, Hạt Cass, Indiana. Tìm nhà và đất ở nông thôn để bán ở Galveston,
52
+ Hạt Cass, Indiana? LandWatch.com có ​​hàng nghìn tài sản nông thôn ở Galveston,
53
+ Hạt Cass, Indiana, bao gồm tài sản săn bắn & câu cá, cabin, Nhà để bán và đấu
54
+ giá đất. Chọn từ những khu đất có diện tích nhỏ đến những khu đất rộng lớn hơn
55
+ 500 mẫu Anh.
56
+ - THÀNH PHỐ TEXAS, TX. THÀNH PHỐ TEXAS, TEXAS. Thành phố Texas, trên bờ Tây Nam
57
+ của Vịnh Galveston cách Galveston bảy dặm và cách Vịnh Mexico ở Quận Galveston
58
+ mười một dặm, là một cảng nước sâu trên đất liền.
59
+ - 'Theo simplehired.com, một kỹ thuật viên nhạc cụ ở nước ngoài có thể kiếm được
60
+ khoảng 61K mỗi năm. Cuộc sống ngoài khơi: Nếu bạn vẫn quan tâm đến các công việc
61
+ cấp độ đầu vào của giàn khoan dầu, hãy biết một điều rằng bạn sẽ phải lấy chứng
62
+ chỉ an toàn và vượt qua cuộc kiểm tra ma túy để được xem xét. ở cấp độ đầu vào,
63
+ công việc giàn khoan dầu khí ngoài khơi có thể kiếm được $ 24 - $ 26 một giờ;
64
+ các nhà khai thác derrick $ 23 - $ 30 mỗi giờ, trong khi thợ khoan ở mức $ 36
65
+ - $ 39.'
66
+ - source_sentence: sắt montainmi ở quận nào
67
+ sentences:
68
+ - 2. Tháo quả địa cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng các vít lắp của
69
+ bộ đèn và hạ bộ đèn ra khỏi động cơ quạt trần. Ngắt kết nối hai dây dẫn đến đèn
70
+ bằng cách tháo các đai ốc của dây. Đặt bộ đèn cũ sang một bên .. Tháo quả địa
71
+ cầu và bóng đèn khỏi bộ đèn hiện có. Nới lỏng các vít lắp của bộ đèn và hạ bộ
72
+ đèn ra khỏi động cơ quạt trần. Ngắt kết nối hai dây dẫn đến đèn bằng cách tháo
73
+ các đai ốc của dây. Đặt bộ đèn cũ sang một bên.
74
+ - Sân bay gần nhất là Sân bay Hạt Rhinelander Oneida (RHI). Khoảng cách từ Rhinelander
75
+ Oneida County Airport đến Iron River là 82,0 km (51,0 dặm).
76
+ - Núi Sắt, Michigan. Núi Sắt là một thành phố ở tiểu bang Michigan của Hoa Kỳ. Dân
77
+ số tại thời điểm điều tra dân số năm 2010 là 7.624 người. Nó là quận lỵ của Quận
78
+ Dickinson, ở Bán đảo Thượng của tiểu bang. Núi Sắt được đặt tên cho quặng sắt
79
+ có giá trị được tìm thấy trong vùng lân cận.
80
+ - source_sentence: các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì
81
+ sentences:
82
+ - Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn dịch được
83
+ sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất chúng, phản ứng
84
+ này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái
85
+ nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp ứng miễn dịch đề cập đến thực tế là
86
+ các globulin miễn dịch được tạo ra đặc trưng cho các kháng nguyên kích thích sản
87
+ xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong
88
+ dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.
89
+ - Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu của Kita
90
+ đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị nghẹt mũi mãn tính
91
+ và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu máu của những người tham gia
92
+ để xem các tế bào của hệ thống miễn dịch cụ thể phản ứng như thế nào với các loại
93
+ nấm thông thường trong không khí.
94
+ - Bảo trì Cơ khí ở Los Angeles Mức lương. Một thợ sửa chữa bảo trì ở Los Angeles,
95
+ California kiếm được mức lương trung bình là 22,11 đô la mỗi giờ. Các kỹ năng
96
+ được trả lương cao nhất liên quan đến công việc này là Bảo trì thiết bị, Xử lý
97
+ sự cố, Thủy lực công nghiệp, Hệ thống ống nước và Bảo trì. Hầu hết những người
98
+ làm công việc này đều có hơn 5 năm kinh nghiệm trong các công việc liên quan.
99
+ pipeline_tag: sentence-similarity
100
+ library_name: sentence-transformers
101
+ ---
102
+
103
+ # SentenceTransformer based on QuangDuy/bert-tiny-stage2-hf
104
+
105
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [QuangDuy/bert-tiny-stage2-hf](https://huggingface.co/QuangDuy/bert-tiny-stage2-hf). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
106
+
107
+ ## Model Details
108
+
109
+ ### Model Description
110
+ - **Model Type:** Sentence Transformer
111
+ - **Base model:** [QuangDuy/bert-tiny-stage2-hf](https://huggingface.co/QuangDuy/bert-tiny-stage2-hf) <!-- at revision 89bd42c41ec5167da1de8ed7085615795a3fd55c -->
112
+ - **Maximum Sequence Length:** 512 tokens
113
+ - **Output Dimensionality:** 384 dimensions
114
+ - **Similarity Function:** Cosine Similarity
115
+ <!-- - **Training Dataset:** Unknown -->
116
+ <!-- - **Language:** Unknown -->
117
+ <!-- - **License:** Unknown -->
118
+
119
+ ### Model Sources
120
+
121
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
122
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
123
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
124
+
125
+ ### Full Model Architecture
126
+
127
+ ```
128
+ SentenceTransformer(
129
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
130
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
131
+ (2): Normalize()
132
+ )
133
+ ```
134
+
135
+ ## Usage
136
+
137
+ ### Direct Usage (Sentence Transformers)
138
+
139
+ First install the Sentence Transformers library:
140
+
141
+ ```bash
142
+ pip install -U sentence-transformers
143
+ ```
144
+
145
+ Then you can load this model and run inference.
146
+ ```python
147
+ from sentence_transformers import SentenceTransformer
148
+
149
+ # Download from the 🤗 Hub
150
+ model = SentenceTransformer("sentence_transformers_model_id")
151
+ # Run inference
152
+ sentences = [
153
+ 'các phản ứng cụ thể của hệ thống miễn dịch của bạn là gì',
154
+ 'Các phản ứng miễn dịch cụ thể đề cập đến thực tế là các globulin miễn dịch được sản xuất đặc trưng cho các kháng nguyên đã kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn. đáp ứng miễn dịch đề cập đến thực tế là các globulin miễn dịch được tạo ra đặc trưng cho các kháng nguyên kích thích sản xuất chúng, phản ứng này dẫn đến việc sản xuất các tế bào nhớ vẫn lưu thông trong dòng máu nên sự tái nhiễm xảy ra thì phản ứng sẽ nhanh hơn.',
155
+ 'Tìm kiếm có thể giúp chống lại chứng nghẹt mũi mãn tính. Nhóm nghiên cứu của Kita đã so sánh phản ứng của hệ thống miễn dịch của 18 người bị nghẹt mũi mãn tính và 15 người không mắc bệnh này. Họ đã kiểm tra mẫu máu của những người tham gia để xem các tế bào của hệ thống miễn dịch cụ thể phản ứng như thế nào với các loại nấm thông thường trong không khí.',
156
+ ]
157
+ embeddings = model.encode(sentences)
158
+ print(embeddings.shape)
159
+ # [3, 384]
160
+
161
+ # Get the similarity scores for the embeddings
162
+ similarities = model.similarity(embeddings, embeddings)
163
+ print(similarities)
164
+ # tensor([[1.0001, 0.6953, 0.4338],
165
+ # [0.6953, 1.0000, 0.3088],
166
+ # [0.4338, 0.3088, 1.0000]])
167
+ ```
168
+
169
+ <!--
170
+ ### Direct Usage (Transformers)
171
+
172
+ <details><summary>Click to see the direct usage in Transformers</summary>
173
+
174
+ </details>
175
+ -->
176
+
177
+ <!--
178
+ ### Downstream Usage (Sentence Transformers)
179
+
180
+ You can finetune this model on your own dataset.
181
+
182
+ <details><summary>Click to expand</summary>
183
+
184
+ </details>
185
+ -->
186
+
187
+ <!--
188
+ ### Out-of-Scope Use
189
+
190
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
191
+ -->
192
+
193
+ <!--
194
+ ## Bias, Risks and Limitations
195
+
196
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
197
+ -->
198
+
199
+ <!--
200
+ ### Recommendations
201
+
202
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
203
+ -->
204
+
205
+ ## Training Details
206
+
207
+ ### Training Dataset
208
+
209
+ #### Unnamed Dataset
210
+
211
+ * Size: 541,248 training samples
212
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
213
+ * Approximate statistics based on the first 1000 samples:
214
+ | | sentence_0 | sentence_1 | sentence_2 |
215
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
216
+ | type | string | string | string |
217
+ | details | <ul><li>min: 5 tokens</li><li>mean: 11.35 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 101.36 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 96.12 tokens</li><li>max: 371 tokens</li></ul> |
218
+ * Samples:
219
+ | sentence_0 | sentence_1 | sentence_2 |
220
+ |:--------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
221
+ | <code>giá máy trợ thính trung bình</code> | <code>Máy trợ thính giúp những người bị mất thính lực tận hưởng cuộc sống chất lượng hơn ࢠ€Â⠀ nhưng thiết bị này có thể đắt tiền. Giá trung bình của một máy trợ thính là $ 2,300. Hầu hết mọi người cần hai, tăng gấp đôi chi phí. Nếu công ty bảo hiểm sức khỏe của bạn không cung cấp bảo hiểm, bạn sẽ muốn có đủ tiền tiết kiệm hoặc thẻ tín dụng hoàn tiền tốt để chi trả chi phí. Tổng chi phí phụ thuộc vào loại máy trợ thính, tính năng của nó và mức độ dịch vụ chuyên nghiệp. Phân tích chi phí Thông thường, bản thân máy trợ thính chỉ chiếm một phần ba tổng chi phí; phí và dịch vụ chuyên nghiệp chiếm phần còn lại.</code> | <code>Theo một cuộc khảo sát được công bố gần đây bởi Đánh giá thính giác, giá trung bình của một cặp thiết bị hỗ trợ tầm trung dao động trong khoảng từ $ 4,400 đến $ 4,500. Giá cả khác nhau tùy theo khu vực. Ví dụ, tại Phòng khám Thính học của UCLA, giá trung bình là $ 4,200, nhà thính học Alison Grimes cho biết.</code> |
222
+ | <code>tôi có thể trả lại một sản phẩm cho amazon không</code> | <code>Trả lại các mặt hàng do Amazon thực hiện / Các mặt hàng đủ điều kiện Prime. Bạn có thể trả lại các mặt hàng Đủ điều kiện của Amazon hoặc Prime bằng cách truy cập Trung tâm hỗ trợ trả hàng của chúng tôi. Đi tới Trung tâm Hỗ trợ Trả hàng và nhấp vào Trả lại mặt hàng. Tìm đơn đặt hàng bạn muốn trả lại và nhấp vào Trả lại hoặc Thay thế các mặt hàng. Chọn các mục bạn muốn trả lại.</code> | <code>Tôi mua sản phẩm này vì tôi nghĩ rằng tôi có thể nhìn thấy các thư mục của ổ cứng được kết nối với asus o! Play từ máy tính của mình. Nhưng nó rất khả thi. Tôi nghĩ rằng tôi sẽ trả lại sản phẩm này nếu không có bất kỳ chương trình cơ sở mới nào để cập nhật sự cố này trong vòng 10 ngày tới. Tôi hy vọng asus giải quyết nó, nếu không tôi sẽ trả lại sản phẩm.</code> |
223
+ | <code>ana tích cực nghĩa là gì</code> | <code>Tuy nhiên, các xét nghiệm khác vẫn có thể cần thiết dựa trên các triệu chứng của bạn. Một số người mắc bệnh tự miễn dịch có thể xét nghiệm âm tính với ANA nhưng dương tính với các kháng thể khác. Xét nghiệm ANA dương tính có nghĩa là bạn có nồng độ ANA cao trong máu. Xét nghiệm ANA dương tính thường được báo cáo dưới dạng cả tỷ lệ (được gọi là chuẩn) và kiểu mẫu, chẳng hạn như mịn hoặc lốm đốm. Một số bệnh có nhiều khả năng có một số mô hình nhất định. Hiệu giá càng cao thì kết quả càng có nhiều khả năng là kết quả ࢠ€Š“true positiveࢠ€Â, nghĩa là bạn có kháng thể kháng nhân đáng kể và mắc bệnh tự miễn dịch. Tuy nhiên, kết quả dương tính không luôn có nghĩa là bạn mắc bệnh tự miễn dịch.</code> | <code>Tích cực: 88%. túi mật giải nén nghĩa là gì góp phần vào túi mật ... mật sẽ luôn luôn là gì túi mật giải nén nghĩa là chọn protein nạc ...</code> |
224
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
225
+ ```json
226
+ {
227
+ "loss": "MultipleNegativesRankingLoss",
228
+ "matryoshka_dims": [
229
+ 384,
230
+ 256,
231
+ 128,
232
+ 64
233
+ ],
234
+ "matryoshka_weights": [
235
+ 1,
236
+ 1,
237
+ 1,
238
+ 1
239
+ ],
240
+ "n_dims_per_step": -1
241
+ }
242
+ ```
243
+
244
+ ### Training Hyperparameters
245
+ #### Non-Default Hyperparameters
246
+
247
+ - `eval_strategy`: steps
248
+ - `per_device_train_batch_size`: 64
249
+ - `per_device_eval_batch_size`: 128
250
+ - `learning_rate`: 2e-05
251
+ - `weight_decay`: 0.01
252
+ - `num_train_epochs`: 5
253
+ - `warmup_steps`: 4229
254
+ - `bf16`: True
255
+ - `batch_sampler`: no_duplicates
256
+
257
+ #### All Hyperparameters
258
+ <details><summary>Click to expand</summary>
259
+
260
+ - `overwrite_output_dir`: False
261
+ - `do_predict`: False
262
+ - `eval_strategy`: steps
263
+ - `prediction_loss_only`: True
264
+ - `per_device_train_batch_size`: 64
265
+ - `per_device_eval_batch_size`: 128
266
+ - `per_gpu_train_batch_size`: None
267
+ - `per_gpu_eval_batch_size`: None
268
+ - `gradient_accumulation_steps`: 1
269
+ - `eval_accumulation_steps`: None
270
+ - `torch_empty_cache_steps`: None
271
+ - `learning_rate`: 2e-05
272
+ - `weight_decay`: 0.01
273
+ - `adam_beta1`: 0.9
274
+ - `adam_beta2`: 0.999
275
+ - `adam_epsilon`: 1e-08
276
+ - `max_grad_norm`: 1.0
277
+ - `num_train_epochs`: 5
278
+ - `max_steps`: -1
279
+ - `lr_scheduler_type`: linear
280
+ - `lr_scheduler_kwargs`: None
281
+ - `warmup_ratio`: 0.0
282
+ - `warmup_steps`: 4229
283
+ - `log_level`: passive
284
+ - `log_level_replica`: warning
285
+ - `log_on_each_node`: True
286
+ - `logging_nan_inf_filter`: True
287
+ - `save_safetensors`: True
288
+ - `save_on_each_node`: False
289
+ - `save_only_model`: False
290
+ - `restore_callback_states_from_checkpoint`: False
291
+ - `no_cuda`: False
292
+ - `use_cpu`: False
293
+ - `use_mps_device`: False
294
+ - `seed`: 42
295
+ - `data_seed`: None
296
+ - `jit_mode_eval`: False
297
+ - `bf16`: True
298
+ - `fp16`: False
299
+ - `fp16_opt_level`: O1
300
+ - `half_precision_backend`: auto
301
+ - `bf16_full_eval`: False
302
+ - `fp16_full_eval`: False
303
+ - `tf32`: None
304
+ - `local_rank`: 0
305
+ - `ddp_backend`: None
306
+ - `tpu_num_cores`: None
307
+ - `tpu_metrics_debug`: False
308
+ - `debug`: []
309
+ - `dataloader_drop_last`: True
310
+ - `dataloader_num_workers`: 0
311
+ - `dataloader_prefetch_factor`: None
312
+ - `past_index`: -1
313
+ - `disable_tqdm`: False
314
+ - `remove_unused_columns`: True
315
+ - `label_names`: None
316
+ - `load_best_model_at_end`: False
317
+ - `ignore_data_skip`: False
318
+ - `fsdp`: []
319
+ - `fsdp_min_num_params`: 0
320
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
321
+ - `fsdp_transformer_layer_cls_to_wrap`: None
322
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
323
+ - `parallelism_config`: None
324
+ - `deepspeed`: None
325
+ - `label_smoothing_factor`: 0.0
326
+ - `optim`: adamw_torch_fused
327
+ - `optim_args`: None
328
+ - `adafactor`: False
329
+ - `group_by_length`: False
330
+ - `length_column_name`: length
331
+ - `project`: huggingface
332
+ - `trackio_space_id`: trackio
333
+ - `ddp_find_unused_parameters`: None
334
+ - `ddp_bucket_cap_mb`: None
335
+ - `ddp_broadcast_buffers`: False
336
+ - `dataloader_pin_memory`: True
337
+ - `dataloader_persistent_workers`: False
338
+ - `skip_memory_metrics`: True
339
+ - `use_legacy_prediction_loop`: False
340
+ - `push_to_hub`: False
341
+ - `resume_from_checkpoint`: None
342
+ - `hub_model_id`: None
343
+ - `hub_strategy`: every_save
344
+ - `hub_private_repo`: None
345
+ - `hub_always_push`: False
346
+ - `hub_revision`: None
347
+ - `gradient_checkpointing`: False
348
+ - `gradient_checkpointing_kwargs`: None
349
+ - `include_inputs_for_metrics`: False
350
+ - `include_for_metrics`: []
351
+ - `eval_do_concat_batches`: True
352
+ - `fp16_backend`: auto
353
+ - `push_to_hub_model_id`: None
354
+ - `push_to_hub_organization`: None
355
+ - `mp_parameters`:
356
+ - `auto_find_batch_size`: False
357
+ - `full_determinism`: False
358
+ - `torchdynamo`: None
359
+ - `ray_scope`: last
360
+ - `ddp_timeout`: 1800
361
+ - `torch_compile`: False
362
+ - `torch_compile_backend`: None
363
+ - `torch_compile_mode`: None
364
+ - `include_tokens_per_second`: False
365
+ - `include_num_input_tokens_seen`: no
366
+ - `neftune_noise_alpha`: None
367
+ - `optim_target_modules`: None
368
+ - `batch_eval_metrics`: False
369
+ - `eval_on_start`: False
370
+ - `use_liger_kernel`: False
371
+ - `liger_kernel_config`: None
372
+ - `eval_use_gather_object`: False
373
+ - `average_tokens_across_devices`: True
374
+ - `prompts`: None
375
+ - `batch_sampler`: no_duplicates
376
+ - `multi_dataset_batch_sampler`: proportional
377
+ - `router_mapping`: {}
378
+ - `learning_rate_mapping`: {}
379
+
380
+ </details>
381
+
382
+ ### Training Logs
383
+ <details><summary>Click to expand</summary>
384
+
385
+ | Epoch | Step | Training Loss | validation loss |
386
+ |:------:|:-----:|:-------------:|:---------------:|
387
+ | 0.0118 | 50 | 18.0314 | - |
388
+ | 0.0237 | 100 | 17.7147 | - |
389
+ | 0.0355 | 150 | 17.0007 | - |
390
+ | 0.0473 | 200 | 16.0667 | - |
391
+ | 0.0591 | 250 | 14.9131 | - |
392
+ | 0.0710 | 300 | 13.9449 | - |
393
+ | 0.0828 | 350 | 12.7957 | - |
394
+ | 0.0946 | 400 | 11.7288 | - |
395
+ | 0.1064 | 450 | 10.6945 | - |
396
+ | 0.1183 | 500 | 9.4743 | - |
397
+ | 0.1301 | 550 | 8.6215 | - |
398
+ | 0.1419 | 600 | 7.7279 | - |
399
+ | 0.1537 | 650 | 7.1892 | - |
400
+ | 0.1656 | 700 | 6.9682 | - |
401
+ | 0.1774 | 750 | 6.4781 | - |
402
+ | 0.1892 | 800 | 6.1271 | - |
403
+ | 0.2010 | 850 | 6.1199 | - |
404
+ | 0.2129 | 900 | 5.9544 | - |
405
+ | 0.2247 | 950 | 5.8145 | - |
406
+ | 0.2365 | 1000 | 5.5599 | - |
407
+ | 0.2483 | 1050 | 5.2344 | - |
408
+ | 0.2602 | 1100 | 5.3013 | - |
409
+ | 0.2720 | 1150 | 5.0562 | - |
410
+ | 0.2838 | 1200 | 4.8728 | - |
411
+ | 0.2956 | 1250 | 4.7826 | - |
412
+ | 0.3075 | 1300 | 4.8806 | - |
413
+ | 0.3193 | 1350 | 4.6464 | - |
414
+ | 0.3311 | 1400 | 4.7046 | - |
415
+ | 0.3430 | 1450 | 4.5188 | - |
416
+ | 0.3548 | 1500 | 4.4968 | - |
417
+ | 0.3666 | 1550 | 4.4387 | - |
418
+ | 0.3784 | 1600 | 4.1702 | - |
419
+ | 0.3903 | 1650 | 4.2147 | - |
420
+ | 0.4021 | 1700 | 3.9972 | - |
421
+ | 0.4139 | 1750 | 4.1279 | - |
422
+ | 0.4257 | 1800 | 4.0214 | - |
423
+ | 0.4376 | 1850 | 3.9161 | - |
424
+ | 0.4494 | 1900 | 3.7544 | - |
425
+ | 0.4612 | 1950 | 3.8246 | - |
426
+ | 0.4730 | 2000 | 3.7991 | 5.9881 |
427
+ | 0.4849 | 2050 | 3.8554 | - |
428
+ | 0.4967 | 2100 | 3.8123 | - |
429
+ | 0.5085 | 2150 | 3.5525 | - |
430
+ | 0.5203 | 2200 | 3.5591 | - |
431
+ | 0.5322 | 2250 | 3.6293 | - |
432
+ | 0.5440 | 2300 | 3.5831 | - |
433
+ | 0.5558 | 2350 | 3.6007 | - |
434
+ | 0.5676 | 2400 | 3.4225 | - |
435
+ | 0.5795 | 2450 | 3.4405 | - |
436
+ | 0.5913 | 2500 | 3.4002 | - |
437
+ | 0.6031 | 2550 | 3.3653 | - |
438
+ | 0.6149 | 2600 | 3.321 | - |
439
+ | 0.6268 | 2650 | 3.3042 | - |
440
+ | 0.6386 | 2700 | 3.2117 | - |
441
+ | 0.6504 | 2750 | 3.3423 | - |
442
+ | 0.6623 | 2800 | 3.2494 | - |
443
+ | 0.6741 | 2850 | 3.1364 | - |
444
+ | 0.6859 | 2900 | 3.1836 | - |
445
+ | 0.6977 | 2950 | 3.1268 | - |
446
+ | 0.7096 | 3000 | 3.072 | - |
447
+ | 0.7214 | 3050 | 3.0135 | - |
448
+ | 0.7332 | 3100 | 3.0607 | - |
449
+ | 0.7450 | 3150 | 3.0963 | - |
450
+ | 0.7569 | 3200 | 3.0419 | - |
451
+ | 0.7687 | 3250 | 2.9891 | - |
452
+ | 0.7805 | 3300 | 2.9384 | - |
453
+ | 0.7923 | 3350 | 2.8918 | - |
454
+ | 0.8042 | 3400 | 2.9816 | - |
455
+ | 0.8160 | 3450 | 2.9664 | - |
456
+ | 0.8278 | 3500 | 2.8969 | - |
457
+ | 0.8396 | 3550 | 2.9368 | - |
458
+ | 0.8515 | 3600 | 2.8513 | - |
459
+ | 0.8633 | 3650 | 2.9808 | - |
460
+ | 0.8751 | 3700 | 2.8428 | - |
461
+ | 0.8869 | 3750 | 2.8775 | - |
462
+ | 0.8988 | 3800 | 2.739 | - |
463
+ | 0.9106 | 3850 | 2.8277 | - |
464
+ | 0.9224 | 3900 | 2.767 | - |
465
+ | 0.9342 | 3950 | 2.794 | - |
466
+ | 0.9461 | 4000 | 2.7738 | 4.7738 |
467
+ | 0.9579 | 4050 | 2.8568 | - |
468
+ | 0.9697 | 4100 | 2.7938 | - |
469
+ | 0.9816 | 4150 | 2.7272 | - |
470
+ | 0.9934 | 4200 | 2.7079 | - |
471
+ | 1.0052 | 4250 | 2.6383 | - |
472
+ | 1.0170 | 4300 | 2.6855 | - |
473
+ | 1.0289 | 4350 | 2.6568 | - |
474
+ | 1.0407 | 4400 | 2.5981 | - |
475
+ | 1.0525 | 4450 | 2.6987 | - |
476
+ | 1.0643 | 4500 | 2.6992 | - |
477
+ | 1.0762 | 4550 | 2.5434 | - |
478
+ | 1.0880 | 4600 | 2.5553 | - |
479
+ | 1.0998 | 4650 | 2.4978 | - |
480
+ | 1.1116 | 4700 | 2.5679 | - |
481
+ | 1.1235 | 4750 | 2.4768 | - |
482
+ | 1.1353 | 4800 | 2.5578 | - |
483
+ | 1.1471 | 4850 | 2.4758 | - |
484
+ | 1.1589 | 4900 | 2.5352 | - |
485
+ | 1.1708 | 4950 | 2.5023 | - |
486
+ | 1.1826 | 5000 | 2.4713 | - |
487
+ | 1.1944 | 5050 | 2.486 | - |
488
+ | 1.2062 | 5100 | 2.483 | - |
489
+ | 1.2181 | 5150 | 2.4098 | - |
490
+ | 1.2299 | 5200 | 2.5061 | - |
491
+ | 1.2417 | 5250 | 2.4597 | - |
492
+ | 1.2535 | 5300 | 2.4591 | - |
493
+ | 1.2654 | 5350 | 2.3879 | - |
494
+ | 1.2772 | 5400 | 2.4146 | - |
495
+ | 1.2890 | 5450 | 2.3418 | - |
496
+ | 1.3009 | 5500 | 2.4307 | - |
497
+ | 1.3127 | 5550 | 2.3653 | - |
498
+ | 1.3245 | 5600 | 2.3995 | - |
499
+ | 1.3363 | 5650 | 2.4527 | - |
500
+ | 1.3482 | 5700 | 2.4547 | - |
501
+ | 1.3600 | 5750 | 2.3695 | - |
502
+ | 1.3718 | 5800 | 2.3341 | - |
503
+ | 1.3836 | 5850 | 2.2412 | - |
504
+ | 1.3955 | 5900 | 2.2695 | - |
505
+ | 1.4073 | 5950 | 2.2922 | - |
506
+ | 1.4191 | 6000 | 2.3176 | 4.3057 |
507
+ | 1.4309 | 6050 | 2.281 | - |
508
+ | 1.4428 | 6100 | 2.2155 | - |
509
+ | 1.4546 | 6150 | 2.1908 | - |
510
+ | 1.4664 | 6200 | 2.2071 | - |
511
+ | 1.4782 | 6250 | 2.2617 | - |
512
+ | 1.4901 | 6300 | 2.2864 | - |
513
+ | 1.5019 | 6350 | 2.2509 | - |
514
+ | 1.5137 | 6400 | 2.1227 | - |
515
+ | 1.5255 | 6450 | 2.1919 | - |
516
+ | 1.5374 | 6500 | 2.2072 | - |
517
+ | 1.5492 | 6550 | 2.1652 | - |
518
+ | 1.5610 | 6600 | 2.2224 | - |
519
+ | 1.5728 | 6650 | 2.0715 | - |
520
+ | 1.5847 | 6700 | 2.1693 | - |
521
+ | 1.5965 | 6750 | 2.1141 | - |
522
+ | 1.6083 | 6800 | 2.1129 | - |
523
+ | 1.6202 | 6850 | 2.1001 | - |
524
+ | 1.6320 | 6900 | 2.094 | - |
525
+ | 1.6438 | 6950 | 2.2176 | - |
526
+ | 1.6556 | 7000 | 2.109 | - |
527
+ | 1.6675 | 7050 | 2.0537 | - |
528
+ | 1.6793 | 7100 | 2.0328 | - |
529
+ | 1.6911 | 7150 | 2.1541 | - |
530
+ | 1.7029 | 7200 | 2.0164 | - |
531
+ | 1.7148 | 7250 | 2.0225 | - |
532
+ | 1.7266 | 7300 | 2.0243 | - |
533
+ | 1.7384 | 7350 | 2.0152 | - |
534
+ | 1.7502 | 7400 | 2.0455 | - |
535
+ | 1.7621 | 7450 | 2.0026 | - |
536
+ | 1.7739 | 7500 | 1.9846 | - |
537
+ | 1.7857 | 7550 | 1.9594 | - |
538
+ | 1.7975 | 7600 | 2.0523 | - |
539
+ | 1.8094 | 7650 | 1.9751 | - |
540
+ | 1.8212 | 7700 | 1.9898 | - |
541
+ | 1.8330 | 7750 | 1.9658 | - |
542
+ | 1.8448 | 7800 | 1.9976 | - |
543
+ | 1.8567 | 7850 | 1.9939 | - |
544
+ | 1.8685 | 7900 | 1.9666 | - |
545
+ | 1.8803 | 7950 | 1.9704 | - |
546
+ | 1.8921 | 8000 | 1.9822 | 4.1331 |
547
+ | 1.9040 | 8050 | 1.8534 | - |
548
+ | 1.9158 | 8100 | 1.856 | - |
549
+ | 1.9276 | 8150 | 1.9817 | - |
550
+ | 1.9395 | 8200 | 1.9095 | - |
551
+ | 1.9513 | 8250 | 1.9343 | - |
552
+ | 1.9631 | 8300 | 1.95 | - |
553
+ | 1.9749 | 8350 | 1.9981 | - |
554
+ | 1.9868 | 8400 | 1.8872 | - |
555
+ | 1.9986 | 8450 | 1.8112 | - |
556
+ | 2.0104 | 8500 | 1.8451 | - |
557
+ | 2.0222 | 8550 | 1.8918 | - |
558
+ | 2.0341 | 8600 | 1.7837 | - |
559
+ | 2.0459 | 8650 | 1.8692 | - |
560
+ | 2.0577 | 8700 | 1.8614 | - |
561
+ | 2.0695 | 8750 | 1.8677 | - |
562
+ | 2.0814 | 8800 | 1.8005 | - |
563
+ | 2.0932 | 8850 | 1.8008 | - |
564
+ | 2.1050 | 8900 | 1.8207 | - |
565
+ | 2.1168 | 8950 | 1.7491 | - |
566
+ | 2.1287 | 9000 | 1.8351 | - |
567
+ | 2.1405 | 9050 | 1.7934 | - |
568
+ | 2.1523 | 9100 | 1.8162 | - |
569
+ | 2.1641 | 9150 | 1.8496 | - |
570
+ | 2.1760 | 9200 | 1.7747 | - |
571
+ | 2.1878 | 9250 | 1.7665 | - |
572
+ | 2.1996 | 9300 | 1.789 | - |
573
+ | 2.2114 | 9350 | 1.8264 | - |
574
+ | 2.2233 | 9400 | 1.788 | - |
575
+ | 2.2351 | 9450 | 1.7902 | - |
576
+ | 2.2469 | 9500 | 1.8175 | - |
577
+ | 2.2588 | 9550 | 1.8042 | - |
578
+ | 2.2706 | 9600 | 1.7767 | - |
579
+ | 2.2824 | 9650 | 1.7099 | - |
580
+ | 2.2942 | 9700 | 1.7841 | - |
581
+ | 2.3061 | 9750 | 1.87 | - |
582
+ | 2.3179 | 9800 | 1.7485 | - |
583
+ | 2.3297 | 9850 | 1.8367 | - |
584
+ | 2.3415 | 9900 | 1.7925 | - |
585
+ | 2.3534 | 9950 | 1.9135 | - |
586
+ | 2.3652 | 10000 | 1.7746 | 4.0629 |
587
+ | 2.3770 | 10050 | 1.672 | - |
588
+ | 2.3888 | 10100 | 1.7265 | - |
589
+ | 2.4007 | 10150 | 1.6875 | - |
590
+ | 2.4125 | 10200 | 1.7421 | - |
591
+ | 2.4243 | 10250 | 1.7447 | - |
592
+ | 2.4361 | 10300 | 1.7335 | - |
593
+ | 2.4480 | 10350 | 1.6583 | - |
594
+ | 2.4598 | 10400 | 1.6937 | - |
595
+ | 2.4716 | 10450 | 1.6425 | - |
596
+ | 2.4834 | 10500 | 1.7837 | - |
597
+ | 2.4953 | 10550 | 1.7589 | - |
598
+ | 2.5071 | 10600 | 1.6618 | - |
599
+ | 2.5189 | 10650 | 1.6107 | - |
600
+ | 2.5307 | 10700 | 1.706 | - |
601
+ | 2.5426 | 10750 | 1.6662 | - |
602
+ | 2.5544 | 10800 | 1.7491 | - |
603
+ | 2.5662 | 10850 | 1.615 | - |
604
+ | 2.5781 | 10900 | 1.6314 | - |
605
+ | 2.5899 | 10950 | 1.6564 | - |
606
+ | 2.6017 | 11000 | 1.6085 | - |
607
+ | 2.6135 | 11050 | 1.6969 | - |
608
+ | 2.6254 | 11100 | 1.5963 | - |
609
+ | 2.6372 | 11150 | 1.6626 | - |
610
+ | 2.6490 | 11200 | 1.715 | - |
611
+ | 2.6608 | 11250 | 1.6182 | - |
612
+ | 2.6727 | 11300 | 1.5667 | - |
613
+ | 2.6845 | 11350 | 1.6255 | - |
614
+ | 2.6963 | 11400 | 1.6146 | - |
615
+ | 2.7081 | 11450 | 1.5807 | - |
616
+ | 2.7200 | 11500 | 1.571 | - |
617
+ | 2.7318 | 11550 | 1.611 | - |
618
+ | 2.7436 | 11600 | 1.5757 | - |
619
+ | 2.7554 | 11650 | 1.6048 | - |
620
+ | 2.7673 | 11700 | 1.5559 | - |
621
+ | 2.7791 | 11750 | 1.5634 | - |
622
+ | 2.7909 | 11800 | 1.5663 | - |
623
+ | 2.8027 | 11850 | 1.6274 | - |
624
+ | 2.8146 | 11900 | 1.5478 | - |
625
+ | 2.8264 | 11950 | 1.5728 | - |
626
+ | 2.8382 | 12000 | 1.5694 | 3.9845 |
627
+ | 2.8500 | 12050 | 1.5544 | - |
628
+ | 2.8619 | 12100 | 1.6172 | - |
629
+ | 2.8737 | 12150 | 1.5358 | - |
630
+ | 2.8855 | 12200 | 1.5656 | - |
631
+ | 2.8974 | 12250 | 1.5273 | - |
632
+ | 2.9092 | 12300 | 1.4981 | - |
633
+ | 2.9210 | 12350 | 1.5256 | - |
634
+ | 2.9328 | 12400 | 1.522 | - |
635
+ | 2.9447 | 12450 | 1.465 | - |
636
+ | 2.9565 | 12500 | 1.6151 | - |
637
+ | 2.9683 | 12550 | 1.5521 | - |
638
+ | 2.9801 | 12600 | 1.5657 | - |
639
+ | 2.9920 | 12650 | 1.4935 | - |
640
+ | 3.0038 | 12700 | 1.4081 | - |
641
+ | 3.0156 | 12750 | 1.5243 | - |
642
+ | 3.0274 | 12800 | 1.4999 | - |
643
+ | 3.0393 | 12850 | 1.4139 | - |
644
+ | 3.0511 | 12900 | 1.5522 | - |
645
+ | 3.0629 | 12950 | 1.4865 | - |
646
+ | 3.0747 | 13000 | 1.4755 | - |
647
+ | 3.0866 | 13050 | 1.4582 | - |
648
+ | 3.0984 | 13100 | 1.4112 | - |
649
+ | 3.1102 | 13150 | 1.4758 | - |
650
+ | 3.1220 | 13200 | 1.4388 | - |
651
+ | 3.1339 | 13250 | 1.4819 | - |
652
+ | 3.1457 | 13300 | 1.4525 | - |
653
+ | 3.1575 | 13350 | 1.4583 | - |
654
+ | 3.1693 | 13400 | 1.4714 | - |
655
+ | 3.1812 | 13450 | 1.4265 | - |
656
+ | 3.1930 | 13500 | 1.454 | - |
657
+ | 3.2048 | 13550 | 1.4506 | - |
658
+ | 3.2167 | 13600 | 1.4055 | - |
659
+ | 3.2285 | 13650 | 1.4729 | - |
660
+ | 3.2403 | 13700 | 1.4791 | - |
661
+ | 3.2521 | 13750 | 1.4962 | - |
662
+ | 3.2640 | 13800 | 1.4101 | - |
663
+ | 3.2758 | 13850 | 1.4596 | - |
664
+ | 3.2876 | 13900 | 1.4207 | - |
665
+ | 3.2994 | 13950 | 1.4972 | - |
666
+ | 3.3113 | 14000 | 1.4473 | 3.9688 |
667
+ | 3.3231 | 14050 | 1.46 | - |
668
+ | 3.3349 | 14100 | 1.5012 | - |
669
+ | 3.3467 | 14150 | 1.5466 | - |
670
+ | 3.3586 | 14200 | 1.5067 | - |
671
+ | 3.3704 | 14250 | 1.4413 | - |
672
+ | 3.3822 | 14300 | 1.3448 | - |
673
+ | 3.3940 | 14350 | 1.3792 | - |
674
+ | 3.4059 | 14400 | 1.4019 | - |
675
+ | 3.4177 | 14450 | 1.4771 | - |
676
+ | 3.4295 | 14500 | 1.4383 | - |
677
+ | 3.4413 | 14550 | 1.4172 | - |
678
+ | 3.4532 | 14600 | 1.3284 | - |
679
+ | 3.4650 | 14650 | 1.3867 | - |
680
+ | 3.4768 | 14700 | 1.3931 | - |
681
+ | 3.4886 | 14750 | 1.4429 | - |
682
+ | 3.5005 | 14800 | 1.4665 | - |
683
+ | 3.5123 | 14850 | 1.3232 | - |
684
+ | 3.5241 | 14900 | 1.4112 | - |
685
+ | 3.5360 | 14950 | 1.3916 | - |
686
+ | 3.5478 | 15000 | 1.3572 | - |
687
+ | 3.5596 | 15050 | 1.4414 | - |
688
+ | 3.5714 | 15100 | 1.2716 | - |
689
+ | 3.5833 | 15150 | 1.4043 | - |
690
+ | 3.5951 | 15200 | 1.3686 | - |
691
+ | 3.6069 | 15250 | 1.3687 | - |
692
+ | 3.6187 | 15300 | 1.3183 | - |
693
+ | 3.6306 | 15350 | 1.3712 | - |
694
+ | 3.6424 | 15400 | 1.4006 | - |
695
+ | 3.6542 | 15450 | 1.4326 | - |
696
+ | 3.6660 | 15500 | 1.3116 | - |
697
+ | 3.6779 | 15550 | 1.2975 | - |
698
+ | 3.6897 | 15600 | 1.3709 | - |
699
+ | 3.7015 | 15650 | 1.3267 | - |
700
+ | 3.7133 | 15700 | 1.2947 | - |
701
+ | 3.7252 | 15750 | 1.3524 | - |
702
+ | 3.7370 | 15800 | 1.3092 | - |
703
+ | 3.7488 | 15850 | 1.3635 | - |
704
+ | 3.7606 | 15900 | 1.282 | - |
705
+ | 3.7725 | 15950 | 1.3122 | - |
706
+ | 3.7843 | 16000 | 1.2944 | 3.9723 |
707
+ | 3.7961 | 16050 | 1.3878 | - |
708
+ | 3.8079 | 16100 | 1.2978 | - |
709
+ | 3.8198 | 16150 | 1.3128 | - |
710
+ | 3.8316 | 16200 | 1.317 | - |
711
+ | 3.8434 | 16250 | 1.3225 | - |
712
+ | 3.8553 | 16300 | 1.3339 | - |
713
+ | 3.8671 | 16350 | 1.3137 | - |
714
+ | 3.8789 | 16400 | 1.3128 | - |
715
+ | 3.8907 | 16450 | 1.3262 | - |
716
+ | 3.9026 | 16500 | 1.2235 | - |
717
+ | 3.9144 | 16550 | 1.2619 | - |
718
+ | 3.9262 | 16600 | 1.3289 | - |
719
+ | 3.9380 | 16650 | 1.2437 | - |
720
+ | 3.9499 | 16700 | 1.2886 | - |
721
+ | 3.9617 | 16750 | 1.3309 | - |
722
+ | 3.9735 | 16800 | 1.3457 | - |
723
+ | 3.9853 | 16850 | 1.3184 | - |
724
+ | 3.9972 | 16900 | 1.2087 | - |
725
+ | 4.0090 | 16950 | 1.229 | - |
726
+ | 4.0208 | 17000 | 1.3235 | - |
727
+ | 4.0326 | 17050 | 1.195 | - |
728
+ | 4.0445 | 17100 | 1.2793 | - |
729
+ | 4.0563 | 17150 | 1.2719 | - |
730
+ | 4.0681 | 17200 | 1.2701 | - |
731
+ | 4.0799 | 17250 | 1.2593 | - |
732
+ | 4.0918 | 17300 | 1.2324 | - |
733
+ | 4.1036 | 17350 | 1.2338 | - |
734
+ | 4.1154 | 17400 | 1.2338 | - |
735
+ | 4.1272 | 17450 | 1.2595 | - |
736
+ | 4.1391 | 17500 | 1.2434 | - |
737
+ | 4.1509 | 17550 | 1.268 | - |
738
+ | 4.1627 | 17600 | 1.2345 | - |
739
+ | 4.1746 | 17650 | 1.228 | - |
740
+ | 4.1864 | 17700 | 1.235 | - |
741
+ | 4.1982 | 17750 | 1.2198 | - |
742
+ | 4.2100 | 17800 | 1.263 | - |
743
+ | 4.2219 | 17850 | 1.2288 | - |
744
+ | 4.2337 | 17900 | 1.2251 | - |
745
+ | 4.2455 | 17950 | 1.2796 | - |
746
+ | 4.2573 | 18000 | 1.2934 | 3.9485 |
747
+ | 4.2692 | 18050 | 1.2197 | - |
748
+ | 4.2810 | 18100 | 1.1908 | - |
749
+ | 4.2928 | 18150 | 1.2549 | - |
750
+ | 4.3046 | 18200 | 1.3468 | - |
751
+ | 4.3165 | 18250 | 1.2323 | - |
752
+ | 4.3283 | 18300 | 1.2897 | - |
753
+ | 4.3401 | 18350 | 1.3231 | - |
754
+ | 4.3519 | 18400 | 1.3587 | - |
755
+ | 4.3638 | 18450 | 1.2639 | - |
756
+ | 4.3756 | 18500 | 1.2244 | - |
757
+ | 4.3874 | 18550 | 1.1932 | - |
758
+ | 4.3992 | 18600 | 1.2072 | - |
759
+ | 4.4111 | 18650 | 1.2257 | - |
760
+ | 4.4229 | 18700 | 1.2368 | - |
761
+ | 4.4347 | 18750 | 1.2796 | - |
762
+ | 4.4465 | 18800 | 1.1617 | - |
763
+ | 4.4584 | 18850 | 1.238 | - |
764
+ | 4.4702 | 18900 | 1.1765 | - |
765
+ | 4.4820 | 18950 | 1.2626 | - |
766
+ | 4.4939 | 19000 | 1.2582 | - |
767
+ | 4.5057 | 19050 | 1.2478 | - |
768
+ | 4.5175 | 19100 | 1.1628 | - |
769
+ | 4.5293 | 19150 | 1.251 | - |
770
+ | 4.5412 | 19200 | 1.208 | - |
771
+ | 4.5530 | 19250 | 1.2535 | - |
772
+ | 4.5648 | 19300 | 1.1903 | - |
773
+ | 4.5766 | 19350 | 1.1725 | - |
774
+ | 4.5885 | 19400 | 1.2023 | - |
775
+ | 4.6003 | 19450 | 1.1607 | - |
776
+ | 4.6121 | 19500 | 1.2483 | - |
777
+ | 4.6239 | 19550 | 1.1202 | - |
778
+ | 4.6358 | 19600 | 1.2428 | - |
779
+ | 4.6476 | 19650 | 1.2413 | - |
780
+ | 4.6594 | 19700 | 1.1916 | - |
781
+ | 4.6712 | 19750 | 1.1738 | - |
782
+ | 4.6831 | 19800 | 1.1718 | - |
783
+ | 4.6949 | 19850 | 1.2093 | - |
784
+ | 4.7067 | 19900 | 1.1457 | - |
785
+ | 4.7185 | 19950 | 1.1704 | - |
786
+ | 4.7304 | 20000 | 1.1767 | 3.9691 |
787
+
788
+ </details>
789
+
790
+ ### Framework Versions
791
+ - Python: 3.11.15
792
+ - Sentence Transformers: 5.3.0
793
+ - Transformers: 4.57.6
794
+ - PyTorch: 2.11.0+cu130
795
+ - Accelerate: 1.13.0
796
+ - Datasets: 3.6.0
797
+ - Tokenizers: 0.22.2
798
+
799
+ ## Citation
800
+
801
+ ### BibTeX
802
+
803
+ #### Sentence Transformers
804
+ ```bibtex
805
+ @inproceedings{reimers-2019-sentence-bert,
806
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
807
+ author = "Reimers, Nils and Gurevych, Iryna",
808
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
809
+ month = "11",
810
+ year = "2019",
811
+ publisher = "Association for Computational Linguistics",
812
+ url = "https://arxiv.org/abs/1908.10084",
813
+ }
814
+ ```
815
+
816
+ #### MatryoshkaLoss
817
+ ```bibtex
818
+ @misc{kusupati2024matryoshka,
819
+ title={Matryoshka Representation Learning},
820
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
821
+ year={2024},
822
+ eprint={2205.13147},
823
+ archivePrefix={arXiv},
824
+ primaryClass={cs.LG}
825
+ }
826
+ ```
827
+
828
+ #### MultipleNegativesRankingLoss
829
+ ```bibtex
830
+ @misc{oord2019representationlearningcontrastivepredictive,
831
+ title={Representation Learning with Contrastive Predictive Coding},
832
+ author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
833
+ year={2019},
834
+ eprint={1807.03748},
835
+ archivePrefix={arXiv},
836
+ primaryClass={cs.LG},
837
+ url={https://arxiv.org/abs/1807.03748},
838
+ }
839
+ ```
840
+
841
+ <!--
842
+ ## Glossary
843
+
844
+ *Clearly define terms in order to be accessible across audiences.*
845
+ -->
846
+
847
+ <!--
848
+ ## Model Card Authors
849
+
850
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
851
+ -->
852
+
853
+ <!--
854
+ ## Model Card Contact
855
+
856
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
857
+ -->
checkpoints/checkpoint-20000/config.json ADDED
@@ -0,0 +1,45 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertModel"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 0,
8
+ "classifier_activation": "silu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 0,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 3,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 384,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 160000.0,
29
+ "max_position_embeddings": 4096,
30
+ "mlp_bias": false,
31
+ "mlp_dropout": 0.0,
32
+ "model_type": "modernbert",
33
+ "norm_bias": false,
34
+ "norm_eps": 1e-05,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 10,
37
+ "pad_token_id": 2,
38
+ "position_embedding_type": "absolute",
39
+ "repad_logits_with_grad": false,
40
+ "sep_token_id": 3,
41
+ "sparse_pred_ignore_index": -100,
42
+ "sparse_prediction": false,
43
+ "transformers_version": "4.57.6",
44
+ "vocab_size": 32064
45
+ }
checkpoints/checkpoint-20000/config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.3.0",
5
+ "transformers": "4.57.6",
6
+ "pytorch": "2.11.0+cu130"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
checkpoints/checkpoint-20000/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a9f01b19011587e2cbebf2a56e37a9507b71f2f500261f8102e90db5d4a0646a
3
+ size 125965616
checkpoints/checkpoint-20000/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
checkpoints/checkpoint-20000/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b6280fc2ba403d91e86e3f31e51ff7a57981e44c317eacd179e3c3e315280b00
3
+ size 251973195
checkpoints/checkpoint-20000/rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5798d48c39c2c56b4a2b06f7824e209f81d6384d4988aeee062470c3320e8d0
3
+ size 14917
checkpoints/checkpoint-20000/rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:025b159f0f0c9eee91ed9ba8a0b36676a29b7452651e6f2fc17144984423fa9e
3
+ size 14917
checkpoints/checkpoint-20000/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1dc6225f3324ac3bb6d55ec4a9d723ac796b17d13b245f9ef6cf54ed21ab448f
3
+ size 1465
checkpoints/checkpoint-20000/sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
checkpoints/checkpoint-20000/special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": true,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
checkpoints/checkpoint-20000/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoints/checkpoint-20000/tokenizer_config.json ADDED
@@ -0,0 +1,569 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[CLS]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[MASK]",
13
+ "lstrip": true,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[PAD]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[UNK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "32000": {
44
+ "content": "[unused1]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "32001": {
52
+ "content": "[unused2]",
53
+ "lstrip": false,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ },
59
+ "32002": {
60
+ "content": "[unused3]",
61
+ "lstrip": false,
62
+ "normalized": false,
63
+ "rstrip": false,
64
+ "single_word": false,
65
+ "special": true
66
+ },
67
+ "32003": {
68
+ "content": "[unused4]",
69
+ "lstrip": false,
70
+ "normalized": false,
71
+ "rstrip": false,
72
+ "single_word": false,
73
+ "special": true
74
+ },
75
+ "32004": {
76
+ "content": "[unused5]",
77
+ "lstrip": false,
78
+ "normalized": false,
79
+ "rstrip": false,
80
+ "single_word": false,
81
+ "special": true
82
+ },
83
+ "32005": {
84
+ "content": "[unused6]",
85
+ "lstrip": false,
86
+ "normalized": false,
87
+ "rstrip": false,
88
+ "single_word": false,
89
+ "special": true
90
+ },
91
+ "32006": {
92
+ "content": "[unused7]",
93
+ "lstrip": false,
94
+ "normalized": false,
95
+ "rstrip": false,
96
+ "single_word": false,
97
+ "special": true
98
+ },
99
+ "32007": {
100
+ "content": "[unused8]",
101
+ "lstrip": false,
102
+ "normalized": false,
103
+ "rstrip": false,
104
+ "single_word": false,
105
+ "special": true
106
+ },
107
+ "32008": {
108
+ "content": "[unused9]",
109
+ "lstrip": false,
110
+ "normalized": false,
111
+ "rstrip": false,
112
+ "single_word": false,
113
+ "special": true
114
+ },
115
+ "32009": {
116
+ "content": "[unused10]",
117
+ "lstrip": false,
118
+ "normalized": false,
119
+ "rstrip": false,
120
+ "single_word": false,
121
+ "special": true
122
+ },
123
+ "32010": {
124
+ "content": "[unused11]",
125
+ "lstrip": false,
126
+ "normalized": false,
127
+ "rstrip": false,
128
+ "single_word": false,
129
+ "special": true
130
+ },
131
+ "32011": {
132
+ "content": "[unused12]",
133
+ "lstrip": false,
134
+ "normalized": false,
135
+ "rstrip": false,
136
+ "single_word": false,
137
+ "special": true
138
+ },
139
+ "32012": {
140
+ "content": "[unused13]",
141
+ "lstrip": false,
142
+ "normalized": false,
143
+ "rstrip": false,
144
+ "single_word": false,
145
+ "special": true
146
+ },
147
+ "32013": {
148
+ "content": "[unused14]",
149
+ "lstrip": false,
150
+ "normalized": false,
151
+ "rstrip": false,
152
+ "single_word": false,
153
+ "special": true
154
+ },
155
+ "32014": {
156
+ "content": "[unused15]",
157
+ "lstrip": false,
158
+ "normalized": false,
159
+ "rstrip": false,
160
+ "single_word": false,
161
+ "special": true
162
+ },
163
+ "32015": {
164
+ "content": "[unused16]",
165
+ "lstrip": false,
166
+ "normalized": false,
167
+ "rstrip": false,
168
+ "single_word": false,
169
+ "special": true
170
+ },
171
+ "32016": {
172
+ "content": "[unused17]",
173
+ "lstrip": false,
174
+ "normalized": false,
175
+ "rstrip": false,
176
+ "single_word": false,
177
+ "special": true
178
+ },
179
+ "32017": {
180
+ "content": "[unused18]",
181
+ "lstrip": false,
182
+ "normalized": false,
183
+ "rstrip": false,
184
+ "single_word": false,
185
+ "special": true
186
+ },
187
+ "32018": {
188
+ "content": "[unused19]",
189
+ "lstrip": false,
190
+ "normalized": false,
191
+ "rstrip": false,
192
+ "single_word": false,
193
+ "special": true
194
+ },
195
+ "32019": {
196
+ "content": "[unused20]",
197
+ "lstrip": false,
198
+ "normalized": false,
199
+ "rstrip": false,
200
+ "single_word": false,
201
+ "special": true
202
+ },
203
+ "32020": {
204
+ "content": "[unused21]",
205
+ "lstrip": false,
206
+ "normalized": false,
207
+ "rstrip": false,
208
+ "single_word": false,
209
+ "special": true
210
+ },
211
+ "32021": {
212
+ "content": "[unused22]",
213
+ "lstrip": false,
214
+ "normalized": false,
215
+ "rstrip": false,
216
+ "single_word": false,
217
+ "special": true
218
+ },
219
+ "32022": {
220
+ "content": "[unused23]",
221
+ "lstrip": false,
222
+ "normalized": false,
223
+ "rstrip": false,
224
+ "single_word": false,
225
+ "special": true
226
+ },
227
+ "32023": {
228
+ "content": "[unused24]",
229
+ "lstrip": false,
230
+ "normalized": false,
231
+ "rstrip": false,
232
+ "single_word": false,
233
+ "special": true
234
+ },
235
+ "32024": {
236
+ "content": "[unused25]",
237
+ "lstrip": false,
238
+ "normalized": false,
239
+ "rstrip": false,
240
+ "single_word": false,
241
+ "special": true
242
+ },
243
+ "32025": {
244
+ "content": "[unused26]",
245
+ "lstrip": false,
246
+ "normalized": false,
247
+ "rstrip": false,
248
+ "single_word": false,
249
+ "special": true
250
+ },
251
+ "32026": {
252
+ "content": "[unused27]",
253
+ "lstrip": false,
254
+ "normalized": false,
255
+ "rstrip": false,
256
+ "single_word": false,
257
+ "special": true
258
+ },
259
+ "32027": {
260
+ "content": "[unused28]",
261
+ "lstrip": false,
262
+ "normalized": false,
263
+ "rstrip": false,
264
+ "single_word": false,
265
+ "special": true
266
+ },
267
+ "32028": {
268
+ "content": "[unused29]",
269
+ "lstrip": false,
270
+ "normalized": false,
271
+ "rstrip": false,
272
+ "single_word": false,
273
+ "special": true
274
+ },
275
+ "32029": {
276
+ "content": "[unused30]",
277
+ "lstrip": false,
278
+ "normalized": false,
279
+ "rstrip": false,
280
+ "single_word": false,
281
+ "special": true
282
+ },
283
+ "32030": {
284
+ "content": "[unused31]",
285
+ "lstrip": false,
286
+ "normalized": false,
287
+ "rstrip": false,
288
+ "single_word": false,
289
+ "special": true
290
+ },
291
+ "32031": {
292
+ "content": "[unused32]",
293
+ "lstrip": false,
294
+ "normalized": false,
295
+ "rstrip": false,
296
+ "single_word": false,
297
+ "special": true
298
+ },
299
+ "32032": {
300
+ "content": "[unused33]",
301
+ "lstrip": false,
302
+ "normalized": false,
303
+ "rstrip": false,
304
+ "single_word": false,
305
+ "special": true
306
+ },
307
+ "32033": {
308
+ "content": "[unused34]",
309
+ "lstrip": false,
310
+ "normalized": false,
311
+ "rstrip": false,
312
+ "single_word": false,
313
+ "special": true
314
+ },
315
+ "32034": {
316
+ "content": "[unused35]",
317
+ "lstrip": false,
318
+ "normalized": false,
319
+ "rstrip": false,
320
+ "single_word": false,
321
+ "special": true
322
+ },
323
+ "32035": {
324
+ "content": "[unused36]",
325
+ "lstrip": false,
326
+ "normalized": false,
327
+ "rstrip": false,
328
+ "single_word": false,
329
+ "special": true
330
+ },
331
+ "32036": {
332
+ "content": "[unused37]",
333
+ "lstrip": false,
334
+ "normalized": false,
335
+ "rstrip": false,
336
+ "single_word": false,
337
+ "special": true
338
+ },
339
+ "32037": {
340
+ "content": "[unused38]",
341
+ "lstrip": false,
342
+ "normalized": false,
343
+ "rstrip": false,
344
+ "single_word": false,
345
+ "special": true
346
+ },
347
+ "32038": {
348
+ "content": "[unused39]",
349
+ "lstrip": false,
350
+ "normalized": false,
351
+ "rstrip": false,
352
+ "single_word": false,
353
+ "special": true
354
+ },
355
+ "32039": {
356
+ "content": "[unused40]",
357
+ "lstrip": false,
358
+ "normalized": false,
359
+ "rstrip": false,
360
+ "single_word": false,
361
+ "special": true
362
+ },
363
+ "32040": {
364
+ "content": "[unused41]",
365
+ "lstrip": false,
366
+ "normalized": false,
367
+ "rstrip": false,
368
+ "single_word": false,
369
+ "special": true
370
+ },
371
+ "32041": {
372
+ "content": "[unused42]",
373
+ "lstrip": false,
374
+ "normalized": false,
375
+ "rstrip": false,
376
+ "single_word": false,
377
+ "special": true
378
+ },
379
+ "32042": {
380
+ "content": "[unused43]",
381
+ "lstrip": false,
382
+ "normalized": false,
383
+ "rstrip": false,
384
+ "single_word": false,
385
+ "special": true
386
+ },
387
+ "32043": {
388
+ "content": "[unused44]",
389
+ "lstrip": false,
390
+ "normalized": false,
391
+ "rstrip": false,
392
+ "single_word": false,
393
+ "special": true
394
+ },
395
+ "32044": {
396
+ "content": "[unused45]",
397
+ "lstrip": false,
398
+ "normalized": false,
399
+ "rstrip": false,
400
+ "single_word": false,
401
+ "special": true
402
+ },
403
+ "32045": {
404
+ "content": "[unused46]",
405
+ "lstrip": false,
406
+ "normalized": false,
407
+ "rstrip": false,
408
+ "single_word": false,
409
+ "special": true
410
+ },
411
+ "32046": {
412
+ "content": "[unused47]",
413
+ "lstrip": false,
414
+ "normalized": false,
415
+ "rstrip": false,
416
+ "single_word": false,
417
+ "special": true
418
+ },
419
+ "32047": {
420
+ "content": "[unused48]",
421
+ "lstrip": false,
422
+ "normalized": false,
423
+ "rstrip": false,
424
+ "single_word": false,
425
+ "special": true
426
+ },
427
+ "32048": {
428
+ "content": "[unused49]",
429
+ "lstrip": false,
430
+ "normalized": false,
431
+ "rstrip": false,
432
+ "single_word": false,
433
+ "special": true
434
+ },
435
+ "32049": {
436
+ "content": "[unused50]",
437
+ "lstrip": false,
438
+ "normalized": false,
439
+ "rstrip": false,
440
+ "single_word": false,
441
+ "special": true
442
+ },
443
+ "32050": {
444
+ "content": "[unused51]",
445
+ "lstrip": false,
446
+ "normalized": false,
447
+ "rstrip": false,
448
+ "single_word": false,
449
+ "special": true
450
+ },
451
+ "32051": {
452
+ "content": "[unused52]",
453
+ "lstrip": false,
454
+ "normalized": false,
455
+ "rstrip": false,
456
+ "single_word": false,
457
+ "special": true
458
+ },
459
+ "32052": {
460
+ "content": "[unused53]",
461
+ "lstrip": false,
462
+ "normalized": false,
463
+ "rstrip": false,
464
+ "single_word": false,
465
+ "special": true
466
+ },
467
+ "32053": {
468
+ "content": "[unused54]",
469
+ "lstrip": false,
470
+ "normalized": false,
471
+ "rstrip": false,
472
+ "single_word": false,
473
+ "special": true
474
+ },
475
+ "32054": {
476
+ "content": "[unused55]",
477
+ "lstrip": false,
478
+ "normalized": false,
479
+ "rstrip": false,
480
+ "single_word": false,
481
+ "special": true
482
+ },
483
+ "32055": {
484
+ "content": "[unused56]",
485
+ "lstrip": false,
486
+ "normalized": false,
487
+ "rstrip": false,
488
+ "single_word": false,
489
+ "special": true
490
+ },
491
+ "32056": {
492
+ "content": "[unused57]",
493
+ "lstrip": false,
494
+ "normalized": false,
495
+ "rstrip": false,
496
+ "single_word": false,
497
+ "special": true
498
+ },
499
+ "32057": {
500
+ "content": "[unused58]",
501
+ "lstrip": false,
502
+ "normalized": false,
503
+ "rstrip": false,
504
+ "single_word": false,
505
+ "special": true
506
+ },
507
+ "32058": {
508
+ "content": "[unused59]",
509
+ "lstrip": false,
510
+ "normalized": false,
511
+ "rstrip": false,
512
+ "single_word": false,
513
+ "special": true
514
+ },
515
+ "32059": {
516
+ "content": "[unused60]",
517
+ "lstrip": false,
518
+ "normalized": false,
519
+ "rstrip": false,
520
+ "single_word": false,
521
+ "special": true
522
+ },
523
+ "32060": {
524
+ "content": "[unused61]",
525
+ "lstrip": false,
526
+ "normalized": false,
527
+ "rstrip": false,
528
+ "single_word": false,
529
+ "special": true
530
+ },
531
+ "32061": {
532
+ "content": "[unused62]",
533
+ "lstrip": false,
534
+ "normalized": false,
535
+ "rstrip": false,
536
+ "single_word": false,
537
+ "special": true
538
+ },
539
+ "32062": {
540
+ "content": "[unused63]",
541
+ "lstrip": false,
542
+ "normalized": false,
543
+ "rstrip": false,
544
+ "single_word": false,
545
+ "special": true
546
+ },
547
+ "32063": {
548
+ "content": "[unused64]",
549
+ "lstrip": false,
550
+ "normalized": false,
551
+ "rstrip": false,
552
+ "single_word": false,
553
+ "special": true
554
+ }
555
+ },
556
+ "clean_up_tokenization_spaces": true,
557
+ "cls_token": "[CLS]",
558
+ "extra_special_tokens": {},
559
+ "mask_token": "[MASK]",
560
+ "model_input_names": [
561
+ "input_ids",
562
+ "attention_mask"
563
+ ],
564
+ "model_max_length": 512,
565
+ "pad_token": "[PAD]",
566
+ "sep_token": "[SEP]",
567
+ "tokenizer_class": "PreTrainedTokenizerFast",
568
+ "unk_token": "[UNK]"
569
+ }
checkpoints/checkpoint-20000/trainer_state.json ADDED
@@ -0,0 +1,2914 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 18000,
3
+ "best_metric": 3.9484923051611727,
4
+ "best_model_checkpoint": "outputs/bert-tiny-stage2-sbert/checkpoints/checkpoint-18000",
5
+ "epoch": 4.7303689687795645,
6
+ "eval_steps": 2000,
7
+ "global_step": 20000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.011825922421948912,
14
+ "grad_norm": 37.789451599121094,
15
+ "learning_rate": 2.3173327027666118e-07,
16
+ "loss": 18.0314,
17
+ "step": 50
18
+ },
19
+ {
20
+ "epoch": 0.023651844843897825,
21
+ "grad_norm": 43.297508239746094,
22
+ "learning_rate": 4.6819579096713174e-07,
23
+ "loss": 17.7147,
24
+ "step": 100
25
+ },
26
+ {
27
+ "epoch": 0.035477767265846734,
28
+ "grad_norm": 36.56124496459961,
29
+ "learning_rate": 7.046583116576024e-07,
30
+ "loss": 17.0007,
31
+ "step": 150
32
+ },
33
+ {
34
+ "epoch": 0.04730368968779565,
35
+ "grad_norm": 34.428916931152344,
36
+ "learning_rate": 9.411208323480729e-07,
37
+ "loss": 16.0667,
38
+ "step": 200
39
+ },
40
+ {
41
+ "epoch": 0.05912961210974456,
42
+ "grad_norm": 33.16645812988281,
43
+ "learning_rate": 1.1775833530385434e-06,
44
+ "loss": 14.9131,
45
+ "step": 250
46
+ },
47
+ {
48
+ "epoch": 0.07095553453169347,
49
+ "grad_norm": 29.064250946044922,
50
+ "learning_rate": 1.4140458737290142e-06,
51
+ "loss": 13.9449,
52
+ "step": 300
53
+ },
54
+ {
55
+ "epoch": 0.08278145695364239,
56
+ "grad_norm": 31.42921257019043,
57
+ "learning_rate": 1.6505083944194847e-06,
58
+ "loss": 12.7957,
59
+ "step": 350
60
+ },
61
+ {
62
+ "epoch": 0.0946073793755913,
63
+ "grad_norm": 33.341365814208984,
64
+ "learning_rate": 1.8869709151099552e-06,
65
+ "loss": 11.7288,
66
+ "step": 400
67
+ },
68
+ {
69
+ "epoch": 0.10643330179754021,
70
+ "grad_norm": 36.34325408935547,
71
+ "learning_rate": 2.123433435800426e-06,
72
+ "loss": 10.6945,
73
+ "step": 450
74
+ },
75
+ {
76
+ "epoch": 0.11825922421948912,
77
+ "grad_norm": 39.06941604614258,
78
+ "learning_rate": 2.3598959564908965e-06,
79
+ "loss": 9.4743,
80
+ "step": 500
81
+ },
82
+ {
83
+ "epoch": 0.13008514664143803,
84
+ "grad_norm": 32.969947814941406,
85
+ "learning_rate": 2.596358477181367e-06,
86
+ "loss": 8.6215,
87
+ "step": 550
88
+ },
89
+ {
90
+ "epoch": 0.14191106906338694,
91
+ "grad_norm": 33.9212760925293,
92
+ "learning_rate": 2.8328209978718375e-06,
93
+ "loss": 7.7279,
94
+ "step": 600
95
+ },
96
+ {
97
+ "epoch": 0.15373699148533584,
98
+ "grad_norm": 32.65876007080078,
99
+ "learning_rate": 3.069283518562308e-06,
100
+ "loss": 7.1892,
101
+ "step": 650
102
+ },
103
+ {
104
+ "epoch": 0.16556291390728478,
105
+ "grad_norm": 29.210859298706055,
106
+ "learning_rate": 3.3057460392527786e-06,
107
+ "loss": 6.9682,
108
+ "step": 700
109
+ },
110
+ {
111
+ "epoch": 0.1773888363292337,
112
+ "grad_norm": 29.231189727783203,
113
+ "learning_rate": 3.5422085599432495e-06,
114
+ "loss": 6.4781,
115
+ "step": 750
116
+ },
117
+ {
118
+ "epoch": 0.1892147587511826,
119
+ "grad_norm": 28.949066162109375,
120
+ "learning_rate": 3.77867108063372e-06,
121
+ "loss": 6.1271,
122
+ "step": 800
123
+ },
124
+ {
125
+ "epoch": 0.2010406811731315,
126
+ "grad_norm": 29.826133728027344,
127
+ "learning_rate": 4.01513360132419e-06,
128
+ "loss": 6.1199,
129
+ "step": 850
130
+ },
131
+ {
132
+ "epoch": 0.21286660359508042,
133
+ "grad_norm": 27.585041046142578,
134
+ "learning_rate": 4.2515961220146615e-06,
135
+ "loss": 5.9544,
136
+ "step": 900
137
+ },
138
+ {
139
+ "epoch": 0.22469252601702933,
140
+ "grad_norm": 28.10279655456543,
141
+ "learning_rate": 4.488058642705131e-06,
142
+ "loss": 5.8145,
143
+ "step": 950
144
+ },
145
+ {
146
+ "epoch": 0.23651844843897823,
147
+ "grad_norm": 26.567943572998047,
148
+ "learning_rate": 4.7245211633956025e-06,
149
+ "loss": 5.5599,
150
+ "step": 1000
151
+ },
152
+ {
153
+ "epoch": 0.24834437086092714,
154
+ "grad_norm": 24.42616081237793,
155
+ "learning_rate": 4.960983684086072e-06,
156
+ "loss": 5.2344,
157
+ "step": 1050
158
+ },
159
+ {
160
+ "epoch": 0.26017029328287605,
161
+ "grad_norm": 25.857810974121094,
162
+ "learning_rate": 5.197446204776543e-06,
163
+ "loss": 5.3013,
164
+ "step": 1100
165
+ },
166
+ {
167
+ "epoch": 0.27199621570482496,
168
+ "grad_norm": 26.047733306884766,
169
+ "learning_rate": 5.433908725467014e-06,
170
+ "loss": 5.0562,
171
+ "step": 1150
172
+ },
173
+ {
174
+ "epoch": 0.28382213812677387,
175
+ "grad_norm": 26.875659942626953,
176
+ "learning_rate": 5.670371246157485e-06,
177
+ "loss": 4.8728,
178
+ "step": 1200
179
+ },
180
+ {
181
+ "epoch": 0.2956480605487228,
182
+ "grad_norm": 21.9539737701416,
183
+ "learning_rate": 5.906833766847954e-06,
184
+ "loss": 4.7826,
185
+ "step": 1250
186
+ },
187
+ {
188
+ "epoch": 0.3074739829706717,
189
+ "grad_norm": 23.06488609313965,
190
+ "learning_rate": 6.143296287538426e-06,
191
+ "loss": 4.8806,
192
+ "step": 1300
193
+ },
194
+ {
195
+ "epoch": 0.3192999053926206,
196
+ "grad_norm": 24.24974250793457,
197
+ "learning_rate": 6.379758808228896e-06,
198
+ "loss": 4.6464,
199
+ "step": 1350
200
+ },
201
+ {
202
+ "epoch": 0.33112582781456956,
203
+ "grad_norm": 22.658571243286133,
204
+ "learning_rate": 6.616221328919367e-06,
205
+ "loss": 4.7046,
206
+ "step": 1400
207
+ },
208
+ {
209
+ "epoch": 0.34295175023651847,
210
+ "grad_norm": 21.927656173706055,
211
+ "learning_rate": 6.852683849609837e-06,
212
+ "loss": 4.5188,
213
+ "step": 1450
214
+ },
215
+ {
216
+ "epoch": 0.3547776726584674,
217
+ "grad_norm": 24.39653778076172,
218
+ "learning_rate": 7.089146370300309e-06,
219
+ "loss": 4.4968,
220
+ "step": 1500
221
+ },
222
+ {
223
+ "epoch": 0.3666035950804163,
224
+ "grad_norm": 23.591333389282227,
225
+ "learning_rate": 7.325608890990778e-06,
226
+ "loss": 4.4387,
227
+ "step": 1550
228
+ },
229
+ {
230
+ "epoch": 0.3784295175023652,
231
+ "grad_norm": 24.572961807250977,
232
+ "learning_rate": 7.562071411681249e-06,
233
+ "loss": 4.1702,
234
+ "step": 1600
235
+ },
236
+ {
237
+ "epoch": 0.3902554399243141,
238
+ "grad_norm": 22.61821174621582,
239
+ "learning_rate": 7.79853393237172e-06,
240
+ "loss": 4.2147,
241
+ "step": 1650
242
+ },
243
+ {
244
+ "epoch": 0.402081362346263,
245
+ "grad_norm": 22.490327835083008,
246
+ "learning_rate": 8.03499645306219e-06,
247
+ "loss": 3.9972,
248
+ "step": 1700
249
+ },
250
+ {
251
+ "epoch": 0.4139072847682119,
252
+ "grad_norm": 23.695873260498047,
253
+ "learning_rate": 8.271458973752661e-06,
254
+ "loss": 4.1279,
255
+ "step": 1750
256
+ },
257
+ {
258
+ "epoch": 0.42573320719016083,
259
+ "grad_norm": 24.085838317871094,
260
+ "learning_rate": 8.507921494443131e-06,
261
+ "loss": 4.0214,
262
+ "step": 1800
263
+ },
264
+ {
265
+ "epoch": 0.43755912961210974,
266
+ "grad_norm": 20.78253173828125,
267
+ "learning_rate": 8.744384015133602e-06,
268
+ "loss": 3.9161,
269
+ "step": 1850
270
+ },
271
+ {
272
+ "epoch": 0.44938505203405865,
273
+ "grad_norm": 19.800090789794922,
274
+ "learning_rate": 8.980846535824072e-06,
275
+ "loss": 3.7544,
276
+ "step": 1900
277
+ },
278
+ {
279
+ "epoch": 0.46121097445600756,
280
+ "grad_norm": 22.900514602661133,
281
+ "learning_rate": 9.217309056514543e-06,
282
+ "loss": 3.8246,
283
+ "step": 1950
284
+ },
285
+ {
286
+ "epoch": 0.47303689687795647,
287
+ "grad_norm": 22.419363021850586,
288
+ "learning_rate": 9.453771577205015e-06,
289
+ "loss": 3.7991,
290
+ "step": 2000
291
+ },
292
+ {
293
+ "epoch": 0.47303689687795647,
294
+ "eval_runtime": 46.7005,
295
+ "eval_samples_per_second": 0.0,
296
+ "eval_steps_per_second": 0.0,
297
+ "eval_validation_loss": 5.98806651504585,
298
+ "step": 2000
299
+ },
300
+ {
301
+ "epoch": 0.4848628192999054,
302
+ "grad_norm": 22.308876037597656,
303
+ "learning_rate": 9.690234097895484e-06,
304
+ "loss": 3.8554,
305
+ "step": 2050
306
+ },
307
+ {
308
+ "epoch": 0.4966887417218543,
309
+ "grad_norm": 23.8614501953125,
310
+ "learning_rate": 9.926696618585954e-06,
311
+ "loss": 3.8123,
312
+ "step": 2100
313
+ },
314
+ {
315
+ "epoch": 0.5085146641438032,
316
+ "grad_norm": 21.00491714477539,
317
+ "learning_rate": 1.0163159139276425e-05,
318
+ "loss": 3.5525,
319
+ "step": 2150
320
+ },
321
+ {
322
+ "epoch": 0.5203405865657521,
323
+ "grad_norm": 25.555097579956055,
324
+ "learning_rate": 1.0399621659966897e-05,
325
+ "loss": 3.5591,
326
+ "step": 2200
327
+ },
328
+ {
329
+ "epoch": 0.532166508987701,
330
+ "grad_norm": 25.4840087890625,
331
+ "learning_rate": 1.0636084180657367e-05,
332
+ "loss": 3.6293,
333
+ "step": 2250
334
+ },
335
+ {
336
+ "epoch": 0.5439924314096499,
337
+ "grad_norm": 21.117971420288086,
338
+ "learning_rate": 1.0872546701347836e-05,
339
+ "loss": 3.5831,
340
+ "step": 2300
341
+ },
342
+ {
343
+ "epoch": 0.5558183538315988,
344
+ "grad_norm": 23.38995361328125,
345
+ "learning_rate": 1.1109009222038308e-05,
346
+ "loss": 3.6007,
347
+ "step": 2350
348
+ },
349
+ {
350
+ "epoch": 0.5676442762535477,
351
+ "grad_norm": 22.385738372802734,
352
+ "learning_rate": 1.1345471742728777e-05,
353
+ "loss": 3.4225,
354
+ "step": 2400
355
+ },
356
+ {
357
+ "epoch": 0.5794701986754967,
358
+ "grad_norm": 21.53306007385254,
359
+ "learning_rate": 1.158193426341925e-05,
360
+ "loss": 3.4405,
361
+ "step": 2450
362
+ },
363
+ {
364
+ "epoch": 0.5912961210974456,
365
+ "grad_norm": 22.93678092956543,
366
+ "learning_rate": 1.181839678410972e-05,
367
+ "loss": 3.4002,
368
+ "step": 2500
369
+ },
370
+ {
371
+ "epoch": 0.6031220435193945,
372
+ "grad_norm": 20.330045700073242,
373
+ "learning_rate": 1.2054859304800191e-05,
374
+ "loss": 3.3653,
375
+ "step": 2550
376
+ },
377
+ {
378
+ "epoch": 0.6149479659413434,
379
+ "grad_norm": 21.98198699951172,
380
+ "learning_rate": 1.2291321825490661e-05,
381
+ "loss": 3.321,
382
+ "step": 2600
383
+ },
384
+ {
385
+ "epoch": 0.6267738883632923,
386
+ "grad_norm": 18.49015998840332,
387
+ "learning_rate": 1.252778434618113e-05,
388
+ "loss": 3.3042,
389
+ "step": 2650
390
+ },
391
+ {
392
+ "epoch": 0.6385998107852412,
393
+ "grad_norm": 22.69803237915039,
394
+ "learning_rate": 1.2764246866871602e-05,
395
+ "loss": 3.2117,
396
+ "step": 2700
397
+ },
398
+ {
399
+ "epoch": 0.6504257332071902,
400
+ "grad_norm": 19.658132553100586,
401
+ "learning_rate": 1.3000709387562072e-05,
402
+ "loss": 3.3423,
403
+ "step": 2750
404
+ },
405
+ {
406
+ "epoch": 0.6622516556291391,
407
+ "grad_norm": 20.783931732177734,
408
+ "learning_rate": 1.3237171908252545e-05,
409
+ "loss": 3.2494,
410
+ "step": 2800
411
+ },
412
+ {
413
+ "epoch": 0.674077578051088,
414
+ "grad_norm": 17.039609909057617,
415
+ "learning_rate": 1.3473634428943014e-05,
416
+ "loss": 3.1364,
417
+ "step": 2850
418
+ },
419
+ {
420
+ "epoch": 0.6859035004730369,
421
+ "grad_norm": 21.787738800048828,
422
+ "learning_rate": 1.3710096949633484e-05,
423
+ "loss": 3.1836,
424
+ "step": 2900
425
+ },
426
+ {
427
+ "epoch": 0.6977294228949859,
428
+ "grad_norm": 20.883773803710938,
429
+ "learning_rate": 1.3946559470323956e-05,
430
+ "loss": 3.1268,
431
+ "step": 2950
432
+ },
433
+ {
434
+ "epoch": 0.7095553453169348,
435
+ "grad_norm": 17.700597763061523,
436
+ "learning_rate": 1.4183021991014425e-05,
437
+ "loss": 3.072,
438
+ "step": 3000
439
+ },
440
+ {
441
+ "epoch": 0.7213812677388837,
442
+ "grad_norm": 20.23262596130371,
443
+ "learning_rate": 1.4419484511704895e-05,
444
+ "loss": 3.0135,
445
+ "step": 3050
446
+ },
447
+ {
448
+ "epoch": 0.7332071901608326,
449
+ "grad_norm": 19.417842864990234,
450
+ "learning_rate": 1.4655947032395366e-05,
451
+ "loss": 3.0607,
452
+ "step": 3100
453
+ },
454
+ {
455
+ "epoch": 0.7450331125827815,
456
+ "grad_norm": 19.843341827392578,
457
+ "learning_rate": 1.4892409553085838e-05,
458
+ "loss": 3.0963,
459
+ "step": 3150
460
+ },
461
+ {
462
+ "epoch": 0.7568590350047304,
463
+ "grad_norm": 20.248523712158203,
464
+ "learning_rate": 1.5128872073776309e-05,
465
+ "loss": 3.0419,
466
+ "step": 3200
467
+ },
468
+ {
469
+ "epoch": 0.7686849574266793,
470
+ "grad_norm": 24.61260986328125,
471
+ "learning_rate": 1.5365334594466777e-05,
472
+ "loss": 2.9891,
473
+ "step": 3250
474
+ },
475
+ {
476
+ "epoch": 0.7805108798486282,
477
+ "grad_norm": 16.637826919555664,
478
+ "learning_rate": 1.560179711515725e-05,
479
+ "loss": 2.9384,
480
+ "step": 3300
481
+ },
482
+ {
483
+ "epoch": 0.7923368022705771,
484
+ "grad_norm": 24.341026306152344,
485
+ "learning_rate": 1.583825963584772e-05,
486
+ "loss": 2.8918,
487
+ "step": 3350
488
+ },
489
+ {
490
+ "epoch": 0.804162724692526,
491
+ "grad_norm": 18.246440887451172,
492
+ "learning_rate": 1.607472215653819e-05,
493
+ "loss": 2.9816,
494
+ "step": 3400
495
+ },
496
+ {
497
+ "epoch": 0.8159886471144749,
498
+ "grad_norm": 19.296022415161133,
499
+ "learning_rate": 1.631118467722866e-05,
500
+ "loss": 2.9664,
501
+ "step": 3450
502
+ },
503
+ {
504
+ "epoch": 0.8278145695364238,
505
+ "grad_norm": 19.331918716430664,
506
+ "learning_rate": 1.6547647197919134e-05,
507
+ "loss": 2.8969,
508
+ "step": 3500
509
+ },
510
+ {
511
+ "epoch": 0.8396404919583728,
512
+ "grad_norm": 25.586254119873047,
513
+ "learning_rate": 1.6784109718609602e-05,
514
+ "loss": 2.9368,
515
+ "step": 3550
516
+ },
517
+ {
518
+ "epoch": 0.8514664143803217,
519
+ "grad_norm": 19.701223373413086,
520
+ "learning_rate": 1.7020572239300073e-05,
521
+ "loss": 2.8513,
522
+ "step": 3600
523
+ },
524
+ {
525
+ "epoch": 0.8632923368022706,
526
+ "grad_norm": 16.68182945251465,
527
+ "learning_rate": 1.7257034759990545e-05,
528
+ "loss": 2.9808,
529
+ "step": 3650
530
+ },
531
+ {
532
+ "epoch": 0.8751182592242195,
533
+ "grad_norm": 19.592416763305664,
534
+ "learning_rate": 1.7493497280681013e-05,
535
+ "loss": 2.8428,
536
+ "step": 3700
537
+ },
538
+ {
539
+ "epoch": 0.8869441816461684,
540
+ "grad_norm": 20.324504852294922,
541
+ "learning_rate": 1.7729959801371484e-05,
542
+ "loss": 2.8775,
543
+ "step": 3750
544
+ },
545
+ {
546
+ "epoch": 0.8987701040681173,
547
+ "grad_norm": 19.49851417541504,
548
+ "learning_rate": 1.7966422322061955e-05,
549
+ "loss": 2.739,
550
+ "step": 3800
551
+ },
552
+ {
553
+ "epoch": 0.9105960264900662,
554
+ "grad_norm": 19.18546485900879,
555
+ "learning_rate": 1.8202884842752427e-05,
556
+ "loss": 2.8277,
557
+ "step": 3850
558
+ },
559
+ {
560
+ "epoch": 0.9224219489120151,
561
+ "grad_norm": 23.6113338470459,
562
+ "learning_rate": 1.8439347363442898e-05,
563
+ "loss": 2.767,
564
+ "step": 3900
565
+ },
566
+ {
567
+ "epoch": 0.934247871333964,
568
+ "grad_norm": 19.779712677001953,
569
+ "learning_rate": 1.8675809884133366e-05,
570
+ "loss": 2.794,
571
+ "step": 3950
572
+ },
573
+ {
574
+ "epoch": 0.9460737937559129,
575
+ "grad_norm": 23.361425399780273,
576
+ "learning_rate": 1.8912272404823837e-05,
577
+ "loss": 2.7738,
578
+ "step": 4000
579
+ },
580
+ {
581
+ "epoch": 0.9460737937559129,
582
+ "eval_runtime": 47.0317,
583
+ "eval_samples_per_second": 0.0,
584
+ "eval_steps_per_second": 0.0,
585
+ "eval_validation_loss": 4.773771009103065,
586
+ "step": 4000
587
+ },
588
+ {
589
+ "epoch": 0.9578997161778618,
590
+ "grad_norm": 18.137535095214844,
591
+ "learning_rate": 1.914873492551431e-05,
592
+ "loss": 2.8568,
593
+ "step": 4050
594
+ },
595
+ {
596
+ "epoch": 0.9697256385998108,
597
+ "grad_norm": 18.014116287231445,
598
+ "learning_rate": 1.9385197446204777e-05,
599
+ "loss": 2.7938,
600
+ "step": 4100
601
+ },
602
+ {
603
+ "epoch": 0.9815515610217597,
604
+ "grad_norm": 17.168569564819336,
605
+ "learning_rate": 1.9621659966895248e-05,
606
+ "loss": 2.7272,
607
+ "step": 4150
608
+ },
609
+ {
610
+ "epoch": 0.9933774834437086,
611
+ "grad_norm": 17.75269889831543,
612
+ "learning_rate": 1.985812248758572e-05,
613
+ "loss": 2.7079,
614
+ "step": 4200
615
+ },
616
+ {
617
+ "epoch": 1.0052034058656576,
618
+ "grad_norm": 19.342844009399414,
619
+ "learning_rate": 1.9976346756548995e-05,
620
+ "loss": 2.6383,
621
+ "step": 4250
622
+ },
623
+ {
624
+ "epoch": 1.0170293282876064,
625
+ "grad_norm": 17.54117774963379,
626
+ "learning_rate": 1.9917213647921473e-05,
627
+ "loss": 2.6855,
628
+ "step": 4300
629
+ },
630
+ {
631
+ "epoch": 1.0288552507095554,
632
+ "grad_norm": 18.412206649780273,
633
+ "learning_rate": 1.9858080539293952e-05,
634
+ "loss": 2.6568,
635
+ "step": 4350
636
+ },
637
+ {
638
+ "epoch": 1.0406811731315042,
639
+ "grad_norm": 18.794939041137695,
640
+ "learning_rate": 1.979894743066643e-05,
641
+ "loss": 2.5981,
642
+ "step": 4400
643
+ },
644
+ {
645
+ "epoch": 1.0525070955534532,
646
+ "grad_norm": 17.26803970336914,
647
+ "learning_rate": 1.973981432203891e-05,
648
+ "loss": 2.6987,
649
+ "step": 4450
650
+ },
651
+ {
652
+ "epoch": 1.064333017975402,
653
+ "grad_norm": 15.831737518310547,
654
+ "learning_rate": 1.968068121341139e-05,
655
+ "loss": 2.6992,
656
+ "step": 4500
657
+ },
658
+ {
659
+ "epoch": 1.076158940397351,
660
+ "grad_norm": 16.746700286865234,
661
+ "learning_rate": 1.962154810478387e-05,
662
+ "loss": 2.5434,
663
+ "step": 4550
664
+ },
665
+ {
666
+ "epoch": 1.0879848628192998,
667
+ "grad_norm": 18.824857711791992,
668
+ "learning_rate": 1.956241499615635e-05,
669
+ "loss": 2.5553,
670
+ "step": 4600
671
+ },
672
+ {
673
+ "epoch": 1.0998107852412489,
674
+ "grad_norm": 16.81246566772461,
675
+ "learning_rate": 1.9503281887528828e-05,
676
+ "loss": 2.4978,
677
+ "step": 4650
678
+ },
679
+ {
680
+ "epoch": 1.1116367076631977,
681
+ "grad_norm": 18.369991302490234,
682
+ "learning_rate": 1.9444148778901307e-05,
683
+ "loss": 2.5679,
684
+ "step": 4700
685
+ },
686
+ {
687
+ "epoch": 1.1234626300851467,
688
+ "grad_norm": 19.55158805847168,
689
+ "learning_rate": 1.938501567027379e-05,
690
+ "loss": 2.4768,
691
+ "step": 4750
692
+ },
693
+ {
694
+ "epoch": 1.1352885525070955,
695
+ "grad_norm": 20.673002243041992,
696
+ "learning_rate": 1.9325882561646268e-05,
697
+ "loss": 2.5578,
698
+ "step": 4800
699
+ },
700
+ {
701
+ "epoch": 1.1471144749290445,
702
+ "grad_norm": 17.067432403564453,
703
+ "learning_rate": 1.9266749453018747e-05,
704
+ "loss": 2.4758,
705
+ "step": 4850
706
+ },
707
+ {
708
+ "epoch": 1.1589403973509933,
709
+ "grad_norm": 22.328304290771484,
710
+ "learning_rate": 1.9207616344391226e-05,
711
+ "loss": 2.5352,
712
+ "step": 4900
713
+ },
714
+ {
715
+ "epoch": 1.1707663197729423,
716
+ "grad_norm": 15.121694564819336,
717
+ "learning_rate": 1.9148483235763708e-05,
718
+ "loss": 2.5023,
719
+ "step": 4950
720
+ },
721
+ {
722
+ "epoch": 1.1825922421948911,
723
+ "grad_norm": 15.201376914978027,
724
+ "learning_rate": 1.9089350127136187e-05,
725
+ "loss": 2.4713,
726
+ "step": 5000
727
+ },
728
+ {
729
+ "epoch": 1.1944181646168401,
730
+ "grad_norm": 20.54207992553711,
731
+ "learning_rate": 1.9030217018508665e-05,
732
+ "loss": 2.486,
733
+ "step": 5050
734
+ },
735
+ {
736
+ "epoch": 1.206244087038789,
737
+ "grad_norm": 16.934635162353516,
738
+ "learning_rate": 1.8971083909881144e-05,
739
+ "loss": 2.483,
740
+ "step": 5100
741
+ },
742
+ {
743
+ "epoch": 1.218070009460738,
744
+ "grad_norm": 16.963790893554688,
745
+ "learning_rate": 1.8911950801253623e-05,
746
+ "loss": 2.4098,
747
+ "step": 5150
748
+ },
749
+ {
750
+ "epoch": 1.2298959318826868,
751
+ "grad_norm": 16.505352020263672,
752
+ "learning_rate": 1.8852817692626102e-05,
753
+ "loss": 2.5061,
754
+ "step": 5200
755
+ },
756
+ {
757
+ "epoch": 1.2417218543046358,
758
+ "grad_norm": 16.634069442749023,
759
+ "learning_rate": 1.879368458399858e-05,
760
+ "loss": 2.4597,
761
+ "step": 5250
762
+ },
763
+ {
764
+ "epoch": 1.2535477767265846,
765
+ "grad_norm": 16.373046875,
766
+ "learning_rate": 1.8734551475371063e-05,
767
+ "loss": 2.4591,
768
+ "step": 5300
769
+ },
770
+ {
771
+ "epoch": 1.2653736991485336,
772
+ "grad_norm": 21.308876037597656,
773
+ "learning_rate": 1.867541836674354e-05,
774
+ "loss": 2.3879,
775
+ "step": 5350
776
+ },
777
+ {
778
+ "epoch": 1.2771996215704826,
779
+ "grad_norm": 20.565275192260742,
780
+ "learning_rate": 1.861628525811602e-05,
781
+ "loss": 2.4146,
782
+ "step": 5400
783
+ },
784
+ {
785
+ "epoch": 1.2890255439924314,
786
+ "grad_norm": 15.853353500366211,
787
+ "learning_rate": 1.85571521494885e-05,
788
+ "loss": 2.3418,
789
+ "step": 5450
790
+ },
791
+ {
792
+ "epoch": 1.3008514664143802,
793
+ "grad_norm": 13.12362003326416,
794
+ "learning_rate": 1.8498019040860978e-05,
795
+ "loss": 2.4307,
796
+ "step": 5500
797
+ },
798
+ {
799
+ "epoch": 1.3126773888363292,
800
+ "grad_norm": 19.059667587280273,
801
+ "learning_rate": 1.843888593223346e-05,
802
+ "loss": 2.3653,
803
+ "step": 5550
804
+ },
805
+ {
806
+ "epoch": 1.3245033112582782,
807
+ "grad_norm": 17.448827743530273,
808
+ "learning_rate": 1.837975282360594e-05,
809
+ "loss": 2.3995,
810
+ "step": 5600
811
+ },
812
+ {
813
+ "epoch": 1.336329233680227,
814
+ "grad_norm": 18.326887130737305,
815
+ "learning_rate": 1.8320619714978418e-05,
816
+ "loss": 2.4527,
817
+ "step": 5650
818
+ },
819
+ {
820
+ "epoch": 1.3481551561021758,
821
+ "grad_norm": 18.03122901916504,
822
+ "learning_rate": 1.8261486606350896e-05,
823
+ "loss": 2.4547,
824
+ "step": 5700
825
+ },
826
+ {
827
+ "epoch": 1.3599810785241249,
828
+ "grad_norm": 18.269872665405273,
829
+ "learning_rate": 1.820235349772338e-05,
830
+ "loss": 2.3695,
831
+ "step": 5750
832
+ },
833
+ {
834
+ "epoch": 1.3718070009460739,
835
+ "grad_norm": 16.90838623046875,
836
+ "learning_rate": 1.8143220389095857e-05,
837
+ "loss": 2.3341,
838
+ "step": 5800
839
+ },
840
+ {
841
+ "epoch": 1.3836329233680227,
842
+ "grad_norm": 18.816362380981445,
843
+ "learning_rate": 1.8084087280468336e-05,
844
+ "loss": 2.2412,
845
+ "step": 5850
846
+ },
847
+ {
848
+ "epoch": 1.3954588457899715,
849
+ "grad_norm": 17.30527687072754,
850
+ "learning_rate": 1.8024954171840815e-05,
851
+ "loss": 2.2695,
852
+ "step": 5900
853
+ },
854
+ {
855
+ "epoch": 1.4072847682119205,
856
+ "grad_norm": 18.299711227416992,
857
+ "learning_rate": 1.7965821063213297e-05,
858
+ "loss": 2.2922,
859
+ "step": 5950
860
+ },
861
+ {
862
+ "epoch": 1.4191106906338695,
863
+ "grad_norm": 18.047449111938477,
864
+ "learning_rate": 1.7906687954585773e-05,
865
+ "loss": 2.3176,
866
+ "step": 6000
867
+ },
868
+ {
869
+ "epoch": 1.4191106906338695,
870
+ "eval_runtime": 46.9839,
871
+ "eval_samples_per_second": 0.0,
872
+ "eval_steps_per_second": 0.0,
873
+ "eval_validation_loss": 4.305679076455633,
874
+ "step": 6000
875
+ },
876
+ {
877
+ "epoch": 1.4309366130558183,
878
+ "grad_norm": 20.608333587646484,
879
+ "learning_rate": 1.784755484595825e-05,
880
+ "loss": 2.281,
881
+ "step": 6050
882
+ },
883
+ {
884
+ "epoch": 1.4427625354777673,
885
+ "grad_norm": 16.299001693725586,
886
+ "learning_rate": 1.7788421737330734e-05,
887
+ "loss": 2.2155,
888
+ "step": 6100
889
+ },
890
+ {
891
+ "epoch": 1.4545884578997161,
892
+ "grad_norm": 17.70014762878418,
893
+ "learning_rate": 1.7729288628703212e-05,
894
+ "loss": 2.1908,
895
+ "step": 6150
896
+ },
897
+ {
898
+ "epoch": 1.4664143803216652,
899
+ "grad_norm": 13.944992065429688,
900
+ "learning_rate": 1.767015552007569e-05,
901
+ "loss": 2.2071,
902
+ "step": 6200
903
+ },
904
+ {
905
+ "epoch": 1.478240302743614,
906
+ "grad_norm": 18.37308692932129,
907
+ "learning_rate": 1.761102241144817e-05,
908
+ "loss": 2.2617,
909
+ "step": 6250
910
+ },
911
+ {
912
+ "epoch": 1.490066225165563,
913
+ "grad_norm": 16.624183654785156,
914
+ "learning_rate": 1.7551889302820652e-05,
915
+ "loss": 2.2864,
916
+ "step": 6300
917
+ },
918
+ {
919
+ "epoch": 1.5018921475875118,
920
+ "grad_norm": 15.490421295166016,
921
+ "learning_rate": 1.749275619419313e-05,
922
+ "loss": 2.2509,
923
+ "step": 6350
924
+ },
925
+ {
926
+ "epoch": 1.5137180700094608,
927
+ "grad_norm": 15.517704010009766,
928
+ "learning_rate": 1.743362308556561e-05,
929
+ "loss": 2.1227,
930
+ "step": 6400
931
+ },
932
+ {
933
+ "epoch": 1.5255439924314098,
934
+ "grad_norm": 14.78442096710205,
935
+ "learning_rate": 1.737448997693809e-05,
936
+ "loss": 2.1919,
937
+ "step": 6450
938
+ },
939
+ {
940
+ "epoch": 1.5373699148533586,
941
+ "grad_norm": 19.766271591186523,
942
+ "learning_rate": 1.7315356868310567e-05,
943
+ "loss": 2.2072,
944
+ "step": 6500
945
+ },
946
+ {
947
+ "epoch": 1.5491958372753074,
948
+ "grad_norm": 17.84695053100586,
949
+ "learning_rate": 1.725622375968305e-05,
950
+ "loss": 2.1652,
951
+ "step": 6550
952
+ },
953
+ {
954
+ "epoch": 1.5610217596972564,
955
+ "grad_norm": 17.325145721435547,
956
+ "learning_rate": 1.7197090651055528e-05,
957
+ "loss": 2.2224,
958
+ "step": 6600
959
+ },
960
+ {
961
+ "epoch": 1.5728476821192054,
962
+ "grad_norm": 19.243274688720703,
963
+ "learning_rate": 1.7137957542428007e-05,
964
+ "loss": 2.0715,
965
+ "step": 6650
966
+ },
967
+ {
968
+ "epoch": 1.5846736045411542,
969
+ "grad_norm": 17.589859008789062,
970
+ "learning_rate": 1.7078824433800486e-05,
971
+ "loss": 2.1693,
972
+ "step": 6700
973
+ },
974
+ {
975
+ "epoch": 1.596499526963103,
976
+ "grad_norm": 14.71687126159668,
977
+ "learning_rate": 1.7019691325172968e-05,
978
+ "loss": 2.1141,
979
+ "step": 6750
980
+ },
981
+ {
982
+ "epoch": 1.608325449385052,
983
+ "grad_norm": 14.723918914794922,
984
+ "learning_rate": 1.6960558216545443e-05,
985
+ "loss": 2.1129,
986
+ "step": 6800
987
+ },
988
+ {
989
+ "epoch": 1.620151371807001,
990
+ "grad_norm": 16.5570011138916,
991
+ "learning_rate": 1.6901425107917922e-05,
992
+ "loss": 2.1001,
993
+ "step": 6850
994
+ },
995
+ {
996
+ "epoch": 1.6319772942289499,
997
+ "grad_norm": 17.945083618164062,
998
+ "learning_rate": 1.6842291999290404e-05,
999
+ "loss": 2.094,
1000
+ "step": 6900
1001
+ },
1002
+ {
1003
+ "epoch": 1.6438032166508987,
1004
+ "grad_norm": 18.704225540161133,
1005
+ "learning_rate": 1.6783158890662883e-05,
1006
+ "loss": 2.2176,
1007
+ "step": 6950
1008
+ },
1009
+ {
1010
+ "epoch": 1.6556291390728477,
1011
+ "grad_norm": 15.701910018920898,
1012
+ "learning_rate": 1.6724025782035362e-05,
1013
+ "loss": 2.109,
1014
+ "step": 7000
1015
+ },
1016
+ {
1017
+ "epoch": 1.6674550614947967,
1018
+ "grad_norm": 16.768260955810547,
1019
+ "learning_rate": 1.666489267340784e-05,
1020
+ "loss": 2.0537,
1021
+ "step": 7050
1022
+ },
1023
+ {
1024
+ "epoch": 1.6792809839167455,
1025
+ "grad_norm": 17.835603713989258,
1026
+ "learning_rate": 1.6605759564780323e-05,
1027
+ "loss": 2.0328,
1028
+ "step": 7100
1029
+ },
1030
+ {
1031
+ "epoch": 1.6911069063386943,
1032
+ "grad_norm": 18.1043701171875,
1033
+ "learning_rate": 1.6546626456152802e-05,
1034
+ "loss": 2.1541,
1035
+ "step": 7150
1036
+ },
1037
+ {
1038
+ "epoch": 1.7029328287606433,
1039
+ "grad_norm": 14.032896995544434,
1040
+ "learning_rate": 1.648749334752528e-05,
1041
+ "loss": 2.0164,
1042
+ "step": 7200
1043
+ },
1044
+ {
1045
+ "epoch": 1.7147587511825924,
1046
+ "grad_norm": 15.934415817260742,
1047
+ "learning_rate": 1.642836023889776e-05,
1048
+ "loss": 2.0225,
1049
+ "step": 7250
1050
+ },
1051
+ {
1052
+ "epoch": 1.7265846736045412,
1053
+ "grad_norm": 15.602225303649902,
1054
+ "learning_rate": 1.636922713027024e-05,
1055
+ "loss": 2.0243,
1056
+ "step": 7300
1057
+ },
1058
+ {
1059
+ "epoch": 1.73841059602649,
1060
+ "grad_norm": 15.584887504577637,
1061
+ "learning_rate": 1.631009402164272e-05,
1062
+ "loss": 2.0152,
1063
+ "step": 7350
1064
+ },
1065
+ {
1066
+ "epoch": 1.750236518448439,
1067
+ "grad_norm": 17.52799415588379,
1068
+ "learning_rate": 1.62509609130152e-05,
1069
+ "loss": 2.0455,
1070
+ "step": 7400
1071
+ },
1072
+ {
1073
+ "epoch": 1.762062440870388,
1074
+ "grad_norm": 15.92798900604248,
1075
+ "learning_rate": 1.6191827804387678e-05,
1076
+ "loss": 2.0026,
1077
+ "step": 7450
1078
+ },
1079
+ {
1080
+ "epoch": 1.7738883632923368,
1081
+ "grad_norm": 14.851804733276367,
1082
+ "learning_rate": 1.6132694695760157e-05,
1083
+ "loss": 1.9846,
1084
+ "step": 7500
1085
+ },
1086
+ {
1087
+ "epoch": 1.7857142857142856,
1088
+ "grad_norm": 15.551090240478516,
1089
+ "learning_rate": 1.607356158713264e-05,
1090
+ "loss": 1.9594,
1091
+ "step": 7550
1092
+ },
1093
+ {
1094
+ "epoch": 1.7975402081362346,
1095
+ "grad_norm": 14.651620864868164,
1096
+ "learning_rate": 1.6014428478505118e-05,
1097
+ "loss": 2.0523,
1098
+ "step": 7600
1099
+ },
1100
+ {
1101
+ "epoch": 1.8093661305581836,
1102
+ "grad_norm": 19.447086334228516,
1103
+ "learning_rate": 1.5955295369877596e-05,
1104
+ "loss": 1.9751,
1105
+ "step": 7650
1106
+ },
1107
+ {
1108
+ "epoch": 1.8211920529801324,
1109
+ "grad_norm": 14.130012512207031,
1110
+ "learning_rate": 1.5896162261250075e-05,
1111
+ "loss": 1.9898,
1112
+ "step": 7700
1113
+ },
1114
+ {
1115
+ "epoch": 1.8330179754020812,
1116
+ "grad_norm": 18.4505615234375,
1117
+ "learning_rate": 1.5837029152622554e-05,
1118
+ "loss": 1.9658,
1119
+ "step": 7750
1120
+ },
1121
+ {
1122
+ "epoch": 1.8448438978240302,
1123
+ "grad_norm": 12.992496490478516,
1124
+ "learning_rate": 1.5777896043995033e-05,
1125
+ "loss": 1.9976,
1126
+ "step": 7800
1127
+ },
1128
+ {
1129
+ "epoch": 1.8566698202459793,
1130
+ "grad_norm": 17.20708656311035,
1131
+ "learning_rate": 1.571876293536751e-05,
1132
+ "loss": 1.9939,
1133
+ "step": 7850
1134
+ },
1135
+ {
1136
+ "epoch": 1.868495742667928,
1137
+ "grad_norm": 14.438339233398438,
1138
+ "learning_rate": 1.5659629826739994e-05,
1139
+ "loss": 1.9666,
1140
+ "step": 7900
1141
+ },
1142
+ {
1143
+ "epoch": 1.8803216650898769,
1144
+ "grad_norm": 16.87125015258789,
1145
+ "learning_rate": 1.5600496718112473e-05,
1146
+ "loss": 1.9704,
1147
+ "step": 7950
1148
+ },
1149
+ {
1150
+ "epoch": 1.8921475875118259,
1151
+ "grad_norm": 17.480026245117188,
1152
+ "learning_rate": 1.554136360948495e-05,
1153
+ "loss": 1.9822,
1154
+ "step": 8000
1155
+ },
1156
+ {
1157
+ "epoch": 1.8921475875118259,
1158
+ "eval_runtime": 47.026,
1159
+ "eval_samples_per_second": 0.0,
1160
+ "eval_steps_per_second": 0.0,
1161
+ "eval_validation_loss": 4.1330844767959665,
1162
+ "step": 8000
1163
+ },
1164
+ {
1165
+ "epoch": 1.903973509933775,
1166
+ "grad_norm": 15.649256706237793,
1167
+ "learning_rate": 1.548223050085743e-05,
1168
+ "loss": 1.8534,
1169
+ "step": 8050
1170
+ },
1171
+ {
1172
+ "epoch": 1.9157994323557237,
1173
+ "grad_norm": 17.02906608581543,
1174
+ "learning_rate": 1.5423097392229912e-05,
1175
+ "loss": 1.856,
1176
+ "step": 8100
1177
+ },
1178
+ {
1179
+ "epoch": 1.9276253547776725,
1180
+ "grad_norm": 16.321977615356445,
1181
+ "learning_rate": 1.536396428360239e-05,
1182
+ "loss": 1.9817,
1183
+ "step": 8150
1184
+ },
1185
+ {
1186
+ "epoch": 1.9394512771996215,
1187
+ "grad_norm": 21.492490768432617,
1188
+ "learning_rate": 1.530483117497487e-05,
1189
+ "loss": 1.9095,
1190
+ "step": 8200
1191
+ },
1192
+ {
1193
+ "epoch": 1.9512771996215705,
1194
+ "grad_norm": 18.752315521240234,
1195
+ "learning_rate": 1.524569806634735e-05,
1196
+ "loss": 1.9343,
1197
+ "step": 8250
1198
+ },
1199
+ {
1200
+ "epoch": 1.9631031220435196,
1201
+ "grad_norm": 17.007205963134766,
1202
+ "learning_rate": 1.518656495771983e-05,
1203
+ "loss": 1.95,
1204
+ "step": 8300
1205
+ },
1206
+ {
1207
+ "epoch": 1.9749290444654684,
1208
+ "grad_norm": 16.75872230529785,
1209
+ "learning_rate": 1.512743184909231e-05,
1210
+ "loss": 1.9981,
1211
+ "step": 8350
1212
+ },
1213
+ {
1214
+ "epoch": 1.9867549668874172,
1215
+ "grad_norm": 18.816049575805664,
1216
+ "learning_rate": 1.5068298740464788e-05,
1217
+ "loss": 1.8872,
1218
+ "step": 8400
1219
+ },
1220
+ {
1221
+ "epoch": 1.9985808893093662,
1222
+ "grad_norm": 16.992637634277344,
1223
+ "learning_rate": 1.5009165631837266e-05,
1224
+ "loss": 1.8112,
1225
+ "step": 8450
1226
+ },
1227
+ {
1228
+ "epoch": 2.010406811731315,
1229
+ "grad_norm": 16.72859001159668,
1230
+ "learning_rate": 1.4950032523209746e-05,
1231
+ "loss": 1.8451,
1232
+ "step": 8500
1233
+ },
1234
+ {
1235
+ "epoch": 2.0222327341532638,
1236
+ "grad_norm": 15.676278114318848,
1237
+ "learning_rate": 1.4890899414582225e-05,
1238
+ "loss": 1.8918,
1239
+ "step": 8550
1240
+ },
1241
+ {
1242
+ "epoch": 2.034058656575213,
1243
+ "grad_norm": 15.531780242919922,
1244
+ "learning_rate": 1.4831766305954705e-05,
1245
+ "loss": 1.7837,
1246
+ "step": 8600
1247
+ },
1248
+ {
1249
+ "epoch": 2.045884578997162,
1250
+ "grad_norm": 17.246252059936523,
1251
+ "learning_rate": 1.4772633197327184e-05,
1252
+ "loss": 1.8692,
1253
+ "step": 8650
1254
+ },
1255
+ {
1256
+ "epoch": 2.057710501419111,
1257
+ "grad_norm": 13.021443367004395,
1258
+ "learning_rate": 1.4713500088699663e-05,
1259
+ "loss": 1.8614,
1260
+ "step": 8700
1261
+ },
1262
+ {
1263
+ "epoch": 2.0695364238410594,
1264
+ "grad_norm": 15.586688041687012,
1265
+ "learning_rate": 1.4654366980072143e-05,
1266
+ "loss": 1.8677,
1267
+ "step": 8750
1268
+ },
1269
+ {
1270
+ "epoch": 2.0813623462630084,
1271
+ "grad_norm": 19.62430191040039,
1272
+ "learning_rate": 1.4595233871444622e-05,
1273
+ "loss": 1.8005,
1274
+ "step": 8800
1275
+ },
1276
+ {
1277
+ "epoch": 2.0931882686849574,
1278
+ "grad_norm": 15.454833984375,
1279
+ "learning_rate": 1.4536100762817103e-05,
1280
+ "loss": 1.8008,
1281
+ "step": 8850
1282
+ },
1283
+ {
1284
+ "epoch": 2.1050141911069065,
1285
+ "grad_norm": 16.70480728149414,
1286
+ "learning_rate": 1.4476967654189581e-05,
1287
+ "loss": 1.8207,
1288
+ "step": 8900
1289
+ },
1290
+ {
1291
+ "epoch": 2.116840113528855,
1292
+ "grad_norm": 17.584407806396484,
1293
+ "learning_rate": 1.4417834545562062e-05,
1294
+ "loss": 1.7491,
1295
+ "step": 8950
1296
+ },
1297
+ {
1298
+ "epoch": 2.128666035950804,
1299
+ "grad_norm": 17.367647171020508,
1300
+ "learning_rate": 1.435870143693454e-05,
1301
+ "loss": 1.8351,
1302
+ "step": 9000
1303
+ },
1304
+ {
1305
+ "epoch": 2.140491958372753,
1306
+ "grad_norm": 15.521934509277344,
1307
+ "learning_rate": 1.4299568328307021e-05,
1308
+ "loss": 1.7934,
1309
+ "step": 9050
1310
+ },
1311
+ {
1312
+ "epoch": 2.152317880794702,
1313
+ "grad_norm": 18.928241729736328,
1314
+ "learning_rate": 1.42404352196795e-05,
1315
+ "loss": 1.8162,
1316
+ "step": 9100
1317
+ },
1318
+ {
1319
+ "epoch": 2.1641438032166507,
1320
+ "grad_norm": 16.490169525146484,
1321
+ "learning_rate": 1.418130211105198e-05,
1322
+ "loss": 1.8496,
1323
+ "step": 9150
1324
+ },
1325
+ {
1326
+ "epoch": 2.1759697256385997,
1327
+ "grad_norm": 16.48432731628418,
1328
+ "learning_rate": 1.412216900242446e-05,
1329
+ "loss": 1.7747,
1330
+ "step": 9200
1331
+ },
1332
+ {
1333
+ "epoch": 2.1877956480605487,
1334
+ "grad_norm": 11.924939155578613,
1335
+ "learning_rate": 1.406303589379694e-05,
1336
+ "loss": 1.7665,
1337
+ "step": 9250
1338
+ },
1339
+ {
1340
+ "epoch": 2.1996215704824977,
1341
+ "grad_norm": 17.498945236206055,
1342
+ "learning_rate": 1.4003902785169417e-05,
1343
+ "loss": 1.789,
1344
+ "step": 9300
1345
+ },
1346
+ {
1347
+ "epoch": 2.2114474929044468,
1348
+ "grad_norm": 15.384320259094238,
1349
+ "learning_rate": 1.3944769676541896e-05,
1350
+ "loss": 1.8264,
1351
+ "step": 9350
1352
+ },
1353
+ {
1354
+ "epoch": 2.2232734153263953,
1355
+ "grad_norm": 13.456559181213379,
1356
+ "learning_rate": 1.3885636567914376e-05,
1357
+ "loss": 1.788,
1358
+ "step": 9400
1359
+ },
1360
+ {
1361
+ "epoch": 2.2350993377483444,
1362
+ "grad_norm": 24.769336700439453,
1363
+ "learning_rate": 1.3826503459286855e-05,
1364
+ "loss": 1.7902,
1365
+ "step": 9450
1366
+ },
1367
+ {
1368
+ "epoch": 2.2469252601702934,
1369
+ "grad_norm": 18.193721771240234,
1370
+ "learning_rate": 1.3767370350659335e-05,
1371
+ "loss": 1.8175,
1372
+ "step": 9500
1373
+ },
1374
+ {
1375
+ "epoch": 2.258751182592242,
1376
+ "grad_norm": 16.10167121887207,
1377
+ "learning_rate": 1.3708237242031814e-05,
1378
+ "loss": 1.8042,
1379
+ "step": 9550
1380
+ },
1381
+ {
1382
+ "epoch": 2.270577105014191,
1383
+ "grad_norm": 15.939582824707031,
1384
+ "learning_rate": 1.3649104133404295e-05,
1385
+ "loss": 1.7767,
1386
+ "step": 9600
1387
+ },
1388
+ {
1389
+ "epoch": 2.28240302743614,
1390
+ "grad_norm": 17.35470199584961,
1391
+ "learning_rate": 1.3589971024776774e-05,
1392
+ "loss": 1.7099,
1393
+ "step": 9650
1394
+ },
1395
+ {
1396
+ "epoch": 2.294228949858089,
1397
+ "grad_norm": 16.262712478637695,
1398
+ "learning_rate": 1.3530837916149252e-05,
1399
+ "loss": 1.7841,
1400
+ "step": 9700
1401
+ },
1402
+ {
1403
+ "epoch": 2.306054872280038,
1404
+ "grad_norm": 13.716343879699707,
1405
+ "learning_rate": 1.3471704807521733e-05,
1406
+ "loss": 1.87,
1407
+ "step": 9750
1408
+ },
1409
+ {
1410
+ "epoch": 2.3178807947019866,
1411
+ "grad_norm": 13.402505874633789,
1412
+ "learning_rate": 1.3412571698894212e-05,
1413
+ "loss": 1.7485,
1414
+ "step": 9800
1415
+ },
1416
+ {
1417
+ "epoch": 2.3297067171239356,
1418
+ "grad_norm": 14.37375259399414,
1419
+ "learning_rate": 1.3353438590266692e-05,
1420
+ "loss": 1.8367,
1421
+ "step": 9850
1422
+ },
1423
+ {
1424
+ "epoch": 2.3415326395458846,
1425
+ "grad_norm": 14.258302688598633,
1426
+ "learning_rate": 1.3294305481639171e-05,
1427
+ "loss": 1.7925,
1428
+ "step": 9900
1429
+ },
1430
+ {
1431
+ "epoch": 2.3533585619678337,
1432
+ "grad_norm": 18.176448822021484,
1433
+ "learning_rate": 1.3235172373011651e-05,
1434
+ "loss": 1.9135,
1435
+ "step": 9950
1436
+ },
1437
+ {
1438
+ "epoch": 2.3651844843897822,
1439
+ "grad_norm": 16.076860427856445,
1440
+ "learning_rate": 1.317603926438413e-05,
1441
+ "loss": 1.7746,
1442
+ "step": 10000
1443
+ },
1444
+ {
1445
+ "epoch": 2.3651844843897822,
1446
+ "eval_runtime": 46.8576,
1447
+ "eval_samples_per_second": 0.0,
1448
+ "eval_steps_per_second": 0.0,
1449
+ "eval_validation_loss": 4.062871016729038,
1450
+ "step": 10000
1451
+ },
1452
+ {
1453
+ "epoch": 2.3770104068117313,
1454
+ "grad_norm": 14.89098072052002,
1455
+ "learning_rate": 1.311690615575661e-05,
1456
+ "loss": 1.672,
1457
+ "step": 10050
1458
+ },
1459
+ {
1460
+ "epoch": 2.3888363292336803,
1461
+ "grad_norm": 21.15306854248047,
1462
+ "learning_rate": 1.3057773047129088e-05,
1463
+ "loss": 1.7265,
1464
+ "step": 10100
1465
+ },
1466
+ {
1467
+ "epoch": 2.4006622516556293,
1468
+ "grad_norm": 13.14006519317627,
1469
+ "learning_rate": 1.2998639938501567e-05,
1470
+ "loss": 1.6875,
1471
+ "step": 10150
1472
+ },
1473
+ {
1474
+ "epoch": 2.412488174077578,
1475
+ "grad_norm": 16.71653175354004,
1476
+ "learning_rate": 1.2939506829874047e-05,
1477
+ "loss": 1.7421,
1478
+ "step": 10200
1479
+ },
1480
+ {
1481
+ "epoch": 2.424314096499527,
1482
+ "grad_norm": 19.673765182495117,
1483
+ "learning_rate": 1.2880373721246526e-05,
1484
+ "loss": 1.7447,
1485
+ "step": 10250
1486
+ },
1487
+ {
1488
+ "epoch": 2.436140018921476,
1489
+ "grad_norm": 13.806225776672363,
1490
+ "learning_rate": 1.2821240612619006e-05,
1491
+ "loss": 1.7335,
1492
+ "step": 10300
1493
+ },
1494
+ {
1495
+ "epoch": 2.447965941343425,
1496
+ "grad_norm": 17.10091209411621,
1497
+ "learning_rate": 1.2762107503991485e-05,
1498
+ "loss": 1.6583,
1499
+ "step": 10350
1500
+ },
1501
+ {
1502
+ "epoch": 2.4597918637653735,
1503
+ "grad_norm": 13.57816219329834,
1504
+ "learning_rate": 1.2702974395363966e-05,
1505
+ "loss": 1.6937,
1506
+ "step": 10400
1507
+ },
1508
+ {
1509
+ "epoch": 2.4716177861873225,
1510
+ "grad_norm": 15.529336929321289,
1511
+ "learning_rate": 1.2643841286736444e-05,
1512
+ "loss": 1.6425,
1513
+ "step": 10450
1514
+ },
1515
+ {
1516
+ "epoch": 2.4834437086092715,
1517
+ "grad_norm": 15.039297103881836,
1518
+ "learning_rate": 1.2584708178108925e-05,
1519
+ "loss": 1.7837,
1520
+ "step": 10500
1521
+ },
1522
+ {
1523
+ "epoch": 2.4952696310312206,
1524
+ "grad_norm": 18.062923431396484,
1525
+ "learning_rate": 1.2525575069481404e-05,
1526
+ "loss": 1.7589,
1527
+ "step": 10550
1528
+ },
1529
+ {
1530
+ "epoch": 2.507095553453169,
1531
+ "grad_norm": 14.291655540466309,
1532
+ "learning_rate": 1.2466441960853884e-05,
1533
+ "loss": 1.6618,
1534
+ "step": 10600
1535
+ },
1536
+ {
1537
+ "epoch": 2.518921475875118,
1538
+ "grad_norm": 15.268333435058594,
1539
+ "learning_rate": 1.2407308852226363e-05,
1540
+ "loss": 1.6107,
1541
+ "step": 10650
1542
+ },
1543
+ {
1544
+ "epoch": 2.530747398297067,
1545
+ "grad_norm": 15.746752738952637,
1546
+ "learning_rate": 1.2348175743598842e-05,
1547
+ "loss": 1.706,
1548
+ "step": 10700
1549
+ },
1550
+ {
1551
+ "epoch": 2.542573320719016,
1552
+ "grad_norm": 14.740198135375977,
1553
+ "learning_rate": 1.2289042634971322e-05,
1554
+ "loss": 1.6662,
1555
+ "step": 10750
1556
+ },
1557
+ {
1558
+ "epoch": 2.5543992431409652,
1559
+ "grad_norm": 18.715717315673828,
1560
+ "learning_rate": 1.2229909526343801e-05,
1561
+ "loss": 1.7491,
1562
+ "step": 10800
1563
+ },
1564
+ {
1565
+ "epoch": 2.566225165562914,
1566
+ "grad_norm": 13.341856956481934,
1567
+ "learning_rate": 1.2170776417716281e-05,
1568
+ "loss": 1.615,
1569
+ "step": 10850
1570
+ },
1571
+ {
1572
+ "epoch": 2.578051087984863,
1573
+ "grad_norm": 15.429610252380371,
1574
+ "learning_rate": 1.211164330908876e-05,
1575
+ "loss": 1.6314,
1576
+ "step": 10900
1577
+ },
1578
+ {
1579
+ "epoch": 2.589877010406812,
1580
+ "grad_norm": 16.15951919555664,
1581
+ "learning_rate": 1.2052510200461239e-05,
1582
+ "loss": 1.6564,
1583
+ "step": 10950
1584
+ },
1585
+ {
1586
+ "epoch": 2.6017029328287604,
1587
+ "grad_norm": 16.425504684448242,
1588
+ "learning_rate": 1.1993377091833718e-05,
1589
+ "loss": 1.6085,
1590
+ "step": 11000
1591
+ },
1592
+ {
1593
+ "epoch": 2.6135288552507094,
1594
+ "grad_norm": 19.02115249633789,
1595
+ "learning_rate": 1.1934243983206197e-05,
1596
+ "loss": 1.6969,
1597
+ "step": 11050
1598
+ },
1599
+ {
1600
+ "epoch": 2.6253547776726585,
1601
+ "grad_norm": 16.245838165283203,
1602
+ "learning_rate": 1.1875110874578677e-05,
1603
+ "loss": 1.5963,
1604
+ "step": 11100
1605
+ },
1606
+ {
1607
+ "epoch": 2.6371807000946075,
1608
+ "grad_norm": 14.986413955688477,
1609
+ "learning_rate": 1.1815977765951156e-05,
1610
+ "loss": 1.6626,
1611
+ "step": 11150
1612
+ },
1613
+ {
1614
+ "epoch": 2.6490066225165565,
1615
+ "grad_norm": 18.501134872436523,
1616
+ "learning_rate": 1.1756844657323636e-05,
1617
+ "loss": 1.715,
1618
+ "step": 11200
1619
+ },
1620
+ {
1621
+ "epoch": 2.660832544938505,
1622
+ "grad_norm": 19.390989303588867,
1623
+ "learning_rate": 1.1697711548696115e-05,
1624
+ "loss": 1.6182,
1625
+ "step": 11250
1626
+ },
1627
+ {
1628
+ "epoch": 2.672658467360454,
1629
+ "grad_norm": 16.83384132385254,
1630
+ "learning_rate": 1.1638578440068596e-05,
1631
+ "loss": 1.5667,
1632
+ "step": 11300
1633
+ },
1634
+ {
1635
+ "epoch": 2.684484389782403,
1636
+ "grad_norm": 17.595382690429688,
1637
+ "learning_rate": 1.1579445331441074e-05,
1638
+ "loss": 1.6255,
1639
+ "step": 11350
1640
+ },
1641
+ {
1642
+ "epoch": 2.6963103122043517,
1643
+ "grad_norm": 18.588014602661133,
1644
+ "learning_rate": 1.1520312222813555e-05,
1645
+ "loss": 1.6146,
1646
+ "step": 11400
1647
+ },
1648
+ {
1649
+ "epoch": 2.7081362346263007,
1650
+ "grad_norm": 18.090600967407227,
1651
+ "learning_rate": 1.1461179114186034e-05,
1652
+ "loss": 1.5807,
1653
+ "step": 11450
1654
+ },
1655
+ {
1656
+ "epoch": 2.7199621570482497,
1657
+ "grad_norm": 16.144756317138672,
1658
+ "learning_rate": 1.1402046005558514e-05,
1659
+ "loss": 1.571,
1660
+ "step": 11500
1661
+ },
1662
+ {
1663
+ "epoch": 2.7317880794701987,
1664
+ "grad_norm": 19.271270751953125,
1665
+ "learning_rate": 1.1342912896930993e-05,
1666
+ "loss": 1.611,
1667
+ "step": 11550
1668
+ },
1669
+ {
1670
+ "epoch": 2.7436140018921478,
1671
+ "grad_norm": 15.365574836730957,
1672
+ "learning_rate": 1.1283779788303474e-05,
1673
+ "loss": 1.5757,
1674
+ "step": 11600
1675
+ },
1676
+ {
1677
+ "epoch": 2.7554399243140963,
1678
+ "grad_norm": 18.699979782104492,
1679
+ "learning_rate": 1.1224646679675952e-05,
1680
+ "loss": 1.6048,
1681
+ "step": 11650
1682
+ },
1683
+ {
1684
+ "epoch": 2.7672658467360454,
1685
+ "grad_norm": 15.537507057189941,
1686
+ "learning_rate": 1.1165513571048431e-05,
1687
+ "loss": 1.5559,
1688
+ "step": 11700
1689
+ },
1690
+ {
1691
+ "epoch": 2.7790917691579944,
1692
+ "grad_norm": 15.148637771606445,
1693
+ "learning_rate": 1.110638046242091e-05,
1694
+ "loss": 1.5634,
1695
+ "step": 11750
1696
+ },
1697
+ {
1698
+ "epoch": 2.790917691579943,
1699
+ "grad_norm": 17.472370147705078,
1700
+ "learning_rate": 1.1047247353793389e-05,
1701
+ "loss": 1.5663,
1702
+ "step": 11800
1703
+ },
1704
+ {
1705
+ "epoch": 2.8027436140018924,
1706
+ "grad_norm": 16.284570693969727,
1707
+ "learning_rate": 1.098811424516587e-05,
1708
+ "loss": 1.6274,
1709
+ "step": 11850
1710
+ },
1711
+ {
1712
+ "epoch": 2.814569536423841,
1713
+ "grad_norm": 17.758365631103516,
1714
+ "learning_rate": 1.0928981136538348e-05,
1715
+ "loss": 1.5478,
1716
+ "step": 11900
1717
+ },
1718
+ {
1719
+ "epoch": 2.82639545884579,
1720
+ "grad_norm": 14.631210327148438,
1721
+ "learning_rate": 1.0869848027910828e-05,
1722
+ "loss": 1.5728,
1723
+ "step": 11950
1724
+ },
1725
+ {
1726
+ "epoch": 2.838221381267739,
1727
+ "grad_norm": 13.960256576538086,
1728
+ "learning_rate": 1.0810714919283307e-05,
1729
+ "loss": 1.5694,
1730
+ "step": 12000
1731
+ },
1732
+ {
1733
+ "epoch": 2.838221381267739,
1734
+ "eval_runtime": 47.1893,
1735
+ "eval_samples_per_second": 0.0,
1736
+ "eval_steps_per_second": 0.0,
1737
+ "eval_validation_loss": 3.9845195254937416,
1738
+ "step": 12000
1739
+ },
1740
+ {
1741
+ "epoch": 2.8500473036896876,
1742
+ "grad_norm": 13.964838981628418,
1743
+ "learning_rate": 1.0751581810655786e-05,
1744
+ "loss": 1.5544,
1745
+ "step": 12050
1746
+ },
1747
+ {
1748
+ "epoch": 2.8618732261116366,
1749
+ "grad_norm": 20.20077133178711,
1750
+ "learning_rate": 1.0692448702028267e-05,
1751
+ "loss": 1.6172,
1752
+ "step": 12100
1753
+ },
1754
+ {
1755
+ "epoch": 2.8736991485335857,
1756
+ "grad_norm": 13.513507843017578,
1757
+ "learning_rate": 1.0633315593400745e-05,
1758
+ "loss": 1.5358,
1759
+ "step": 12150
1760
+ },
1761
+ {
1762
+ "epoch": 2.8855250709555347,
1763
+ "grad_norm": 18.936565399169922,
1764
+ "learning_rate": 1.0574182484773226e-05,
1765
+ "loss": 1.5656,
1766
+ "step": 12200
1767
+ },
1768
+ {
1769
+ "epoch": 2.8973509933774837,
1770
+ "grad_norm": 17.975814819335938,
1771
+ "learning_rate": 1.0515049376145705e-05,
1772
+ "loss": 1.5273,
1773
+ "step": 12250
1774
+ },
1775
+ {
1776
+ "epoch": 2.9091769157994323,
1777
+ "grad_norm": 18.273731231689453,
1778
+ "learning_rate": 1.0455916267518185e-05,
1779
+ "loss": 1.4981,
1780
+ "step": 12300
1781
+ },
1782
+ {
1783
+ "epoch": 2.9210028382213813,
1784
+ "grad_norm": 16.280357360839844,
1785
+ "learning_rate": 1.0396783158890664e-05,
1786
+ "loss": 1.5256,
1787
+ "step": 12350
1788
+ },
1789
+ {
1790
+ "epoch": 2.9328287606433303,
1791
+ "grad_norm": 13.220331192016602,
1792
+ "learning_rate": 1.0337650050263144e-05,
1793
+ "loss": 1.522,
1794
+ "step": 12400
1795
+ },
1796
+ {
1797
+ "epoch": 2.944654683065279,
1798
+ "grad_norm": 16.336288452148438,
1799
+ "learning_rate": 1.0278516941635623e-05,
1800
+ "loss": 1.465,
1801
+ "step": 12450
1802
+ },
1803
+ {
1804
+ "epoch": 2.956480605487228,
1805
+ "grad_norm": 20.016876220703125,
1806
+ "learning_rate": 1.0219383833008104e-05,
1807
+ "loss": 1.6151,
1808
+ "step": 12500
1809
+ },
1810
+ {
1811
+ "epoch": 2.968306527909177,
1812
+ "grad_norm": 17.370023727416992,
1813
+ "learning_rate": 1.0160250724380582e-05,
1814
+ "loss": 1.5521,
1815
+ "step": 12550
1816
+ },
1817
+ {
1818
+ "epoch": 2.980132450331126,
1819
+ "grad_norm": 18.69423484802246,
1820
+ "learning_rate": 1.010111761575306e-05,
1821
+ "loss": 1.5657,
1822
+ "step": 12600
1823
+ },
1824
+ {
1825
+ "epoch": 2.991958372753075,
1826
+ "grad_norm": 18.094669342041016,
1827
+ "learning_rate": 1.004198450712554e-05,
1828
+ "loss": 1.4935,
1829
+ "step": 12650
1830
+ },
1831
+ {
1832
+ "epoch": 3.0037842951750235,
1833
+ "grad_norm": 15.485885620117188,
1834
+ "learning_rate": 9.98285139849802e-06,
1835
+ "loss": 1.4081,
1836
+ "step": 12700
1837
+ },
1838
+ {
1839
+ "epoch": 3.0156102175969726,
1840
+ "grad_norm": 15.505888938903809,
1841
+ "learning_rate": 9.9237182898705e-06,
1842
+ "loss": 1.5243,
1843
+ "step": 12750
1844
+ },
1845
+ {
1846
+ "epoch": 3.0274361400189216,
1847
+ "grad_norm": 16.799917221069336,
1848
+ "learning_rate": 9.864585181242978e-06,
1849
+ "loss": 1.4999,
1850
+ "step": 12800
1851
+ },
1852
+ {
1853
+ "epoch": 3.0392620624408706,
1854
+ "grad_norm": 15.498218536376953,
1855
+ "learning_rate": 9.805452072615459e-06,
1856
+ "loss": 1.4139,
1857
+ "step": 12850
1858
+ },
1859
+ {
1860
+ "epoch": 3.051087984862819,
1861
+ "grad_norm": 19.318891525268555,
1862
+ "learning_rate": 9.746318963987937e-06,
1863
+ "loss": 1.5522,
1864
+ "step": 12900
1865
+ },
1866
+ {
1867
+ "epoch": 3.062913907284768,
1868
+ "grad_norm": 14.893320083618164,
1869
+ "learning_rate": 9.687185855360418e-06,
1870
+ "loss": 1.4865,
1871
+ "step": 12950
1872
+ },
1873
+ {
1874
+ "epoch": 3.074739829706717,
1875
+ "grad_norm": 18.767566680908203,
1876
+ "learning_rate": 9.628052746732897e-06,
1877
+ "loss": 1.4755,
1878
+ "step": 13000
1879
+ },
1880
+ {
1881
+ "epoch": 3.0865657521286662,
1882
+ "grad_norm": 14.623005867004395,
1883
+ "learning_rate": 9.568919638105375e-06,
1884
+ "loss": 1.4582,
1885
+ "step": 13050
1886
+ },
1887
+ {
1888
+ "epoch": 3.098391674550615,
1889
+ "grad_norm": 14.217521667480469,
1890
+ "learning_rate": 9.509786529477856e-06,
1891
+ "loss": 1.4112,
1892
+ "step": 13100
1893
+ },
1894
+ {
1895
+ "epoch": 3.110217596972564,
1896
+ "grad_norm": 13.287856101989746,
1897
+ "learning_rate": 9.450653420850335e-06,
1898
+ "loss": 1.4758,
1899
+ "step": 13150
1900
+ },
1901
+ {
1902
+ "epoch": 3.122043519394513,
1903
+ "grad_norm": 14.488649368286133,
1904
+ "learning_rate": 9.391520312222813e-06,
1905
+ "loss": 1.4388,
1906
+ "step": 13200
1907
+ },
1908
+ {
1909
+ "epoch": 3.133869441816462,
1910
+ "grad_norm": 15.88402271270752,
1911
+ "learning_rate": 9.332387203595294e-06,
1912
+ "loss": 1.4819,
1913
+ "step": 13250
1914
+ },
1915
+ {
1916
+ "epoch": 3.1456953642384105,
1917
+ "grad_norm": 13.743453025817871,
1918
+ "learning_rate": 9.273254094967773e-06,
1919
+ "loss": 1.4525,
1920
+ "step": 13300
1921
+ },
1922
+ {
1923
+ "epoch": 3.1575212866603595,
1924
+ "grad_norm": 16.949493408203125,
1925
+ "learning_rate": 9.214120986340253e-06,
1926
+ "loss": 1.4583,
1927
+ "step": 13350
1928
+ },
1929
+ {
1930
+ "epoch": 3.1693472090823085,
1931
+ "grad_norm": 15.139965057373047,
1932
+ "learning_rate": 9.154987877712732e-06,
1933
+ "loss": 1.4714,
1934
+ "step": 13400
1935
+ },
1936
+ {
1937
+ "epoch": 3.1811731315042575,
1938
+ "grad_norm": 18.97600746154785,
1939
+ "learning_rate": 9.095854769085213e-06,
1940
+ "loss": 1.4265,
1941
+ "step": 13450
1942
+ },
1943
+ {
1944
+ "epoch": 3.192999053926206,
1945
+ "grad_norm": 16.3485107421875,
1946
+ "learning_rate": 9.036721660457691e-06,
1947
+ "loss": 1.454,
1948
+ "step": 13500
1949
+ },
1950
+ {
1951
+ "epoch": 3.204824976348155,
1952
+ "grad_norm": 17.43102264404297,
1953
+ "learning_rate": 8.97758855183017e-06,
1954
+ "loss": 1.4506,
1955
+ "step": 13550
1956
+ },
1957
+ {
1958
+ "epoch": 3.216650898770104,
1959
+ "grad_norm": 15.63143253326416,
1960
+ "learning_rate": 8.91845544320265e-06,
1961
+ "loss": 1.4055,
1962
+ "step": 13600
1963
+ },
1964
+ {
1965
+ "epoch": 3.228476821192053,
1966
+ "grad_norm": 12.323601722717285,
1967
+ "learning_rate": 8.85932233457513e-06,
1968
+ "loss": 1.4729,
1969
+ "step": 13650
1970
+ },
1971
+ {
1972
+ "epoch": 3.2403027436140017,
1973
+ "grad_norm": 17.078189849853516,
1974
+ "learning_rate": 8.800189225947608e-06,
1975
+ "loss": 1.4791,
1976
+ "step": 13700
1977
+ },
1978
+ {
1979
+ "epoch": 3.2521286660359507,
1980
+ "grad_norm": 14.752788543701172,
1981
+ "learning_rate": 8.741056117320089e-06,
1982
+ "loss": 1.4962,
1983
+ "step": 13750
1984
+ },
1985
+ {
1986
+ "epoch": 3.2639545884578998,
1987
+ "grad_norm": 12.897354125976562,
1988
+ "learning_rate": 8.681923008692567e-06,
1989
+ "loss": 1.4101,
1990
+ "step": 13800
1991
+ },
1992
+ {
1993
+ "epoch": 3.275780510879849,
1994
+ "grad_norm": 12.985773086547852,
1995
+ "learning_rate": 8.622789900065048e-06,
1996
+ "loss": 1.4596,
1997
+ "step": 13850
1998
+ },
1999
+ {
2000
+ "epoch": 3.2876064333017974,
2001
+ "grad_norm": 16.538026809692383,
2002
+ "learning_rate": 8.563656791437527e-06,
2003
+ "loss": 1.4207,
2004
+ "step": 13900
2005
+ },
2006
+ {
2007
+ "epoch": 3.2994323557237464,
2008
+ "grad_norm": 20.395875930786133,
2009
+ "learning_rate": 8.504523682810007e-06,
2010
+ "loss": 1.4972,
2011
+ "step": 13950
2012
+ },
2013
+ {
2014
+ "epoch": 3.3112582781456954,
2015
+ "grad_norm": 11.993943214416504,
2016
+ "learning_rate": 8.445390574182486e-06,
2017
+ "loss": 1.4473,
2018
+ "step": 14000
2019
+ },
2020
+ {
2021
+ "epoch": 3.3112582781456954,
2022
+ "eval_runtime": 47.0766,
2023
+ "eval_samples_per_second": 0.0,
2024
+ "eval_steps_per_second": 0.0,
2025
+ "eval_validation_loss": 3.9688115547590725,
2026
+ "step": 14000
2027
+ },
2028
+ {
2029
+ "epoch": 3.3230842005676444,
2030
+ "grad_norm": 12.915935516357422,
2031
+ "learning_rate": 8.386257465554965e-06,
2032
+ "loss": 1.46,
2033
+ "step": 14050
2034
+ },
2035
+ {
2036
+ "epoch": 3.334910122989593,
2037
+ "grad_norm": 19.571788787841797,
2038
+ "learning_rate": 8.327124356927444e-06,
2039
+ "loss": 1.5012,
2040
+ "step": 14100
2041
+ },
2042
+ {
2043
+ "epoch": 3.346736045411542,
2044
+ "grad_norm": 17.244380950927734,
2045
+ "learning_rate": 8.267991248299924e-06,
2046
+ "loss": 1.5466,
2047
+ "step": 14150
2048
+ },
2049
+ {
2050
+ "epoch": 3.358561967833491,
2051
+ "grad_norm": 18.117067337036133,
2052
+ "learning_rate": 8.208858139672403e-06,
2053
+ "loss": 1.5067,
2054
+ "step": 14200
2055
+ },
2056
+ {
2057
+ "epoch": 3.37038789025544,
2058
+ "grad_norm": 14.23071575164795,
2059
+ "learning_rate": 8.149725031044883e-06,
2060
+ "loss": 1.4413,
2061
+ "step": 14250
2062
+ },
2063
+ {
2064
+ "epoch": 3.3822138126773886,
2065
+ "grad_norm": 16.817371368408203,
2066
+ "learning_rate": 8.090591922417362e-06,
2067
+ "loss": 1.3448,
2068
+ "step": 14300
2069
+ },
2070
+ {
2071
+ "epoch": 3.3940397350993377,
2072
+ "grad_norm": 21.39740753173828,
2073
+ "learning_rate": 8.031458813789843e-06,
2074
+ "loss": 1.3792,
2075
+ "step": 14350
2076
+ },
2077
+ {
2078
+ "epoch": 3.4058656575212867,
2079
+ "grad_norm": 13.991111755371094,
2080
+ "learning_rate": 7.972325705162321e-06,
2081
+ "loss": 1.4019,
2082
+ "step": 14400
2083
+ },
2084
+ {
2085
+ "epoch": 3.4176915799432357,
2086
+ "grad_norm": 14.572546005249023,
2087
+ "learning_rate": 7.9131925965348e-06,
2088
+ "loss": 1.4771,
2089
+ "step": 14450
2090
+ },
2091
+ {
2092
+ "epoch": 3.4295175023651847,
2093
+ "grad_norm": 15.65616226196289,
2094
+ "learning_rate": 7.854059487907279e-06,
2095
+ "loss": 1.4383,
2096
+ "step": 14500
2097
+ },
2098
+ {
2099
+ "epoch": 3.4413434247871333,
2100
+ "grad_norm": 16.871171951293945,
2101
+ "learning_rate": 7.79492637927976e-06,
2102
+ "loss": 1.4172,
2103
+ "step": 14550
2104
+ },
2105
+ {
2106
+ "epoch": 3.4531693472090823,
2107
+ "grad_norm": 16.653839111328125,
2108
+ "learning_rate": 7.735793270652238e-06,
2109
+ "loss": 1.3284,
2110
+ "step": 14600
2111
+ },
2112
+ {
2113
+ "epoch": 3.4649952696310313,
2114
+ "grad_norm": 18.008516311645508,
2115
+ "learning_rate": 7.676660162024719e-06,
2116
+ "loss": 1.3867,
2117
+ "step": 14650
2118
+ },
2119
+ {
2120
+ "epoch": 3.47682119205298,
2121
+ "grad_norm": 21.629899978637695,
2122
+ "learning_rate": 7.6175270533971976e-06,
2123
+ "loss": 1.3931,
2124
+ "step": 14700
2125
+ },
2126
+ {
2127
+ "epoch": 3.488647114474929,
2128
+ "grad_norm": 15.525995254516602,
2129
+ "learning_rate": 7.558393944769677e-06,
2130
+ "loss": 1.4429,
2131
+ "step": 14750
2132
+ },
2133
+ {
2134
+ "epoch": 3.500473036896878,
2135
+ "grad_norm": 15.045352935791016,
2136
+ "learning_rate": 7.499260836142157e-06,
2137
+ "loss": 1.4665,
2138
+ "step": 14800
2139
+ },
2140
+ {
2141
+ "epoch": 3.512298959318827,
2142
+ "grad_norm": 16.258941650390625,
2143
+ "learning_rate": 7.440127727514636e-06,
2144
+ "loss": 1.3232,
2145
+ "step": 14850
2146
+ },
2147
+ {
2148
+ "epoch": 3.524124881740776,
2149
+ "grad_norm": 14.834844589233398,
2150
+ "learning_rate": 7.380994618887115e-06,
2151
+ "loss": 1.4112,
2152
+ "step": 14900
2153
+ },
2154
+ {
2155
+ "epoch": 3.5359508041627246,
2156
+ "grad_norm": 18.840707778930664,
2157
+ "learning_rate": 7.321861510259595e-06,
2158
+ "loss": 1.3916,
2159
+ "step": 14950
2160
+ },
2161
+ {
2162
+ "epoch": 3.5477767265846736,
2163
+ "grad_norm": 17.09494972229004,
2164
+ "learning_rate": 7.2627284016320746e-06,
2165
+ "loss": 1.3572,
2166
+ "step": 15000
2167
+ },
2168
+ {
2169
+ "epoch": 3.5596026490066226,
2170
+ "grad_norm": 17.76523780822754,
2171
+ "learning_rate": 7.203595293004554e-06,
2172
+ "loss": 1.4414,
2173
+ "step": 15050
2174
+ },
2175
+ {
2176
+ "epoch": 3.571428571428571,
2177
+ "grad_norm": 19.53270149230957,
2178
+ "learning_rate": 7.144462184377034e-06,
2179
+ "loss": 1.2716,
2180
+ "step": 15100
2181
+ },
2182
+ {
2183
+ "epoch": 3.58325449385052,
2184
+ "grad_norm": 18.649320602416992,
2185
+ "learning_rate": 7.085329075749513e-06,
2186
+ "loss": 1.4043,
2187
+ "step": 15150
2188
+ },
2189
+ {
2190
+ "epoch": 3.595080416272469,
2191
+ "grad_norm": 13.581181526184082,
2192
+ "learning_rate": 7.026195967121992e-06,
2193
+ "loss": 1.3686,
2194
+ "step": 15200
2195
+ },
2196
+ {
2197
+ "epoch": 3.6069063386944182,
2198
+ "grad_norm": 21.46381950378418,
2199
+ "learning_rate": 6.967062858494472e-06,
2200
+ "loss": 1.3687,
2201
+ "step": 15250
2202
+ },
2203
+ {
2204
+ "epoch": 3.6187322611163673,
2205
+ "grad_norm": 10.937467575073242,
2206
+ "learning_rate": 6.907929749866951e-06,
2207
+ "loss": 1.3183,
2208
+ "step": 15300
2209
+ },
2210
+ {
2211
+ "epoch": 3.630558183538316,
2212
+ "grad_norm": 18.974475860595703,
2213
+ "learning_rate": 6.84879664123943e-06,
2214
+ "loss": 1.3712,
2215
+ "step": 15350
2216
+ },
2217
+ {
2218
+ "epoch": 3.642384105960265,
2219
+ "grad_norm": 17.913204193115234,
2220
+ "learning_rate": 6.78966353261191e-06,
2221
+ "loss": 1.4006,
2222
+ "step": 15400
2223
+ },
2224
+ {
2225
+ "epoch": 3.654210028382214,
2226
+ "grad_norm": 14.945576667785645,
2227
+ "learning_rate": 6.73053042398439e-06,
2228
+ "loss": 1.4326,
2229
+ "step": 15450
2230
+ },
2231
+ {
2232
+ "epoch": 3.666035950804163,
2233
+ "grad_norm": 15.58818531036377,
2234
+ "learning_rate": 6.671397315356869e-06,
2235
+ "loss": 1.3116,
2236
+ "step": 15500
2237
+ },
2238
+ {
2239
+ "epoch": 3.677861873226112,
2240
+ "grad_norm": 16.57988739013672,
2241
+ "learning_rate": 6.612264206729349e-06,
2242
+ "loss": 1.2975,
2243
+ "step": 15550
2244
+ },
2245
+ {
2246
+ "epoch": 3.6896877956480605,
2247
+ "grad_norm": 13.658615112304688,
2248
+ "learning_rate": 6.5531310981018285e-06,
2249
+ "loss": 1.3709,
2250
+ "step": 15600
2251
+ },
2252
+ {
2253
+ "epoch": 3.7015137180700095,
2254
+ "grad_norm": 16.559919357299805,
2255
+ "learning_rate": 6.493997989474307e-06,
2256
+ "loss": 1.3267,
2257
+ "step": 15650
2258
+ },
2259
+ {
2260
+ "epoch": 3.7133396404919585,
2261
+ "grad_norm": 16.319732666015625,
2262
+ "learning_rate": 6.434864880846786e-06,
2263
+ "loss": 1.2947,
2264
+ "step": 15700
2265
+ },
2266
+ {
2267
+ "epoch": 3.725165562913907,
2268
+ "grad_norm": 15.4765043258667,
2269
+ "learning_rate": 6.375731772219266e-06,
2270
+ "loss": 1.3524,
2271
+ "step": 15750
2272
+ },
2273
+ {
2274
+ "epoch": 3.736991485335856,
2275
+ "grad_norm": 14.876737594604492,
2276
+ "learning_rate": 6.316598663591745e-06,
2277
+ "loss": 1.3092,
2278
+ "step": 15800
2279
+ },
2280
+ {
2281
+ "epoch": 3.748817407757805,
2282
+ "grad_norm": 13.654143333435059,
2283
+ "learning_rate": 6.257465554964225e-06,
2284
+ "loss": 1.3635,
2285
+ "step": 15850
2286
+ },
2287
+ {
2288
+ "epoch": 3.760643330179754,
2289
+ "grad_norm": 16.795425415039062,
2290
+ "learning_rate": 6.198332446336705e-06,
2291
+ "loss": 1.282,
2292
+ "step": 15900
2293
+ },
2294
+ {
2295
+ "epoch": 3.772469252601703,
2296
+ "grad_norm": 12.707657814025879,
2297
+ "learning_rate": 6.139199337709184e-06,
2298
+ "loss": 1.3122,
2299
+ "step": 15950
2300
+ },
2301
+ {
2302
+ "epoch": 3.7842951750236518,
2303
+ "grad_norm": 15.771327018737793,
2304
+ "learning_rate": 6.080066229081664e-06,
2305
+ "loss": 1.2944,
2306
+ "step": 16000
2307
+ },
2308
+ {
2309
+ "epoch": 3.7842951750236518,
2310
+ "eval_runtime": 46.7062,
2311
+ "eval_samples_per_second": 0.0,
2312
+ "eval_steps_per_second": 0.0,
2313
+ "eval_validation_loss": 3.97229260179494,
2314
+ "step": 16000
2315
+ },
2316
+ {
2317
+ "epoch": 3.796121097445601,
2318
+ "grad_norm": 15.549239158630371,
2319
+ "learning_rate": 6.020933120454144e-06,
2320
+ "loss": 1.3878,
2321
+ "step": 16050
2322
+ },
2323
+ {
2324
+ "epoch": 3.80794701986755,
2325
+ "grad_norm": 11.558497428894043,
2326
+ "learning_rate": 5.9618000118266215e-06,
2327
+ "loss": 1.2978,
2328
+ "step": 16100
2329
+ },
2330
+ {
2331
+ "epoch": 3.8197729422894984,
2332
+ "grad_norm": 17.571189880371094,
2333
+ "learning_rate": 5.902666903199101e-06,
2334
+ "loss": 1.3128,
2335
+ "step": 16150
2336
+ },
2337
+ {
2338
+ "epoch": 3.8315988647114474,
2339
+ "grad_norm": 16.608991622924805,
2340
+ "learning_rate": 5.843533794571581e-06,
2341
+ "loss": 1.317,
2342
+ "step": 16200
2343
+ },
2344
+ {
2345
+ "epoch": 3.8434247871333964,
2346
+ "grad_norm": 17.64645004272461,
2347
+ "learning_rate": 5.7844006859440605e-06,
2348
+ "loss": 1.3225,
2349
+ "step": 16250
2350
+ },
2351
+ {
2352
+ "epoch": 3.8552507095553454,
2353
+ "grad_norm": 16.340919494628906,
2354
+ "learning_rate": 5.72526757731654e-06,
2355
+ "loss": 1.3339,
2356
+ "step": 16300
2357
+ },
2358
+ {
2359
+ "epoch": 3.8670766319772945,
2360
+ "grad_norm": 17.24504280090332,
2361
+ "learning_rate": 5.66613446868902e-06,
2362
+ "loss": 1.3137,
2363
+ "step": 16350
2364
+ },
2365
+ {
2366
+ "epoch": 3.878902554399243,
2367
+ "grad_norm": 16.168750762939453,
2368
+ "learning_rate": 5.607001360061499e-06,
2369
+ "loss": 1.3128,
2370
+ "step": 16400
2371
+ },
2372
+ {
2373
+ "epoch": 3.890728476821192,
2374
+ "grad_norm": 20.071321487426758,
2375
+ "learning_rate": 5.547868251433979e-06,
2376
+ "loss": 1.3262,
2377
+ "step": 16450
2378
+ },
2379
+ {
2380
+ "epoch": 3.902554399243141,
2381
+ "grad_norm": 19.031503677368164,
2382
+ "learning_rate": 5.488735142806457e-06,
2383
+ "loss": 1.2235,
2384
+ "step": 16500
2385
+ },
2386
+ {
2387
+ "epoch": 3.9143803216650896,
2388
+ "grad_norm": 18.36022186279297,
2389
+ "learning_rate": 5.429602034178937e-06,
2390
+ "loss": 1.2619,
2391
+ "step": 16550
2392
+ },
2393
+ {
2394
+ "epoch": 3.9262062440870387,
2395
+ "grad_norm": 17.923831939697266,
2396
+ "learning_rate": 5.370468925551416e-06,
2397
+ "loss": 1.3289,
2398
+ "step": 16600
2399
+ },
2400
+ {
2401
+ "epoch": 3.9380321665089877,
2402
+ "grad_norm": 13.550859451293945,
2403
+ "learning_rate": 5.311335816923896e-06,
2404
+ "loss": 1.2437,
2405
+ "step": 16650
2406
+ },
2407
+ {
2408
+ "epoch": 3.9498580889309367,
2409
+ "grad_norm": 12.4674654006958,
2410
+ "learning_rate": 5.2522027082963755e-06,
2411
+ "loss": 1.2886,
2412
+ "step": 16700
2413
+ },
2414
+ {
2415
+ "epoch": 3.9616840113528857,
2416
+ "grad_norm": 18.66042709350586,
2417
+ "learning_rate": 5.193069599668855e-06,
2418
+ "loss": 1.3309,
2419
+ "step": 16750
2420
+ },
2421
+ {
2422
+ "epoch": 3.9735099337748343,
2423
+ "grad_norm": 15.646864891052246,
2424
+ "learning_rate": 5.133936491041335e-06,
2425
+ "loss": 1.3457,
2426
+ "step": 16800
2427
+ },
2428
+ {
2429
+ "epoch": 3.9853358561967833,
2430
+ "grad_norm": 17.00884246826172,
2431
+ "learning_rate": 5.0748033824138144e-06,
2432
+ "loss": 1.3184,
2433
+ "step": 16850
2434
+ },
2435
+ {
2436
+ "epoch": 3.9971617786187323,
2437
+ "grad_norm": 13.399270057678223,
2438
+ "learning_rate": 5.015670273786294e-06,
2439
+ "loss": 1.2087,
2440
+ "step": 16900
2441
+ },
2442
+ {
2443
+ "epoch": 4.008987701040681,
2444
+ "grad_norm": 13.706061363220215,
2445
+ "learning_rate": 4.956537165158773e-06,
2446
+ "loss": 1.229,
2447
+ "step": 16950
2448
+ },
2449
+ {
2450
+ "epoch": 4.02081362346263,
2451
+ "grad_norm": 22.725217819213867,
2452
+ "learning_rate": 4.8974040565312525e-06,
2453
+ "loss": 1.3235,
2454
+ "step": 17000
2455
+ },
2456
+ {
2457
+ "epoch": 4.032639545884579,
2458
+ "grad_norm": 16.072246551513672,
2459
+ "learning_rate": 4.838270947903731e-06,
2460
+ "loss": 1.195,
2461
+ "step": 17050
2462
+ },
2463
+ {
2464
+ "epoch": 4.0444654683065275,
2465
+ "grad_norm": 17.015745162963867,
2466
+ "learning_rate": 4.779137839276211e-06,
2467
+ "loss": 1.2793,
2468
+ "step": 17100
2469
+ },
2470
+ {
2471
+ "epoch": 4.056291390728477,
2472
+ "grad_norm": 15.687799453735352,
2473
+ "learning_rate": 4.7200047306486906e-06,
2474
+ "loss": 1.2719,
2475
+ "step": 17150
2476
+ },
2477
+ {
2478
+ "epoch": 4.068117313150426,
2479
+ "grad_norm": 11.79020881652832,
2480
+ "learning_rate": 4.66087162202117e-06,
2481
+ "loss": 1.2701,
2482
+ "step": 17200
2483
+ },
2484
+ {
2485
+ "epoch": 4.079943235572375,
2486
+ "grad_norm": 14.385472297668457,
2487
+ "learning_rate": 4.601738513393649e-06,
2488
+ "loss": 1.2593,
2489
+ "step": 17250
2490
+ },
2491
+ {
2492
+ "epoch": 4.091769157994324,
2493
+ "grad_norm": 18.47262954711914,
2494
+ "learning_rate": 4.542605404766129e-06,
2495
+ "loss": 1.2324,
2496
+ "step": 17300
2497
+ },
2498
+ {
2499
+ "epoch": 4.103595080416272,
2500
+ "grad_norm": 22.801834106445312,
2501
+ "learning_rate": 4.483472296138608e-06,
2502
+ "loss": 1.2338,
2503
+ "step": 17350
2504
+ },
2505
+ {
2506
+ "epoch": 4.115421002838222,
2507
+ "grad_norm": 16.11665916442871,
2508
+ "learning_rate": 4.424339187511088e-06,
2509
+ "loss": 1.2338,
2510
+ "step": 17400
2511
+ },
2512
+ {
2513
+ "epoch": 4.12724692526017,
2514
+ "grad_norm": 18.113365173339844,
2515
+ "learning_rate": 4.365206078883567e-06,
2516
+ "loss": 1.2595,
2517
+ "step": 17450
2518
+ },
2519
+ {
2520
+ "epoch": 4.139072847682119,
2521
+ "grad_norm": 15.56670093536377,
2522
+ "learning_rate": 4.306072970256046e-06,
2523
+ "loss": 1.2434,
2524
+ "step": 17500
2525
+ },
2526
+ {
2527
+ "epoch": 4.150898770104068,
2528
+ "grad_norm": 18.501914978027344,
2529
+ "learning_rate": 4.246939861628526e-06,
2530
+ "loss": 1.268,
2531
+ "step": 17550
2532
+ },
2533
+ {
2534
+ "epoch": 4.162724692526017,
2535
+ "grad_norm": 16.622150421142578,
2536
+ "learning_rate": 4.187806753001006e-06,
2537
+ "loss": 1.2345,
2538
+ "step": 17600
2539
+ },
2540
+ {
2541
+ "epoch": 4.174550614947966,
2542
+ "grad_norm": 19.019207000732422,
2543
+ "learning_rate": 4.128673644373484e-06,
2544
+ "loss": 1.228,
2545
+ "step": 17650
2546
+ },
2547
+ {
2548
+ "epoch": 4.186376537369915,
2549
+ "grad_norm": 11.55809211730957,
2550
+ "learning_rate": 4.069540535745964e-06,
2551
+ "loss": 1.235,
2552
+ "step": 17700
2553
+ },
2554
+ {
2555
+ "epoch": 4.1982024597918635,
2556
+ "grad_norm": 14.763603210449219,
2557
+ "learning_rate": 4.010407427118444e-06,
2558
+ "loss": 1.2198,
2559
+ "step": 17750
2560
+ },
2561
+ {
2562
+ "epoch": 4.210028382213813,
2563
+ "grad_norm": 17.480113983154297,
2564
+ "learning_rate": 3.951274318490923e-06,
2565
+ "loss": 1.263,
2566
+ "step": 17800
2567
+ },
2568
+ {
2569
+ "epoch": 4.2218543046357615,
2570
+ "grad_norm": 17.487497329711914,
2571
+ "learning_rate": 3.892141209863403e-06,
2572
+ "loss": 1.2288,
2573
+ "step": 17850
2574
+ },
2575
+ {
2576
+ "epoch": 4.23368022705771,
2577
+ "grad_norm": 14.157654762268066,
2578
+ "learning_rate": 3.833008101235882e-06,
2579
+ "loss": 1.2251,
2580
+ "step": 17900
2581
+ },
2582
+ {
2583
+ "epoch": 4.2455061494796595,
2584
+ "grad_norm": 21.731857299804688,
2585
+ "learning_rate": 3.773874992608362e-06,
2586
+ "loss": 1.2796,
2587
+ "step": 17950
2588
+ },
2589
+ {
2590
+ "epoch": 4.257332071901608,
2591
+ "grad_norm": 17.268417358398438,
2592
+ "learning_rate": 3.7147418839808415e-06,
2593
+ "loss": 1.2934,
2594
+ "step": 18000
2595
+ },
2596
+ {
2597
+ "epoch": 4.257332071901608,
2598
+ "eval_runtime": 47.1593,
2599
+ "eval_samples_per_second": 0.0,
2600
+ "eval_steps_per_second": 0.0,
2601
+ "eval_validation_loss": 3.9484923051611727,
2602
+ "step": 18000
2603
+ },
2604
+ {
2605
+ "epoch": 4.269157994323558,
2606
+ "grad_norm": 12.740385055541992,
2607
+ "learning_rate": 3.6556087753533203e-06,
2608
+ "loss": 1.2197,
2609
+ "step": 18050
2610
+ },
2611
+ {
2612
+ "epoch": 4.280983916745506,
2613
+ "grad_norm": 17.239517211914062,
2614
+ "learning_rate": 3.5964756667258e-06,
2615
+ "loss": 1.1908,
2616
+ "step": 18100
2617
+ },
2618
+ {
2619
+ "epoch": 4.292809839167455,
2620
+ "grad_norm": 16.485107421875,
2621
+ "learning_rate": 3.5373425580982795e-06,
2622
+ "loss": 1.2549,
2623
+ "step": 18150
2624
+ },
2625
+ {
2626
+ "epoch": 4.304635761589404,
2627
+ "grad_norm": 17.04962921142578,
2628
+ "learning_rate": 3.478209449470759e-06,
2629
+ "loss": 1.3468,
2630
+ "step": 18200
2631
+ },
2632
+ {
2633
+ "epoch": 4.316461684011353,
2634
+ "grad_norm": 14.987895965576172,
2635
+ "learning_rate": 3.419076340843238e-06,
2636
+ "loss": 1.2323,
2637
+ "step": 18250
2638
+ },
2639
+ {
2640
+ "epoch": 4.328287606433301,
2641
+ "grad_norm": 14.840313911437988,
2642
+ "learning_rate": 3.3599432322157176e-06,
2643
+ "loss": 1.2897,
2644
+ "step": 18300
2645
+ },
2646
+ {
2647
+ "epoch": 4.340113528855251,
2648
+ "grad_norm": 17.09177589416504,
2649
+ "learning_rate": 3.3008101235881973e-06,
2650
+ "loss": 1.3231,
2651
+ "step": 18350
2652
+ },
2653
+ {
2654
+ "epoch": 4.351939451277199,
2655
+ "grad_norm": 16.76932716369629,
2656
+ "learning_rate": 3.241677014960677e-06,
2657
+ "loss": 1.3587,
2658
+ "step": 18400
2659
+ },
2660
+ {
2661
+ "epoch": 4.363765373699149,
2662
+ "grad_norm": 17.611955642700195,
2663
+ "learning_rate": 3.1825439063331565e-06,
2664
+ "loss": 1.2639,
2665
+ "step": 18450
2666
+ },
2667
+ {
2668
+ "epoch": 4.375591296121097,
2669
+ "grad_norm": 11.352503776550293,
2670
+ "learning_rate": 3.1234107977056353e-06,
2671
+ "loss": 1.2244,
2672
+ "step": 18500
2673
+ },
2674
+ {
2675
+ "epoch": 4.387417218543046,
2676
+ "grad_norm": 17.059810638427734,
2677
+ "learning_rate": 3.064277689078115e-06,
2678
+ "loss": 1.1932,
2679
+ "step": 18550
2680
+ },
2681
+ {
2682
+ "epoch": 4.3992431409649955,
2683
+ "grad_norm": 15.7676420211792,
2684
+ "learning_rate": 3.0051445804505946e-06,
2685
+ "loss": 1.2072,
2686
+ "step": 18600
2687
+ },
2688
+ {
2689
+ "epoch": 4.411069063386944,
2690
+ "grad_norm": 20.51708984375,
2691
+ "learning_rate": 2.9460114718230742e-06,
2692
+ "loss": 1.2257,
2693
+ "step": 18650
2694
+ },
2695
+ {
2696
+ "epoch": 4.4228949858088935,
2697
+ "grad_norm": 9.713994979858398,
2698
+ "learning_rate": 2.8868783631955535e-06,
2699
+ "loss": 1.2368,
2700
+ "step": 18700
2701
+ },
2702
+ {
2703
+ "epoch": 4.434720908230842,
2704
+ "grad_norm": 17.381057739257812,
2705
+ "learning_rate": 2.8277452545680327e-06,
2706
+ "loss": 1.2796,
2707
+ "step": 18750
2708
+ },
2709
+ {
2710
+ "epoch": 4.446546830652791,
2711
+ "grad_norm": 17.901290893554688,
2712
+ "learning_rate": 2.7686121459405123e-06,
2713
+ "loss": 1.1617,
2714
+ "step": 18800
2715
+ },
2716
+ {
2717
+ "epoch": 4.45837275307474,
2718
+ "grad_norm": 14.669180870056152,
2719
+ "learning_rate": 2.709479037312992e-06,
2720
+ "loss": 1.238,
2721
+ "step": 18850
2722
+ },
2723
+ {
2724
+ "epoch": 4.470198675496689,
2725
+ "grad_norm": 19.362512588500977,
2726
+ "learning_rate": 2.650345928685471e-06,
2727
+ "loss": 1.1765,
2728
+ "step": 18900
2729
+ },
2730
+ {
2731
+ "epoch": 4.482024597918637,
2732
+ "grad_norm": 16.083276748657227,
2733
+ "learning_rate": 2.591212820057951e-06,
2734
+ "loss": 1.2626,
2735
+ "step": 18950
2736
+ },
2737
+ {
2738
+ "epoch": 4.493850520340587,
2739
+ "grad_norm": 12.657955169677734,
2740
+ "learning_rate": 2.53207971143043e-06,
2741
+ "loss": 1.2582,
2742
+ "step": 19000
2743
+ },
2744
+ {
2745
+ "epoch": 4.505676442762535,
2746
+ "grad_norm": 19.395004272460938,
2747
+ "learning_rate": 2.4729466028029097e-06,
2748
+ "loss": 1.2478,
2749
+ "step": 19050
2750
+ },
2751
+ {
2752
+ "epoch": 4.517502365184484,
2753
+ "grad_norm": 19.803897857666016,
2754
+ "learning_rate": 2.413813494175389e-06,
2755
+ "loss": 1.1628,
2756
+ "step": 19100
2757
+ },
2758
+ {
2759
+ "epoch": 4.529328287606433,
2760
+ "grad_norm": 18.098979949951172,
2761
+ "learning_rate": 2.3546803855478685e-06,
2762
+ "loss": 1.251,
2763
+ "step": 19150
2764
+ },
2765
+ {
2766
+ "epoch": 4.541154210028382,
2767
+ "grad_norm": 20.26512908935547,
2768
+ "learning_rate": 2.295547276920348e-06,
2769
+ "loss": 1.208,
2770
+ "step": 19200
2771
+ },
2772
+ {
2773
+ "epoch": 4.552980132450331,
2774
+ "grad_norm": 11.94166088104248,
2775
+ "learning_rate": 2.2364141682928274e-06,
2776
+ "loss": 1.2535,
2777
+ "step": 19250
2778
+ },
2779
+ {
2780
+ "epoch": 4.56480605487228,
2781
+ "grad_norm": 15.473821640014648,
2782
+ "learning_rate": 2.177281059665307e-06,
2783
+ "loss": 1.1903,
2784
+ "step": 19300
2785
+ },
2786
+ {
2787
+ "epoch": 4.5766319772942285,
2788
+ "grad_norm": 14.091665267944336,
2789
+ "learning_rate": 2.1181479510377862e-06,
2790
+ "loss": 1.1725,
2791
+ "step": 19350
2792
+ },
2793
+ {
2794
+ "epoch": 4.588457899716178,
2795
+ "grad_norm": 15.09231948852539,
2796
+ "learning_rate": 2.059014842410266e-06,
2797
+ "loss": 1.2023,
2798
+ "step": 19400
2799
+ },
2800
+ {
2801
+ "epoch": 4.600283822138127,
2802
+ "grad_norm": 19.047542572021484,
2803
+ "learning_rate": 1.999881733782745e-06,
2804
+ "loss": 1.1607,
2805
+ "step": 19450
2806
+ },
2807
+ {
2808
+ "epoch": 4.612109744560076,
2809
+ "grad_norm": 15.40837574005127,
2810
+ "learning_rate": 1.9407486251552247e-06,
2811
+ "loss": 1.2483,
2812
+ "step": 19500
2813
+ },
2814
+ {
2815
+ "epoch": 4.623935666982025,
2816
+ "grad_norm": 16.487464904785156,
2817
+ "learning_rate": 1.881615516527704e-06,
2818
+ "loss": 1.1202,
2819
+ "step": 19550
2820
+ },
2821
+ {
2822
+ "epoch": 4.635761589403973,
2823
+ "grad_norm": 18.49724006652832,
2824
+ "learning_rate": 1.8224824079001836e-06,
2825
+ "loss": 1.2428,
2826
+ "step": 19600
2827
+ },
2828
+ {
2829
+ "epoch": 4.647587511825923,
2830
+ "grad_norm": 13.098505973815918,
2831
+ "learning_rate": 1.7633492992726628e-06,
2832
+ "loss": 1.2413,
2833
+ "step": 19650
2834
+ },
2835
+ {
2836
+ "epoch": 4.659413434247871,
2837
+ "grad_norm": 14.599630355834961,
2838
+ "learning_rate": 1.7042161906451424e-06,
2839
+ "loss": 1.1916,
2840
+ "step": 19700
2841
+ },
2842
+ {
2843
+ "epoch": 4.671239356669821,
2844
+ "grad_norm": 13.156811714172363,
2845
+ "learning_rate": 1.6450830820176216e-06,
2846
+ "loss": 1.1738,
2847
+ "step": 19750
2848
+ },
2849
+ {
2850
+ "epoch": 4.683065279091769,
2851
+ "grad_norm": 12.79720687866211,
2852
+ "learning_rate": 1.5859499733901013e-06,
2853
+ "loss": 1.1718,
2854
+ "step": 19800
2855
+ },
2856
+ {
2857
+ "epoch": 4.694891201513718,
2858
+ "grad_norm": 20.443012237548828,
2859
+ "learning_rate": 1.5268168647625805e-06,
2860
+ "loss": 1.2093,
2861
+ "step": 19850
2862
+ },
2863
+ {
2864
+ "epoch": 4.706717123935667,
2865
+ "grad_norm": 14.799368858337402,
2866
+ "learning_rate": 1.4676837561350601e-06,
2867
+ "loss": 1.1457,
2868
+ "step": 19900
2869
+ },
2870
+ {
2871
+ "epoch": 4.718543046357616,
2872
+ "grad_norm": 12.656880378723145,
2873
+ "learning_rate": 1.4085506475075394e-06,
2874
+ "loss": 1.1704,
2875
+ "step": 19950
2876
+ },
2877
+ {
2878
+ "epoch": 4.7303689687795645,
2879
+ "grad_norm": 17.24571418762207,
2880
+ "learning_rate": 1.349417538880019e-06,
2881
+ "loss": 1.1767,
2882
+ "step": 20000
2883
+ },
2884
+ {
2885
+ "epoch": 4.7303689687795645,
2886
+ "eval_runtime": 47.055,
2887
+ "eval_samples_per_second": 0.0,
2888
+ "eval_steps_per_second": 0.0,
2889
+ "eval_validation_loss": 3.9691287893885456,
2890
+ "step": 20000
2891
+ }
2892
+ ],
2893
+ "logging_steps": 50,
2894
+ "max_steps": 21140,
2895
+ "num_input_tokens_seen": 0,
2896
+ "num_train_epochs": 5,
2897
+ "save_steps": 2000,
2898
+ "stateful_callbacks": {
2899
+ "TrainerControl": {
2900
+ "args": {
2901
+ "should_epoch_stop": false,
2902
+ "should_evaluate": false,
2903
+ "should_log": false,
2904
+ "should_save": true,
2905
+ "should_training_stop": false
2906
+ },
2907
+ "attributes": {}
2908
+ }
2909
+ },
2910
+ "total_flos": 0.0,
2911
+ "train_batch_size": 64,
2912
+ "trial_name": null,
2913
+ "trial_params": null
2914
+ }
checkpoints/checkpoint-20000/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e569c6363f87232c2592f6816dc1525dfa57d0e811b17118ca7ae653e7552dbe
3
+ size 6225