davanstrien HF Staff commited on
Commit
18fb71e
·
verified ·
1 Parent(s): 2db8fb0

Training in progress, step 58

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,428 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - multilingual
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - cross-encoder
8
+ - reranker
9
+ - generated_from_trainer
10
+ - dataset_size:9220
11
+ - loss:BinaryCrossEntropyLoss
12
+ base_model: jhu-clsp/mmBERT-base
13
+ pipeline_tag: text-ranking
14
+ library_name: sentence-transformers
15
+ metrics:
16
+ - accuracy
17
+ - accuracy_threshold
18
+ - f1
19
+ - f1_threshold
20
+ - precision
21
+ - recall
22
+ - average_precision
23
+ model-index:
24
+ - name: mmBERT-base multilingual educational-quality reranker (FineWeb-C)
25
+ results:
26
+ - task:
27
+ type: cross-encoder-classification
28
+ name: Cross Encoder Classification
29
+ dataset:
30
+ name: fineweb c eval
31
+ type: fineweb_c_eval
32
+ metrics:
33
+ - type: accuracy
34
+ value: 0.8369140625
35
+ name: Accuracy
36
+ - type: accuracy_threshold
37
+ value: 0.8085842132568359
38
+ name: Accuracy Threshold
39
+ - type: f1
40
+ value: 0.29916897506925205
41
+ name: F1
42
+ - type: f1_threshold
43
+ value: 0.3967691659927368
44
+ name: F1 Threshold
45
+ - type: precision
46
+ value: 0.1945945945945946
47
+ name: Precision
48
+ - type: recall
49
+ value: 0.6467065868263473
50
+ name: Recall
51
+ - type: average_precision
52
+ value: 0.22527425150874691
53
+ name: Average Precision
54
+ ---
55
+
56
+ # mmBERT-base multilingual educational-quality reranker (FineWeb-C)
57
+
58
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [jhu-clsp/mmBERT-base](https://huggingface.co/jhu-clsp/mmBERT-base) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
59
+
60
+ ## Model Details
61
+
62
+ ### Model Description
63
+ - **Model Type:** Cross Encoder
64
+ - **Base model:** [jhu-clsp/mmBERT-base](https://huggingface.co/jhu-clsp/mmBERT-base) <!-- at revision c5955035435e2bf121cde7f3c8863ef52ff35d82 -->
65
+ - **Maximum Sequence Length:** 512 tokens
66
+ - **Number of Output Labels:** 1 label
67
+ - **Supported Modality:** Text
68
+ <!-- - **Training Dataset:** Unknown -->
69
+ - **Language:** multilingual
70
+ - **License:** apache-2.0
71
+
72
+ ### Model Sources
73
+
74
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
75
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
76
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
77
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
78
+
79
+ ### Full Model Architecture
80
+
81
+ ```
82
+ CrossEncoder(
83
+ (0): Transformer({'transformer_task': 'sequence-classification', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'logits'}}, 'module_output_name': 'scores', 'architecture': 'ModernBertForSequenceClassification'})
84
+ )
85
+ ```
86
+
87
+ ## Usage
88
+
89
+ ### Direct Usage (Sentence Transformers)
90
+
91
+ First install the Sentence Transformers library:
92
+
93
+ ```bash
94
+ pip install -U sentence-transformers
95
+ ```
96
+
97
+ Then you can load this model and run inference.
98
+ ```python
99
+ from sentence_transformers import CrossEncoder
100
+
101
+ # Download from the 🤗 Hub
102
+ model = CrossEncoder("davanstrien/fineweb-c-quality-reranker-v2")
103
+ # Get scores for pairs of inputs
104
+ pairs = [
105
+ ["Dadka reer Ukrain ayaa maanta codadkooda ka dhiibtay doorashada madaxtinimada, taasoo uu ku guuleystay nin majaajiliista ah oo aanan laheyn khibrad siyaasadeed.\nNatiijooyinka hordhaca ah ayaa muujineya in Volodymyr Zelenskiy oo horay u jilay musalsal TV-ga laga daawaday oo uu ku matalay madaxweyne mala'awaal ah uu ka guuleysanayo madaxweynaha talada haya Petro Poroshenko.\nCodadka doorashada wareegga labaad ee la tiriyey dadka codkooda dhiibtay 75% waxay codkooda siiyeen Mr Volodymyr Zelensky.", 'Pekka Toveri: Tilanne Ukrainassa on muuttunut\nPresidentti Volodymyr Zelenskyi on komentanut armeijansa valtaamaan Venäjän miehittämät alueet takaisin. Jos operaatio käynnistyy, sota saavuttaa uuden virstanpylvään: Ukraina muokkaa sen kulkua.\nUkrainan armeija on saanut merkittävän määrän HIMARS-ohjusjärjestelmiä lännen aseapuna. Eilen Yhdysvallat ilmoitti toimittavansa niitä lisää.\nStudiossa selvitettiin pitkän kantaman rakettien roolia Venäjän hyökkäyksen hyytymisessä.\nISTV:n Ukraina-studion asiantuntijavieras oli pääesikunnan ex-tiedustelupäällikkö Pekka Toveri. Toimittaja oli ISTV:n Antti Virolainen.\nTallenteen kenraalimajuri evp. Pekka Toverin studiohaastattelusta voi katsoa artikkelin yläosasta löytyvältä videolta.'],
106
+ ["कर तिर्नेको लहर\nबागलुङ — पोखरा पुगेर मात्र तिर्नुपर्ने बाध्यता हटेपछि कहरले कर तिर्नेहरू रहरले तिर्न थालेका छन् । जिल्लामा गत भदौदेखि आन्तरिक राजश्व कार्यालय खुलेपछि कर तिर्नेको लहर चलेको हो ।\nएकै वर्��मा करदाताको संख्या दोब्बर बढ्नुको साथै लक्ष्यको ४२ प्रतिशत बढी कर संकलन भएको छ । कार्यालय प्रमुख हेमराज सुवेदीका अनुसार बागलुङमा चालु वर्षको पहिलो चार महिनामा मात्र १२ हजार करदाता सूचिकृत भएका छन् । गत बर्षको भदौमा करदाता सेवा कार्यालयबाट बढुवा भएर आन्तरिक राजश्व कार्यालय बनेकोमा १८ हजार ३ सय संस्थागत करदाता छन् । त्यस्तै १९ हजार १ सय जना व्यक्तिगत प्यान नम्बर लिएर कर तिर्न लागेको उनले बताए ।\nकर तिर्नेले पनि नजिकमा सेवा पाएको बताए । 'प्यान नम्बर लिन र कर तिर्न पोखरा जानु पर्थ्यो, अहिले यहीं सेवा पाईयो,' जैमिनी नगरपालिका–१ की पुष्पा आचार्यले भनिन्, 'गाउँका साना करदाता समूह मिलाएर सदरमुकाम आउने गरेको छन् ।' सेवाग्राहीमै जागरण आएपछि गत बर्ष ५१ करोड २४ लाख रुपैयाँ कर संकलन गर्ने लक्ष्य राखेको कार्यालयले ४२ प्रतिशत बढी संकलन गरेको थियो ।\nगत वर्ष ६८ करोड १८ लाख कर संकलन भएको थियो । चालु बर्ष उक्त करमा ४१ प्रतिशत वृद्धि गरेर ९६ करोड ५४ लाख संकलन गर्ने लक्ष्य राखिएको छ । 'कर तिर्नुपर्छ भन्ने बुझाउन सकियो भने करदाता र करको दायरा आँफै बढ्ने रहेछ' सुवेदीले भने, 'चालु बर्षको पहिलो चार महिनामा पनि हामीले लक्ष्यको ५० प्रतिशत बढी कर संकलन गरिसकेका छौं ।' चार महिनाका लागि राखिएको २४ करोड ५८ लाख करको लक्ष्यमा ३५ करोड ५ लाख संकलन भइसकेको उनले बताए ।\nउत्कृष्ठ करदातालाई पुरस्कृत गर्ने, सबै स्थानीय तहमा उद्योग बाणिज्य संघको सहकार्यमा कर शिक्षा संचालन गर्ने र साझेदारीमा काम गर्ने अभियान चलाएपछि कर तिर्नेको लर्को लागेको कर अधिकृत सुन्दर श्रेष्ठले बताए । बागलुङ उद्योग बाणिज्य संघले कर्मचारी खटाएर करदातालाई फारम भर्न लगाउने र प्रक्रियाबारे बुझाउन थालेको छ । 'कार्यालयबाट आग्रह भएपछि हेल्पडेक्स राखेर काम थालेका छौं,' संघका अध्यक्ष युवराज राजभण्डारीले भने, 'करदाता र व्यवसायीलाई यसले थप सहयोग मिलेको छ ।'प्रकाशित : मंसिर २, २०७६ १०:५४", "काठमाडौं, माघ १५ ।प्रत्येक वर्ष पौषशुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना विधिपूर्वक गरिने श्री स्वस्थानी व्रत एवं माघस्नान आजदेखि सुरु भएको छ।\nपौष शुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना स्वस्थानी व्रत र माघ स्नान गरिन्छ। पौषशुक्ल चतुर्दशीको दिन हात गोडाका नङ काटी स्नान गरी शुद्ध वस्त्र पहिरिएर यसको सुरुवात हुन्छ।\nबिहान माघ स्नान गरी नित्य मध्याह्नकालमा महादेवको पूजा गरिन्छ । बेलुकी स्कन्द पुराणको केदार खण्डअन्तर्गत माघ माहात्म्यको कुमार अगस्त्यबीच संवाद भएको स्वस्थानी व्रत कथा सुन्ने सुनाउने परम्परा छ।\nस्वस्थानी देवीको विधिपूर्वक व्रत गरेमा बिछोड भएका जोडीको पुनर्मिलन हुन्छ भन्ने धार्मिक विश्वास छ । रोग ब्याध लागेको भए ठीक हुने र पति वा पत्नीका रुपमा कसैलाई इच्छाएको भए प्राप्त हुने कथासमेत नेपाली समुदायमा प्रचलित छ।\nसत्य युगमा हिमालय पर्वतकी पुत्री पार्वतीले महादेवलाई पति पाऊँ भनी विष्णुको निर्देशानुसार स्वस्थानीको व्रत गरेको कथा स्वस्थानीमा वर्णन गरिएको छ । व्रतपछि बिछोडमा परेका नाग नागिनीको समेत पुनर्मिलन भएको कथामा उल्लेख छ।\nगोमा ब्राह्मणीले सप्तऋषिले सिकाएको व्रतविधिअनुसार व्रत गर्दा पुत्र वियोगबाट मुक्ति मिलेको र व्रतकै प्रभावले छोरा नवराज लावण्य देश अहिलेको साँखु क्षेत्रको राजा भएको कथासमेत स्वस्थानीमा वर्णन गरिएको साँखुको ऐतिहासिक, धार्मिक, पुरातात्विक, सांस्कृतिक र पर्यटकीय विषयमा अनुसन्धानरत इतिहासकार प्रकाश श्रेष्ठ 'सक्व' ले जानकारी दिए।\nयसैबीच आजदेखि काठमाडौंको साँखुमा रहेको शालिनदीमा माघस्नानसहित माधवनारायणको मेला सुरु भएको छ। प्राचीनकालदेखि लाग्दै आएको मेलामा यस वर्ष भने कोरोनाका कारण धेरै चहलपहल नहुने श्रेष्ठले बताए।\nव्रतालुका लागि साँखुमा रहेको शालिनदीमा सम्पूर्ण तयारी पूरा गरिएको श्री माधवनारायण स्वस्थानी व्रत तथा शालीनदी सुधार समितिका अध्यक्ष मीजेन्दकाजी श्रेष्ठले जानकारी दिए। यस वर्ष माघ १५ गतेदेखि फागुन १५ गतेसम्म शालीनदीमा मेला लाग्दै छ।\nविगत वर्षमा करिब ४०० ले माधवनारायण व्रत गर्ने गरेका थिए। यस वर्ष भने ४९ लाई मात्र स्वास्थ्य सुरक्षाका विधि अपनाएर सुरक्षितार्थ राख्ने समितिले जनाएको छ। महिला ३५ र पुरुष १४ गरी ४९ जना यसपटक व्रतमा सहभागी भएका छन्। विगत वर्षमा जस्तो मेला भने यसपटक नलाग्ने समितिले जनाएको छ।"],
107
+ ['Antoine Henri Becquerel\nAntoine Henri Becquerel (* 15. Dezember 1852 in Paris; † 25. August 1908 in Le Croisic, Département Loire-Atlantique) weer en franzöösch Physiker. He kreeg 1903 gemeensam mit Marie un Pierre Curie den Nobelpries för Physik för dat Opdecken van de Radioaktivität. Sien Vader weer Alexandre Edmond Becquerel, de Opdecker van den photoelektrischen Effekt.\nInholtsverteken\nLeven un Wark[ännern | Bornkood ännern]\nHenri Becquerel hett 1872 bit 1874 an de École Polytechnique studeert. 1874 hett he Lucie Jamin heiraadt. Ut disse Verbinnen stammt as Söhn de Physiker Jean Becquerel. Van 1874 bit 1877 hett Becquerel sien Studium an de École des Ponts et Chaussées fortsett. Dornah fung sien akademische Karriere as Assistent an de École polytechnique an, van de he 1895 deren Lehrstohl för Physik kreeg. Nahdem sien Ehefru storven weer, hett he 1890 Louise Lorieux heiraadt. 1896 hett Becquerel mit de Phosphoreszenz van Uransolten experimenteert. Nahdem he up eenige in en dunkeln Ruum ünnerbrocht Präparate en Fotoplaat leggt harr, hett he an\'n 1. März 1896 faststellt, dat de Plaat swaart wurrn weer, ofschons tovör kien Lucht infallen kunn, dat de Uransolten to Phosphoreszenz harrn anregen kunn. Dat weer en Henwies dorup, dat dat en Strahlung gifft, de nich to dat Spektrum van dat sichtbar Lucht hörrt – disse Strahlung hett Becquerel as Uranstrahlen betekent. Ähnliche Eegenschapen wiesen ok de kört vörher opdeckt Röntgenstrahlen un de Kathodenstrahlen up. Becquerel harr mit dissen Versöök de Radioaktivität opdeckt. 1900 hett he bi wiederen Forschungen nahwiest, dat de ut den Atomkarn rutwieken flinken Elektronen (β-Strahlung) magnetisch aflenkbar sünd.\nEhrungen[ännern | Bornkood ännern]\n- 1900 wurr hüm de Rumford-Medaille van de Royal Society verleeht, in de he an\'n 4. Juni 1908 upnommen wurr.\n- 1903 deel sück Becquerel den Nobelpries för Physik mit de franzöösch Physikern Pierre Curie un Marie Curie för hör Arbeit to de Radioaktivität. He kreeg den Pries "als Anerkennung des außerordentlichen Verdienstes, das er durch die Entdeckung der spontanen Radioaktivität erworben hat."\n- 1905 kreeg he de Barnard-Medaille.\n- Nah hüm wurr de Maateenheit Becquerel för de Radioaktivität nömmt.\n- 1970 wurr de Maandkrater Becquerel nah hüm nömmt.\n- 1973 wurr de Marskrater Becquerel nah hüm nömmt.\n- 1996 wurr de Asteroid (6914) Becquerel nah hüm nömmt.[2]\nBecquerel weer Liddmaat van mehreren wetenschaplichen Akademien. Siet 1904 hörr he de Preußische Akademie van de Wetenschapen as korrespondeeren Liddmaat an,[3] siet 1905 de National Academy of Sciences as utwärtig Liddmaat (Foreign Associate). 1902 wurr he wählt Liddmaat van de American Philosophical Society.\nSchriften (Utwahll)[ännern | Bornkood ännern]\n- Sur les radiations émises par phosphorescence. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 420–421 (online).\n- Sur les radiations invisibles émises par les corp s phosphorescents. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 501–503 (online).\n- Sur quelquer propriétés nouvelles des radiations invisibles émises par divers corps phosphorescents. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 559–564 (online).\n- Sur les radiations invisibles émises par les sels d\'uranium. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 689–694 (online).\n- Sur les propriétés différentes des radiations invisibles émises par les sels d\'uranium, et du rayonnement de la paroi anticathodique d\'un tube de Crookes. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 762–767 (online).\n- Émission de radiation nouvelles par l\'uranium métallique. In: Comptes Rendus de l\'Académie des sciences. Band 122, 1896, S. 1086–1088 (online).\n- Sur diverses propriétés des rayons uraniques. In: Comptes Rendus de l\'Académie des sciences. Band 123, 1896, S. 1086–1088 (online).\n- Recherches sur les rayons uraniques. In: Comptes Rendus de l\'Académie des sciences. Band 124, 1897, S. 438–444 (online).\n- Sur la loi de la décharge dans l\'air de l\'uranium électrisé. In: Comptes Rendus de l\'Académie des sciences. Band 124, 1897, S. 800–803 (online).\n- Influence d\'un champ magnétique sur le rayonnement des corps radio-actifs. In: Comptes Rendus de l\'Académie des sciences. Band 129, 1899, S. 996–1001 (online).\n- Sur le rayonnement de l\'uranium et sur diverses proprietes physiques du rayonnement des corps radio-actifs. In: Rapports présentés au Congrès international de physique réuni à Paris en 1900 sous les auspices de la Société française de physique. Band 3, Gauthier-Villars, Paris 1900, S. 47–78.\n- Recherches sur une Propriete Nouvelle de la Matiere. = Memoires de l\'Academie des Sciences. Band 46, Fermin-Didot, Paris 1903 (online).\nLiteratur[ännern | Bornkood ännern]\n- André Allisy: Henri Becquerel: The Discovery of Radioactivity. In: Radiation Protection Dosimetry. Band 68, Nummer 1–2, 1996, S. 3–10 (online).\n- Lawrence Badash: Becquerel\'s Blunder. In: Social Research. Band 72, Nummer 1, 2005, S. 31–62 (Vörlaag:JSTOR).\n- Klaus Hentschel: Becquerel, Antoine Henri. In: Werner E. Gerabek, Bernhard D. Haage, Gundolf Keil, Wolfgang Wegner (Hrsg.): Enzyklopädie Medizingeschichte. De Gruyter, Berlin/ New York 2005, ISBN 3-11-015714-4, S. 158 f.\n- Alfred Romer: Becquerel, [Antoine-] Henri. In: Complete Dictionary of Scientific Biography. Band 1, Charles Scribner\'s Sons, Detroit 2008, S. 558–561 (online).\n- Susanne Eckelmann: [2] Antoine Henri Becquerel in dat LEMO\n- Becquerel up de Sieden van den Nobelpries (engelsch)\n- Indrag to Becquerel up de Sieden van de Royal Society (engelsch)\nEnkeld Nahwiesen[ännern | Bornkood ännern]\n- knerger.de: Das Grab von Henri Becquerel\n- Minor Planet Circ. 27332\n- Berlin-Brandenburgische Akademie der Wissenschaften: [1] Mitglieder der Vorgängerakademien, Antoine-Henri Becquerel, afropen an\'n 19. Februar 2015', 'Kaum ääner von us glääwt haut noch an dat Märchen vonnem Herrgott, wo sein äänzijen Sunn óff de bockelisch Welt schéckt, fer de greilich Minschen von ihre "Schandtaten" zu erleesen, éndäm der sich an\'t Kreiz schlääen lisst. Dò hätt et fer e Gott doch anner Meechlichkääten génn. De anneren Religionen schiddeln iwwer so en Onverstand nur de Kopp…\nAwwer der Gedanken, et Bild vo Weihnachten éss trotzdem scheen. Mir, héij én Europa, wo mer (noch) Joareszeiten hann, hann de Herrgottsgeburt én de kalte Wénter verlaat, én e Schopp, én Stroh, bei\'t Véih – damét ma alles herrichten kónnten, die Hämlichkäät, wo ma fer so e Feschd brauch, fer all die dausend Krippcher, wo ma basteln ónn bewónnern móss. Heimat móss sénn, aach wenn se honnertmò nét stémmt. Kréschdbäämcher? Schnee? Rendiere mét rode Naasen? Iwwerall barmherzisch Minschen? Iwwerall Keeniche mét Geschenkern fer arm Eltern mét hongrisch Kénnern?\nRobert Antelme, e franseesicher Resistance-Kämpfer ónn KZ-Häftling én Buchenwald ónn Dachau, hat in seinem Buch "L\'espèce humaine" (Das Menschengeschlecht, 1947) iwwer Weihnachten 1944 in Gandersheim nur verzehlen kénnen, et hätt als "Sonderration" e béssjen Nachschlach an Hackflääsch génn, awwer nét dän Appel, wo innen versproch génn woar. Awwer an däm Daach brauchten se wenichdens nét schaffen ze gehn. An däm Owend hann se all óm de Bollerówen rom gesääß ónn von ihrem Hemm, von der Fraa, von de Kennern gedräämt. Von ihren Häälisch Famillen.\nGérard Carau lebt im moselfränkischen Beckingen.'],
108
+ ['Nummer\nA nummer is a mathematical object uised tae coont, label, an measur. In mathematics, the defineetion o nummer haes been extendit ower the years tae include such nummers as 0, negative nummers, rational nummers, irrational nummers, an complex nummers.\nMathematical operations are certain procedurs that tak ane or mair nummers as input an produce a nummer as ootput. Unary operations tak a single input nummer an produce a single ootput nummer. For example, the successor operation adds 1 tae an integer, thus the successor o 4 is 5. Binary operations tak twa input nummers an produce a single ootput nummer. Examples o binary operations include addeetion, subtraction, multiplication, diveesion, an exponentiation. The study o numerical operations is cried arithmetic.\nA notational seembol that represents a nummer is cried a numeral. In addeetion tae thair uise in coontin an measurin, numerals are eften uised for labels (telephone nummers), for orderin (serial nummers), an for codes (e.g., ISBNs).\nIn common uisage, the wird nummer can mean the abstract object, the seembol, or the wird for the nummer.', 'Quick Search\nCategories\nInformation\nThis is help page you can edit this in your admin area below is some example text Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce mattis magna eu risus dapibus vitae porta magna vulputate. Nullam facilisis, ligula eget vulputate molestie, purus nibh tincidunt dolor, eget convallis massa nibh a velit. Curabitur at urna a eros convallis venenatis. Donec erat arcu, consectetur quis tristique sed, rhoncus sit amet est. Nam semper pellentesque metus, ut pretium mi varius eu. Sed feugiat rutrum velit et sagittis. Donec nisl leo, vestibulum ut eleifend id, consequat at dolor. Nullam rhoncus luctus neque, nec eleifend ipsum suscipit at. Donec in lectus dignissim dui dignissim imperdiet quis non diam. Praesent lectus lorem, auctor sit amet adipiscing tempor, consequat non libero. Vestibulum vel rhoncus odio. Cras consequat dui sit amet lorem laoreet volutpat. Curabitur luctus fringilla egestas. Fusce lobortis purus id lacus viverra quis tincidunt leo sagittis. Nulla cursus laoreet libero ut malesuada. Integer faucibus ligula in nisl ultrices nec vulputate quam vestibulum. Suspendisse tortor nisl, convallis non condimentum sit amet, feugiat in velit. Aliquam erat volutpat.\nUt sed erat quis turpis vulputate placerat et et nibh. Aenean consequat diam libero, a adipiscing eros. Praesent congue urna blandit purus tristique a tincidunt leo malesuada. Vestibulum et justo urna. Donec luctus purus venenatis urna laoreet varius. Etiam sit amet urna molestie turpis imperdiet fringilla quis at tortor. Fusce nec mauris sapien. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed ac tincidunt lorem. Vestibulum vel orci et dolor laoreet laoreet. Vivamus ut nunc nunc, vel hendrerit velit. Nunc a libero at dui posuere molestie. Cras ullamcorper, ante vel dapibus commodo, magna nulla interdum mi, ac pellentesque lectus quam ac felis. Vestibulum lacus velit, bibendum eget tristique eu, venenatis in risus. Vestibulum sodales urna nec mauris consectetur pretium. Suspendisse sed justo non turpis suscipit ornare. Nulla in odio nunc, eget porttitor velit.'],
109
+ ['Tervetuloa rakennerahastot.fi-sivuston Länsi-Suomen osioon. Täältä löydät tietoa EU:n alue- ja rakennepolitiikan ohjelmakauden 2021–2027 ajankohtaisista asioista, rahoitettavien kehittämistoimien maakunnallisista painopisteistä sekä rahoituksen hakemisesta Länsi-Suomessa.\nSeAMK kestävää kasvua tukemassa: case Nordic Digital Creations Oy\nYrittäjähenkisyys on vahvasti läsnä kaikessa Seinäjoen ammattikorkeakoulun toiminnassa. Yrittäjyyteen liittyviä hankkeita on jatkuvasti käynnissä useita, mutta vihreän siirtymän ajankohtaisuus ja kriittisyys loivat tarpeen suunnitella hanke, jossa keskitytään yritysten kestävän kasvun edistämiseen.\nämän vuoksi toteutettiin EAKR-rahoitteinen GreenGrow – pk-yritysten vihreän ja inklusiivisen kasvun tukeminen Etelä-Pohjanmaalla -hanke, jonka tavoitteena on ollut vauhdittaa eteläpohjalaisten pk-yritysten vihreää ja inklusiivista kasvua tukemalla yritysten TKI-toimintaa ja yhteistyöverkostoja. Tätä tavoitetta varten kehitettiin toimintamalli, jota testattiin kuuden kestävästä kehityksestä kiinnostuneen yrityksen kanssa.\nYhdeksi pilottiyritykseksi lähti mukaan Nordic Digital Creations Oy, digitaalisia palveluita tarjoava tuore yritys. Digisihteerit-nimellä toimiva yritys on erikoistunut pienyrityksille tarjottaviin sihteeri- ja assistenttipalveluihin. Yrityksen tavoitteena on helpottaa pienyrittäjien arkea ja mahdollistaa yrittäjän tehokas ja tuottava ajankäyttö. Tällä hetkellä yritys suunnittelee kokonaisvaltaista sosiaalisen median hallinnointipalvelua, jota käyttämällä asiakasyritys voi ulkoistaa sosiaalisen median kautta tapahtuvan myynnin ja markkinoinnin täysin. Yritys työllistää tällä hetkellä yrityksen perustajan ja toimitusjohtajan Jenni Kähkösen lisäksi kolme vakituista työntekijää sekä freelancereita. Lisää kasvua on todennäköisesti tiedossa tulevaisuudessa, koska yrittäjien tarve some-markkinoinnin asiantuntija-avulle kasvaa jatkuvasti.\nTäsmäajoitus uuden yrityksen kannalta\nGreenGrow-hanke tulikin erinomaiseen aikaan vasta perustetun yrityksen kannalta, sillä pilotoinnissa yritys pääsi testaamaan ja yhteiskehittämään asiantuntijoiden kanssa hankkeen työkaluja. Tämä auttoi sekä uuden palvelukonseptin hiomisessa että laajemmin omien vahvuuksien ja kehittämiskohteiden tarkastelussa. Pilotointi oli yrityksille ilmainen, ja se kerrytti yrityksille de minimis -tukea.\nKuvassa: Toimitusjohtaja Jenni Kähkönen (vas.) ja toimistopäällikkö Aletta Kuru (oik.)\nKähkönen kertoo olleensa tyytyväinen pilotointiprosessiin.\n"Tämä oli mukava prosessi; oli hienoa olla mukana ideoimassa ja miettimässä syvällisemmin tätä koko palvelua erilaisista näkökulmista", Kähkönen kertoo.\nEnsimmäisessä työpajassa testattiin tutkimus-, kehittämis- ja innovointitoiminnan arviointityökalua, jonka tavoitteena on konkretisoida yrityksen vahvuuksia ja kehittämiskohteita. Toinen työpaja keskittyi uuden palvelukonseptin ideointiin ja suunnitteluun Innovaatiocanvas-työkalun avulla.\n"Kyllä kaikki nämä työkalut, joita on testattu, ovat toimineet hyvin. Tämähän on tosi hyvä prosessi palvelujen kehittämiseen", Kähkönen pohtii.\nHänen mukaansa työpajatyöskentely oli hyödyllistä erityisesti tuoreen yrityksen kehittämiskohteiden tunnistamisessa.\nYrittäjän kannattaa lähteä rohkeasti mukaan hankkeisiin!\n"Parasta oli se, kun sai uusia näkökulmia. On menty pienellä ryhmällä eteenpäin, ja siksi on aina avartavaa, kun saa näkemyksiä myös ulkopuolelta. Kyllä tämä on herättänyt ajatuksia uudella lailla. Hankkeesta oli hyötyä, ja saamme siitä jatkossakin hyvää pohjaa erilaisten palveluprosessien syvempään kehittämiseen ja pohtimiseen sekä vahvuuksien ja kehityskohteiden havaitsemiseen, Kähkönen kertoo.\nHän kannustaa erityisesti uusia yrittäjiä lähtemään rohkeasti mukaan hankkeisiin.\n"Tuoreena yrittäjänä jää helposti kiertämään kehää omien ajatusten ja toimintaprosessien kanssa. Toisaalta voi myös ajautua innostuksissaan kehittelemään liian monia ideoita yhtäaikaisesti, mutta yhtäkään ei tarpeeksi syvällisesti. On siis tärkeää ja oivalluttavaa saada myös ulkopuolista näkemystä ja kokemusta, jotta välttyisi tällaisilta noidankehiltä."\nKähkönen kannustaa muitakin yrittäjiä osallistumaan hankkeisiin.\n"Suosittelen ehdottomasti lähtemään hankkeisiin mukaan. Se vie vain pienen hetken aikaa, mutta antaa yritykselle arvokasta tietoa ja näkemystä siitä, mihin suuntaan ja miten toimintaa kannattaa lähteä kehittämään kestävästi sekä mihin asioihin on järkevää keskittyä."\nGreenGrow – pk-yritysten vihreän ja inklusiivisen kasvun tukeminen Etelä-Pohjanmaalla – hanke (1.8.2021 – 31.8.2023) rahoitetaan REACT-EU-välineen määrärahoista osana Euroopan unionin COVID-19-pandemian johdosta toteuttamia toimia. Rahoitus on saatu Etelä-Pohjanmaan liitolta.\nHanketiedot\nHankkeen nimi: GreenGrow – pk-yritysten vihreän ja inklusiivisen kasvun tukeminen Etelä-Pohjanmaalla\nToteuttaja: Seinäjoen ammattikorkeakoulu Oy\nToimintalinja ja erityistavoite: Toimintalinja 8. REACT-EU:n EAKR-toimenpiteet, erityistavoite 12.2. Tutkimus- ja innovaatiotoiminnan kehittäminen erityisesti digitalisaation edistämisen ja yhteiskunnan hiilineutraalisuustavoitteen toteutumisen näkökulmasta\nAika: 1.8.20221–31.8.2023\nMyönnetty EU- ja valtion rahoitus: 180 928 €\nHankekoodi: A77498', 'Kesäyrittäjänä teet itse itsellesi kesätyön. Yrittäjyyden resepti on yksinkertainen: keksi, kokeile ja ole sinnikäs. 4H-yrittäjänä et ole yksin: yrityskurssi tai valmennus auttaa alkuun ja oma yritysohjaajasi tukee ja neuvoo matkan varrella.\nNurmikonleikkuu, seinien maalaus, jäätelönmyynti uimarannalla, kukkien kastelu, taimikonhoito, kahvin keittäminen ja leivonnaisten leipominen ja niiden myynti turisteille, rikkaruohojen kitkeminen, lemmikin ulkoiluttaminen. Kymmenen kilometrin säteellä sinusta on satoja tekemättömiä hommia, jotka odottavat yritteliästä ja oma-aloitteista tyyppiä. Olisiko joku niistä tuleva kesäduunisi?\n4H-yritys on valmis paketti nuorelle, joka haluaa tehdä itse ja kokeilla yrittäjyyttä. Olemme miettineet puolestasi tärkeät rajat, jotta sinä voit keskittyä itse tekemiseen. Tarvittaessa saat apua omalta yritysohjaajaltasi ja 4H-yhdistyksestäsi. Voitte perustaa 4H-yrityksen myös porukalla!\nKokeile reseptiämme: yritä, opi ja tienaa 4H-yrittäjänä jo ensi kesänä!'],
110
+ ]
111
+ scores = model.predict(pairs)
112
+ print(scores)
113
+ # [0.2509 0.5293 0.6663 0.5265 0.2926]
114
+
115
+ # Or rank different texts based on similarity to a single text
116
+ ranks = model.rank(
117
+ "Dadka reer Ukrain ayaa maanta codadkooda ka dhiibtay doorashada madaxtinimada, taasoo uu ku guuleystay nin majaajiliista ah oo aanan laheyn khibrad siyaasadeed.\nNatiijooyinka hordhaca ah ayaa muujineya in Volodymyr Zelenskiy oo horay u jilay musalsal TV-ga laga daawaday oo uu ku matalay madaxweyne mala'awaal ah uu ka guuleysanayo madaxweynaha talada haya Petro Poroshenko.\nCodadka doorashada wareegga labaad ee la tiriyey dadka codkooda dhiibtay 75% waxay codkooda siiyeen Mr Volodymyr Zelensky.",
118
+ [
119
+ 'Pekka Toveri: Tilanne Ukrainassa on muuttunut\nPresidentti Volodymyr Zelenskyi on komentanut armeijansa valtaamaan Venäjän miehittämät alueet takaisin. Jos operaatio käynnistyy, sota saavuttaa uuden virstanpylvään: Ukraina muokkaa sen kulkua.\nUkrainan armeija on saanut merkittävän määrän HIMARS-ohjusjärjestelmiä lännen aseapuna. Eilen Yhdysvallat ilmoitti toimittavansa niitä lisää.\nStudiossa selvitettiin pitkän kantaman rakettien roolia Venäjän hyökkäyksen hyytymisessä.\nISTV:n Ukraina-studion asiantuntijavieras oli pääesikunnan ex-tiedustelupäällikkö Pekka Toveri. Toimittaja oli ISTV:n Antti Virolainen.\nTallenteen kenraalimajuri evp. Pekka Toverin studiohaastattelusta voi katsoa artikkelin yläosasta löytyvältä videolta.',
120
+ "काठमाडौं, माघ १५ ।प्रत्येक वर्ष पौषशुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना विधिपूर्वक गरिने श्री स्वस्थानी व्रत एवं माघस्नान आजदेखि सुरु भएको छ।\nपौष शुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना स्वस्थानी व्रत र माघ स्नान गरिन्छ। पौषशुक्ल चतुर्दशीको दिन हात गोडाका नङ काटी स्नान गरी शुद्ध वस्त्र पहिरिएर यसको सुरुवात हुन्छ।\nबिहान माघ स्नान गरी नित्य मध्याह्नकालमा महादेवको पूजा गरिन्छ । बेलुकी स्कन्द पुराणको केदार खण्डअन्तर्गत माघ माहात्म्यको कुमार अगस्त्यबीच संवाद भएको स्वस्थानी व्रत कथा सुन्ने सुनाउने परम्परा छ।\nस्वस्थानी देवीको विधिपूर्वक व्रत गरेमा बिछोड भएका जोडीको पुनर्मिलन हुन्छ भन्ने धार्मिक विश्वास छ । रोग ब्याध लागेको भए ठीक हुने र पति वा पत्नीका रुपमा कसैलाई इच्छाएको भए प्राप्त हुने कथासमेत नेपाली समुदायमा प्रचलित छ।\nसत्य युगमा हिमालय पर्वतकी पुत्री पार्वतीले महादेवलाई पति पाऊँ भनी विष्णुको निर्देशानुसार स्वस्थानीको व्रत गरेको कथा स्वस्थानीमा वर्णन गरिएको छ । व्रतपछि बिछोडमा परेका नाग नागिनीको समेत पुनर्मिलन भएको कथामा उल्लेख छ।\nगोमा ब्राह्मणीले सप्तऋषिले सिकाएको व्रतविधिअनुसार व्रत गर्दा पुत्र वियोगबाट मुक्ति मिलेको र व्रतकै प्रभावले छोरा नवराज लावण्य देश अहिलेको साँखु क्षेत्रको राजा भएको कथासमेत स्वस्थानीमा वर्णन गरिएको साँखुको ऐतिहासिक, धार्मिक, पुरातात्विक, सांस्कृतिक र पर्यटकीय विषयमा अनुसन्धानरत इतिहासकार प्रकाश श्रेष्ठ 'सक्व' ले जानकारी दिए।\nयसैबीच आजदेखि काठमाडौंको साँखुमा रहेको शालिनदीमा माघस्नानसहित माधवनारायणको मेला सुरु भएको छ। प्राचीनकालदेखि लाग्दै आएको मेलामा यस वर्ष भने कोरोनाका कारण धेरै चहलपहल नहुने श्रेष्ठले बताए।\nव्रतालुका लागि साँखुमा रहेको शालिनदीमा सम्पूर्ण तयारी पूरा गरिएको श्री माधवनारायण स्वस्थानी व्रत तथा शालीनदी सुधार समितिका अध्यक्ष मीजेन्दकाजी श्रेष्ठले जानकारी दिए। यस वर्ष माघ १५ गतेदेखि फागुन १५ गतेसम्म शालीनदीमा मेला लाग्दै छ।\nविगत वर्षमा करिब ४०० ले माधवनारायण व्रत गर्ने गरेका थिए। यस वर्ष भने ४९ लाई मात्र स्वास्थ्य सुरक्षाका विधि अपनाएर सुरक्षितार्थ राख्ने समितिले जनाएको छ। महिला ३५ र पुरुष १४ गरी ४९ जना यसपटक व्रतमा सहभागी भएका छन्। विगत वर्षमा जस्तो मेला भने यसपटक नलाग्ने समितिले जनाएको छ।",
121
+ 'Kaum ääner von us glääwt haut noch an dat Märchen vonnem Herrgott, wo sein äänzijen Sunn óff de bockelisch Welt schéckt, fer de greilich Minschen von ihre "Schandtaten" zu erleesen, éndäm der sich an\'t Kreiz schlääen lisst. Dò hätt et fer e Gott doch anner Meechlichkääten génn. De anneren Religionen schiddeln iwwer so en Onverstand nur de Kopp…\nAwwer der Gedanken, et Bild vo Weihnachten éss trotzdem scheen. Mir, héij én Europa, wo mer (noch) Joareszeiten hann, hann de Herrgottsgeburt én de kalte Wénter verlaat, én e Schopp, én Stroh, bei\'t Véih – damét ma alles herrichten kónnten, die Hämlichkäät, wo ma fer so e Feschd brauch, fer all die dausend Krippcher, wo ma basteln ónn bewónnern móss. Heimat móss sénn, aach wenn se honnertmò nét stémmt. Kréschdbäämcher? Schnee? Rendiere mét rode Naasen? Iwwerall barmherzisch Minschen? Iwwerall Keeniche mét Geschenkern fer arm Eltern mét hongrisch Kénnern?\nRobert Antelme, e franseesicher Resistance-Kämpfer ónn KZ-Häftling én Buchenwald ónn Dachau, hat in seinem Buch "L\'espèce humaine" (Das Menschengeschlecht, 1947) iwwer Weihnachten 1944 in Gandersheim nur verzehlen kénnen, et hätt als "Sonderration" e béssjen Nachschlach an Hackflääsch génn, awwer nét dän Appel, wo innen versproch génn woar. Awwer an däm Daach brauchten se wenichdens nét schaffen ze gehn. An däm Owend hann se all óm de Bollerówen rom gesääß ónn von ihrem Hemm, von der Fraa, von de Kennern gedräämt. Von ihren Häälisch Famillen.\nGérard Carau lebt im moselfränkischen Beckingen.',
122
+ 'Quick Search\nCategories\nInformation\nThis is help page you can edit this in your admin area below is some example text Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce mattis magna eu risus dapibus vitae porta magna vulputate. Nullam facilisis, ligula eget vulputate molestie, purus nibh tincidunt dolor, eget convallis massa nibh a velit. Curabitur at urna a eros convallis venenatis. Donec erat arcu, consectetur quis tristique sed, rhoncus sit amet est. Nam semper pellentesque metus, ut pretium mi varius eu. Sed feugiat rutrum velit et sagittis. Donec nisl leo, vestibulum ut eleifend id, consequat at dolor. Nullam rhoncus luctus neque, nec eleifend ipsum suscipit at. Donec in lectus dignissim dui dignissim imperdiet quis non diam. Praesent lectus lorem, auctor sit amet adipiscing tempor, consequat non libero. Vestibulum vel rhoncus odio. Cras consequat dui sit amet lorem laoreet volutpat. Curabitur luctus fringilla egestas. Fusce lobortis purus id lacus viverra quis tincidunt leo sagittis. Nulla cursus laoreet libero ut malesuada. Integer faucibus ligula in nisl ultrices nec vulputate quam vestibulum. Suspendisse tortor nisl, convallis non condimentum sit amet, feugiat in velit. Aliquam erat volutpat.\nUt sed erat quis turpis vulputate placerat et et nibh. Aenean consequat diam libero, a adipiscing eros. Praesent congue urna blandit purus tristique a tincidunt leo malesuada. Vestibulum et justo urna. Donec luctus purus venenatis urna laoreet varius. Etiam sit amet urna molestie turpis imperdiet fringilla quis at tortor. Fusce nec mauris sapien. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed ac tincidunt lorem. Vestibulum vel orci et dolor laoreet laoreet. Vivamus ut nunc nunc, vel hendrerit velit. Nunc a libero at dui posuere molestie. Cras ullamcorper, ante vel dapibus commodo, magna nulla interdum mi, ac pellentesque lectus quam ac felis. Vestibulum lacus velit, bibendum eget tristique eu, venenatis in risus. Vestibulum sodales urna nec mauris consectetur pretium. Suspendisse sed justo non turpis suscipit ornare. Nulla in odio nunc, eget porttitor velit.',
123
+ 'Kesäyrittäjänä teet itse itsellesi kesätyön. Yrittäjyyden resepti on yksinkertainen: keksi, kokeile ja ole sinnikäs. 4H-yrittäjänä et ole yksin: yrityskurssi tai valmennus auttaa alkuun ja oma yritysohjaajasi tukee ja neuvoo matkan varrella.\nNurmikonleikkuu, seinien maalaus, jäätelönmyynti uimarannalla, kukkien kastelu, taimikonhoito, kahvin keittäminen ja leivonnaisten leipominen ja niiden myynti turisteille, rikkaruohojen kitkeminen, lemmikin ulkoiluttaminen. Kymmenen kilometrin säteellä sinusta on satoja tekemättömiä hommia, jotka odottavat yritteliästä ja oma-aloitteista tyyppiä. Olisiko joku niistä tuleva kesäduunisi?\n4H-yritys on valmis paketti nuorelle, joka haluaa tehdä itse ja kokeilla yrittäjyyttä. Olemme miettineet puolestasi tärkeät rajat, jotta sinä voit keskittyä itse tekemiseen. Tarvittaessa saat apua omalta yritysohjaajaltasi ja 4H-yhdistyksestäsi. Voitte perustaa 4H-yrityksen myös porukalla!\nKokeile reseptiämme: yritä, opi ja tienaa 4H-yrittäjänä jo ensi kesänä!',
124
+ ]
125
+ )
126
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
127
+ ```
128
+
129
+ <!--
130
+ ### Direct Usage (Transformers)
131
+
132
+ <details><summary>Click to see the direct usage in Transformers</summary>
133
+
134
+ </details>
135
+ -->
136
+
137
+ <!--
138
+ ### Downstream Usage (Sentence Transformers)
139
+
140
+ You can finetune this model on your own dataset.
141
+
142
+ <details><summary>Click to expand</summary>
143
+
144
+ </details>
145
+ -->
146
+
147
+ <!--
148
+ ### Out-of-Scope Use
149
+
150
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
151
+ -->
152
+
153
+ ## Evaluation
154
+
155
+ ### Metrics
156
+
157
+ #### Cross Encoder Classification
158
+
159
+ * Dataset: `fineweb_c_eval`
160
+ * Evaluated with [<code>CrossEncoderClassificationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderClassificationEvaluator)
161
+
162
+ | Metric | Value |
163
+ |:----------------------|:-----------|
164
+ | accuracy | 0.8369 |
165
+ | accuracy_threshold | 0.8086 |
166
+ | f1 | 0.2992 |
167
+ | f1_threshold | 0.3968 |
168
+ | precision | 0.1946 |
169
+ | recall | 0.6467 |
170
+ | **average_precision** | **0.2253** |
171
+
172
+ <!--
173
+ ## Bias, Risks and Limitations
174
+
175
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
176
+ -->
177
+
178
+ <!--
179
+ ### Recommendations
180
+
181
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
182
+ -->
183
+
184
+ ## Training Details
185
+
186
+ ### Training Dataset
187
+
188
+ #### Unnamed Dataset
189
+
190
+ * Size: 9,220 training samples
191
+ * Columns: <code>anchor</code>, <code>text</code>, and <code>label</code>
192
+ * Approximate statistics based on the first 100 samples:
193
+ | | anchor | text | label |
194
+ |:---------|:--------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
195
+ | type | string | string | float |
196
+ | modality | text | text | |
197
+ | details | <ul><li>min: 105 tokens</li><li>mean: 471.79 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 93 tokens</li><li>mean: 465.51 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.25</li><li>max: 1.0</li></ul> |
198
+ * Samples:
199
+ | anchor | text | label |
200
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
201
+ | <code>Bamwe mu bakoresha imbuga nkoranyambaga muri Uganda ubu bari gukwirakwiza ku bwinshi amafoto abagaragaza bicaye ku dutebe bigana uko wabo Yoweri Museveni, yagaragaye kuwa Kabiri na we yiyicariye ku muhanda avugira kuri telefoni.<br>Perezida Museveni yagaragaye ku muhanda uri mu gace ka Kyeirumba kari mu Karere ka Isingiro ariho avugira kuri telefoni ubwo yari akubutse mu birori byo kwizihiza umunsi mpuzamahanga w'imiturire.<br>Ikinyamakuru Chimpreports cyandikirwa muri Uganda, cyanditse ko icyo gihe Perezida Museveni yasabye abamurinda kumukurira mu modoka intebe igendanwa n'akameza maze yicara ku ruhande rw'umuhanda aho ngo yavugiye kuri telefoni hafi iminota 30.<br>— Thee Trend Setter ™ (@xtiandela) July 12, 2016<br>Ubu ikigezweho ku bakoresha imbuga nkoranyambaga zirimo Twitter, Facebook na Instagram muri Uganda ndetse no muri Kenya, ni uko nabo bari kwigaragaza ku mafoto bavugira kuri telefoni nabo bicaye ku dutebe ku mu handa nk'uko Perezida Museveni nawe yagaragaye, bari gukoresha hashtg ya ...</code> | <code>Mu bikorwa byose birangwa hagati y'abashakanye, kuryoherwa n'imibonano mpuzabitsina, igomba gukorwa byitondewe kuko uburyo ikozwemo ishobora gukomeza cyangwa igahungabanya urukundo hagati y'abakundana.<br>Kimwe mu byiza bituruka muri icyo gikorwa nk'uko ubushakashatsi bwabigaragaje, ni ibyishimo bisangiwe kuruta ibyishimo by'umwe, ariyo mpamvu niba wajyaga ukora imibonano ukumva ntacyo bikumariye, ukwiye kujya wita cyane kuri ibi bintu by'ingenzi tugiye kukugezaho kugirango ubashe kuryoherwa, usangire ibyishimo bibonerwa mu gutera akabariro hamwe n'umufasha wawe.<br>Nta rwitwazo rwo kudatera akabariro rukwiye kubarangwamo<br>Ugomba kureka no guhagarika impamvu zose zidafatika wifashisha urwanya ko mwatera akabariro, muri zo twavuga nko kwitwaza ko urwaye umutwe, umunaniro n'ibindi. Imibonano mpuzabitsina irwanya umunaniro, ikavura umutwe ndetse ikavura n'ububabare. Ikindi twavuga aha iyo wirinze urwitwazo rwose rudafatika rwatuma mudatera akabariro uba urinze umufasha wawe kuguca inyuma cyangwa...</code> | <code>1.0</code> |
202
+ | <code>Таке вимірювання в 1881 р провів американський фізик Альберт Майкельсон (1852-1931) за допомогоюсконструйованого ним приладу. Результат був вражаючим. До свого превеликий подив, ні в одному напрямку компаса він не виявив різниці в швидкості, з якою світло проходило певні відстані. Це було схоже на те, як якщо б пасажири автомобіля, що рухається не помічали дме їм в обличчя зустрічного вітру. Більшість фізиків відмовилися вірити результатам досвіду Майкельсона, втім, він і сам їм не дуже довіряв, оскільки використовуваний ним прилад не володів дуже високою точністю. Однак, не виявивши помилок у своєму досвіді, він намагався повторити його. Незабаром він познайомився з професором хімії одного американського університету Едвардом Морлі (1839-1923), і обидва дослідники приступили до спільних експериментів. У 1887 р вони провели знаменитий експеримент Майкельсона – Морлі, що став однією з поворотних точок фізики.<br>Прилад представляв собою систему дзеркал, що направляють світловий пучок в пев...</code> | <code>Сьогодні ми розберемо, які кольори і як впливають на зовнішнє сприйняття, а точніше, які відтінки повнять фігуру, а які навпаки приховують вагу і об'єм.<br>«Кольори народжують форму предмета», — сказав французький живописець Поль Сезанн і висловив усю суть. Наше око по-різному сприймає кольорову гамму, саме тому стилісти і модельєри ретельно обирають відтінки для своїх шедеврів.<br>Всі ми знаємо про те, що чорний колір візуально робить фігуру стрункішою, а білий — повнить. І це не просто думка пересічних людей, цьому є фізичне пояснення. Ефект залежить від того, чи поглинає колір світлові промені, чи відбиває. Наприклад, речі білого кольору відбивають максимальну кількість світлових променів, які розсіюються у різні боки, через що межа між білим і навколишніми кольорами розмивається, а предмети здаються візуально більшими. А ось чорний, навпаки, поглинає світло, тому його межі здаються чіткішими, а предмет виглядає меншим.<br>Підемо далі. Жовтий, червоний, помаранчевий вибірково відбивають хвил...</code> | <code>0.0</code> |
203
+ | <code>Dändändändänn-dändändändändädädän-dädäddädäädädäädä-dädäädää… Sehän on selvästi James Bondin tunnari jota tuossa tulkitsen. Se alkoi soida päässäni lukiessani juttua teknisistä ongelmista Iranissa sijaitsevissa Natanzin uraaninrikastuslaitoksessa sekä Bushehrin ydinvoimalassa.<br>Iranin ydinlaitokset ovat joutuneet vakavien cyber-iskujen kohteeksi kuluneen vuoden aikana. Syyllinen ongelmiin on huippumoderni Stuxnet-mato, joka turvallisuusasiantuntijoiden mukaan on liian hienostunut ollakseen energiajuomasta ja pizzasta voimansa saavien monniviiksisten teinien autotallissa kyhäämä. Viruksen suunnittelu ja toteutus on vaatinut kymmeniä ihmistyövuosia ja julkinen salaisuus onkin, että se on Israelin ja/tai Yhdysvaltain tiedustelupalveluiden luomus.<br>Stuxnetin tekee poikkeukselliseksi se, että se on kohdistettu erityisesti teollisuusjärjestelmiin ja Iranin tapauksessa uraanin väkevöimistä varten käytettyihin sentrifugeihin. Sentrifuugilla (ikään kuin turboahdettu vatkain) voidaan mm. erottaa e...</code> | <code>Uusi Fx -kaupankäynnin tuote, joka tunnetaan nimellä Immediate Advantage Review, about Forex -kaupankäyntitekniikan seuraava kehitys . Se on ohjelma, jonka ovat luoneet kaksi ammattimaista valuuttasijoittajaa, John Grace ja Albert Perrie. He ovat yhdistäneet markkina -analyysitietonsa uusimpaan teknologiaan luodakseen tuotteen, joka voi tehdä sinulle paljon rahaa. Instant Edge upon suunniteltu erityisesti kohdentamaan ja löytämään kannattavia kauppamahdollisuuksia. Näin voit saada lähes voiton.<br>Mikä tekee välittömästä reunanarvioinnista niin ainutlaatuisen , about sen alusta. Toisin kuin useimmat Forex -kauppajärjestelmät, tämä alusta upon suunniteltu erityisesti valuuttamarkkinoille sijoittamiseen. Tämän tuotteen luojat ymmärsivät , että monet ihmiset ovat hämmentyneitä osakemarkkinoiden ja valuutanvaihtoteollisuuden välisestä erosta, koska -sääntöjen ja määräysten välillä about suuria eroja. Siellä in monia erilaisia välityspalveluja, mutta vain harvat tarjoavat valuutanvaihtopalvelu...</code> | <code>0.0</code> |
204
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
205
+ ```json
206
+ {
207
+ "activation_fn": "torch.nn.modules.linear.Identity",
208
+ "pos_weight": 4.998698711395264
209
+ }
210
+ ```
211
+
212
+ ### Evaluation Dataset
213
+
214
+ #### Unnamed Dataset
215
+
216
+ * Size: 1,024 evaluation samples
217
+ * Columns: <code>anchor</code>, <code>text</code>, and <code>label</code>
218
+ * Approximate statistics based on the first 100 samples:
219
+ | | anchor | text | label |
220
+ |:---------|:--------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
221
+ | type | string | string | float |
222
+ | modality | text | text | |
223
+ | details | <ul><li>min: 104 tokens</li><li>mean: 453.09 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 113 tokens</li><li>mean: 462.8 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.12</li><li>max: 1.0</li></ul> |
224
+ * Samples:
225
+ | anchor | text | label |
226
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
227
+ | <code>Dadka reer Ukrain ayaa maanta codadkooda ka dhiibtay doorashada madaxtinimada, taasoo uu ku guuleystay nin majaajiliista ah oo aanan laheyn khibrad siyaasadeed.<br>Natiijooyinka hordhaca ah ayaa muujineya in Volodymyr Zelenskiy oo horay u jilay musalsal TV-ga laga daawaday oo uu ku matalay madaxweyne mala'awaal ah uu ka guuleysanayo madaxweynaha talada haya Petro Poroshenko.<br>Codadka doorashada wareegga labaad ee la tiriyey dadka codkooda dhiibtay 75% waxay codkooda siiyeen Mr Volodymyr Zelensky.</code> | <code>Pekka Toveri: Tilanne Ukrainassa on muuttunut<br>Presidentti Volodymyr Zelenskyi on komentanut armeijansa valtaamaan Venäjän miehittämät alueet takaisin. Jos operaatio käynnistyy, sota saavuttaa uuden virstanpylvään: Ukraina muokkaa sen kulkua.<br>Ukrainan armeija on saanut merkittävän määrän HIMARS-ohjusjärjestelmiä lännen aseapuna. Eilen Yhdysvallat ilmoitti toimittavansa niitä lisää.<br>Studiossa selvitettiin pitkän kantaman rakettien roolia Venäjän hyökkäyksen hyytymisessä.<br>ISTV:n Ukraina-studion asiantuntijavieras oli pääesikunnan ex-tiedustelupäällikkö Pekka Toveri. Toimittaja oli ISTV:n Antti Virolainen.<br>Tallenteen kenraalimajuri evp. Pekka Toverin studiohaastattelusta voi katsoa artikkelin yläosasta löytyvältä videolta.</code> | <code>0.0</code> |
228
+ | <code>कर तिर्नेको लहर<br>बागलुङ — पोखरा पुगेर मात्र तिर्नुपर्ने बाध्यता हटेपछि कहरले कर तिर्नेहरू रहरले तिर्न थालेका छन् । जिल्लामा गत भदौदेखि आन्तरिक राजश्व कार्यालय खुलेपछि कर तिर्नेको लहर चलेको हो ।<br>एकै वर्षमा करदाताको संख्या दोब्बर बढ्नुको साथै लक्ष्यको ४२ प्रतिशत बढी कर संकलन भएको छ । कार्यालय प्रमुख हेमराज सुवेदीका अनुसार बागलुङमा चालु वर्षको पहिलो चार महिनामा मात्र १२ हजार करदाता सूचिकृत भएका छन् । गत बर्षको भदौमा करदाता सेवा कार्यालयबाट बढुवा भएर आन्तरिक राजश्व कार्यालय बनेकोमा १८ हजार ३ सय संस्थागत करदाता छन् । त्यस्तै १९ हजार १ सय जना व्यक्तिगत प्यान नम्बर लिएर कर तिर्न लागेको उनले बताए ।<br>कर तिर्नेले पनि नजिकमा सेवा पाएको बताए । 'प्यान नम्बर लिन र कर तिर्न पोखरा जानु पर्थ्यो, अहिले यहीं सेवा पाईयो,' जैमिनी नगरपालिका–१ की पुष्पा आचार्यले भनिन्, 'गाउँका साना करदाता समूह मिलाएर सदरमुकाम आउने गरेको छन् ।' सेवाग्राहीमै जागरण आएपछि गत बर्ष ५१ करोड २४ लाख रुपैयाँ कर संकलन गर्ने लक्ष्य राखेको कार्यालयले ४२ प्रतिशत बढी संकलन गरेको थियो ।<br>गत वर्ष ६८ करोड १८ लाख कर संकलन भएको थियो । चालु बर्ष उक...</code> | <code>काठमाडौं, माघ १५ ।प्रत्येक वर्ष पौषशुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना विधिपूर्वक गरिने श्री स्वस्थानी व्रत एवं माघस्नान आजदेखि सुरु भएको छ।<br>पौष शुक्ल पूर्णिमादेखि माघशुक्ल पूर्णिमासम्म एक महिना स्वस्थानी व्रत र माघ स्नान गरिन्छ। पौषशुक्ल चतुर्दशीको दिन हात गोडाका नङ काटी स्नान गरी शुद्ध वस्त्र पहिरिएर यसको सुरुवात हुन्छ।<br>बिहान माघ स्नान गरी नित्य मध्याह्नकालमा महादेवको पूजा गरिन्छ । बेलुकी स्कन्द पुराणको केदार खण्डअन्तर्गत माघ माहात्म्यको कुमार अगस्त्यबीच संवाद भएको स्वस्थानी व्रत कथा सुन्ने सुनाउने परम्परा छ।<br>स्वस्थानी देवीको विधिपूर्वक व्रत गरेमा बिछोड भएका जोडीको पुनर्मिलन हुन्छ भन्ने धार्मिक विश्वास छ । रोग ब्याध लागेको भए ठीक हुने र पति वा पत्नीक�� रुपमा कसैलाई इच्छाएको भए प्राप्त हुने कथासमेत नेपाली समुदायमा प्रचलित छ।<br>सत्य युगमा हिमालय पर्वतकी पुत्री पार्वतीले महादेवलाई पति पाऊँ भनी विष्णुको निर्देशानुसार स्वस्थानीको व्रत गरेको कथा स्वस्थानीमा वर्णन गरिएको छ । व्रतपछि बिछोडमा परेका नाग नागिनीको समेत पुनर्मिलन भएको कथामा उल्लेख छ।<br>गोमा ब्राह्मणीले सप्तऋषिले सिकाएको ...</code> | <code>1.0</code> |
229
+ | <code>Antoine Henri Becquerel<br>Antoine Henri Becquerel (* 15. Dezember 1852 in Paris; † 25. August 1908 in Le Croisic, Département Loire-Atlantique) weer en franzöösch Physiker. He kreeg 1903 gemeensam mit Marie un Pierre Curie den Nobelpries för Physik för dat Opdecken van de Radioaktivität. Sien Vader weer Alexandre Edmond Becquerel, de Opdecker van den photoelektrischen Effekt.<br>Inholtsverteken<br>Leven un Wark[ännern \| Bornkood ännern]<br>Henri Becquerel hett 1872 bit 1874 an de École Polytechnique studeert. 1874 hett he Lucie Jamin heiraadt. Ut disse Verbinnen stammt as Söhn de Physiker Jean Becquerel. Van 1874 bit 1877 hett Becquerel sien Studium an de École des Ponts et Chaussées fortsett. Dornah fung sien akademische Karriere as Assistent an de École polytechnique an, van de he 1895 deren Lehrstohl för Physik kreeg. Nahdem sien Ehefru storven weer, hett he 1890 Louise Lorieux heiraadt. 1896 hett Becquerel mit de Phosphoreszenz van Uransolten experimenteert. Nahdem he up eenige in en dunkeln ...</code> | <code>Kaum ääner von us glääwt haut noch an dat Märchen vonnem Herrgott, wo sein äänzijen Sunn óff de bockelisch Welt schéckt, fer de greilich Minschen von ihre "Schandtaten" zu erleesen, éndäm der sich an't Kreiz schlääen lisst. Dò hätt et fer e Gott doch anner Meechlichkääten génn. De anneren Religionen schiddeln iwwer so en Onverstand nur de Kopp…<br>Awwer der Gedanken, et Bild vo Weihnachten éss trotzdem scheen. Mir, héij én Europa, wo mer (noch) Joareszeiten hann, hann de Herrgottsgeburt én de kalte Wénter verlaat, én e Schopp, én Stroh, bei't Véih – damét ma alles herrichten kónnten, die Hämlichkäät, wo ma fer so e Feschd brauch, fer all die dausend Krippcher, wo ma basteln ónn bewónnern móss. Heimat móss sénn, aach wenn se honnertmò nét stémmt. Kréschdbäämcher? Schnee? Rendiere mét rode Naasen? Iwwerall barmherzisch Minschen? Iwwerall Keeniche mét Geschenkern fer arm Eltern mét hongrisch Kénnern?<br>Robert Antelme, e franseesicher Resistance-Kämpfer ónn KZ-Häftling én Buchenwald ónn Dachau,...</code> | <code>0.0</code> |
230
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
231
+ ```json
232
+ {
233
+ "activation_fn": "torch.nn.modules.linear.Identity",
234
+ "pos_weight": 4.998698711395264
235
+ }
236
+ ```
237
+
238
+ ### Training Hyperparameters
239
+ #### Non-Default Hyperparameters
240
+
241
+ - `per_device_train_batch_size`: 32
242
+ - `num_train_epochs`: 2
243
+ - `learning_rate`: 2e-05
244
+ - `warmup_steps`: 0.1
245
+ - `weight_decay`: 0.01
246
+ - `bf16`: True
247
+ - `per_device_eval_batch_size`: 64
248
+ - `push_to_hub`: True
249
+ - `hub_model_id`: davanstrien/fineweb-c-quality-reranker-v2
250
+ - `load_best_model_at_end`: True
251
+ - `seed`: 12
252
+
253
+ #### All Hyperparameters
254
+ <details><summary>Click to expand</summary>
255
+
256
+ - `per_device_train_batch_size`: 32
257
+ - `num_train_epochs`: 2
258
+ - `max_steps`: -1
259
+ - `learning_rate`: 2e-05
260
+ - `lr_scheduler_type`: linear
261
+ - `lr_scheduler_kwargs`: None
262
+ - `warmup_steps`: 0.1
263
+ - `optim`: adamw_torch_fused
264
+ - `optim_args`: None
265
+ - `weight_decay`: 0.01
266
+ - `adam_beta1`: 0.9
267
+ - `adam_beta2`: 0.999
268
+ - `adam_epsilon`: 1e-08
269
+ - `optim_target_modules`: None
270
+ - `gradient_accumulation_steps`: 1
271
+ - `average_tokens_across_devices`: True
272
+ - `max_grad_norm`: 1.0
273
+ - `label_smoothing_factor`: 0.0
274
+ - `bf16`: True
275
+ - `fp16`: False
276
+ - `bf16_full_eval`: False
277
+ - `fp16_full_eval`: False
278
+ - `tf32`: None
279
+ - `gradient_checkpointing`: False
280
+ - `gradient_checkpointing_kwargs`: None
281
+ - `torch_compile`: False
282
+ - `torch_compile_backend`: None
283
+ - `torch_compile_mode`: None
284
+ - `use_liger_kernel`: False
285
+ - `liger_kernel_config`: None
286
+ - `use_cache`: False
287
+ - `neftune_noise_alpha`: None
288
+ - `torch_empty_cache_steps`: None
289
+ - `auto_find_batch_size`: False
290
+ - `log_on_each_node`: True
291
+ - `logging_nan_inf_filter`: True
292
+ - `include_num_input_tokens_seen`: no
293
+ - `log_level`: passive
294
+ - `log_level_replica`: warning
295
+ - `disable_tqdm`: False
296
+ - `project`: huggingface
297
+ - `trackio_space_id`: None
298
+ - `trackio_bucket_id`: None
299
+ - `trackio_static_space_id`: None
300
+ - `per_device_eval_batch_size`: 64
301
+ - `prediction_loss_only`: True
302
+ - `eval_on_start`: False
303
+ - `eval_do_concat_batches`: True
304
+ - `eval_use_gather_object`: False
305
+ - `eval_accumulation_steps`: None
306
+ - `include_for_metrics`: []
307
+ - `batch_eval_metrics`: False
308
+ - `save_only_model`: False
309
+ - `save_on_each_node`: False
310
+ - `enable_jit_checkpoint`: False
311
+ - `push_to_hub`: True
312
+ - `hub_private_repo`: None
313
+ - `hub_model_id`: davanstrien/fineweb-c-quality-reranker-v2
314
+ - `hub_strategy`: every_save
315
+ - `hub_always_push`: False
316
+ - `hub_revision`: None
317
+ - `load_best_model_at_end`: True
318
+ - `ignore_data_skip`: False
319
+ - `restore_callback_states_from_checkpoint`: False
320
+ - `full_determinism`: False
321
+ - `seed`: 12
322
+ - `data_seed`: None
323
+ - `use_cpu`: False
324
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
325
+ - `parallelism_config`: None
326
+ - `dataloader_drop_last`: False
327
+ - `dataloader_num_workers`: 0
328
+ - `dataloader_pin_memory`: True
329
+ - `dataloader_persistent_workers`: False
330
+ - `dataloader_prefetch_factor`: None
331
+ - `remove_unused_columns`: True
332
+ - `label_names`: None
333
+ - `train_sampling_strategy`: random
334
+ - `length_column_name`: length
335
+ - `ddp_find_unused_parameters`: None
336
+ - `ddp_bucket_cap_mb`: None
337
+ - `ddp_broadcast_buffers`: False
338
+ - `ddp_static_graph`: None
339
+ - `ddp_backend`: None
340
+ - `ddp_timeout`: 1800
341
+ - `fsdp`: []
342
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
343
+ - `deepspeed`: None
344
+ - `debug`: []
345
+ - `skip_memory_metrics`: True
346
+ - `do_predict`: False
347
+ - `resume_from_checkpoint`: None
348
+ - `warmup_ratio`: None
349
+ - `local_rank`: -1
350
+ - `prompts`: None
351
+ - `batch_sampler`: batch_sampler
352
+ - `multi_dataset_batch_sampler`: proportional
353
+ - `router_mapping`: {}
354
+ - `learning_rate_mapping`: {}
355
+
356
+ </details>
357
+
358
+ ### Training Logs
359
+ | Epoch | Step | Training Loss | Validation Loss | fineweb_c_eval_average_precision |
360
+ |:------:|:----:|:-------------:|:---------------:|:--------------------------------:|
361
+ | -1 | -1 | - | - | 0.1716 |
362
+ | 0.0035 | 1 | 1.2347 | - | - |
363
+ | 0.0208 | 6 | 1.5453 | - | - |
364
+ | 0.0415 | 12 | 1.1330 | - | - |
365
+ | 0.0623 | 18 | 1.3512 | - | - |
366
+ | 0.0830 | 24 | 1.3640 | - | - |
367
+ | 0.1038 | 30 | 1.3142 | - | - |
368
+ | 0.1246 | 36 | 1.2629 | - | - |
369
+ | 0.1453 | 42 | 1.1353 | - | - |
370
+ | 0.1661 | 48 | 1.3934 | - | - |
371
+ | 0.1869 | 54 | 1.1783 | - | - |
372
+ | 0.2007 | 58 | - | 1.1506 | 0.2253 |
373
+
374
+
375
+ ### Training Time
376
+ - **Training**: 57.3 seconds
377
+ - **Evaluation**: 20.6 seconds
378
+ - **Total**: 1.3 minutes
379
+
380
+ ### Framework Versions
381
+ - Python: 3.12.12
382
+ - Sentence Transformers: 5.5.0
383
+ - Transformers: 5.8.1
384
+ - PyTorch: 2.12.0+cu130
385
+ - Accelerate: 1.13.0
386
+ - Datasets: 4.8.5
387
+ - Tokenizers: 0.22.2
388
+
389
+ ## Additional Resources
390
+
391
+ - [Training and Finetuning Reranker Models with Sentence Transformers](https://huggingface.co/blog/train-reranker): the end-to-end guide for training or finetuning Cross Encoder (reranker) models.
392
+ - [Multimodal Embedding & Reranker Models with Sentence Transformers](https://huggingface.co/blog/multimodal-sentence-transformers): use text, image, audio, and video reranker models through the same API.
393
+ - [Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers](https://huggingface.co/blog/train-multimodal-sentence-transformers): training multimodal Cross Encoders.
394
+
395
+ ## Citation
396
+
397
+ ### BibTeX
398
+
399
+ #### Sentence Transformers
400
+ ```bibtex
401
+ @inproceedings{reimers-2019-sentence-bert,
402
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
403
+ author = "Reimers, Nils and Gurevych, Iryna",
404
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
405
+ month = "11",
406
+ year = "2019",
407
+ publisher = "Association for Computational Linguistics",
408
+ url = "https://arxiv.org/abs/1908.10084",
409
+ }
410
+ ```
411
+
412
+ <!--
413
+ ## Glossary
414
+
415
+ *Clearly define terms in order to be accessible across audiences.*
416
+ -->
417
+
418
+ <!--
419
+ ## Model Card Authors
420
+
421
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
422
+ -->
423
+
424
+ <!--
425
+ ## Model Card Contact
426
+
427
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
428
+ -->
config.json ADDED
@@ -0,0 +1,85 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertForSequenceClassification"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 2,
8
+ "classifier_activation": "gelu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 1,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 1,
18
+ "global_attn_every_n_layers": 3,
19
+ "gradient_checkpointing": false,
20
+ "hidden_activation": "gelu",
21
+ "hidden_size": 768,
22
+ "id2label": {
23
+ "0": "LABEL_0"
24
+ },
25
+ "initializer_cutoff_factor": 2.0,
26
+ "initializer_range": 0.02,
27
+ "intermediate_size": 1152,
28
+ "label2id": {
29
+ "LABEL_0": 0
30
+ },
31
+ "layer_norm_eps": 1e-05,
32
+ "layer_types": [
33
+ "full_attention",
34
+ "sliding_attention",
35
+ "sliding_attention",
36
+ "full_attention",
37
+ "sliding_attention",
38
+ "sliding_attention",
39
+ "full_attention",
40
+ "sliding_attention",
41
+ "sliding_attention",
42
+ "full_attention",
43
+ "sliding_attention",
44
+ "sliding_attention",
45
+ "full_attention",
46
+ "sliding_attention",
47
+ "sliding_attention",
48
+ "full_attention",
49
+ "sliding_attention",
50
+ "sliding_attention",
51
+ "full_attention",
52
+ "sliding_attention",
53
+ "sliding_attention",
54
+ "full_attention"
55
+ ],
56
+ "local_attention": 128,
57
+ "mask_token_id": 4,
58
+ "max_position_embeddings": 8192,
59
+ "mlp_bias": false,
60
+ "mlp_dropout": 0.0,
61
+ "model_type": "modernbert",
62
+ "norm_bias": false,
63
+ "norm_eps": 1e-05,
64
+ "num_attention_heads": 12,
65
+ "num_hidden_layers": 22,
66
+ "pad_token_id": 0,
67
+ "position_embedding_type": "sans_pos",
68
+ "rope_parameters": {
69
+ "full_attention": {
70
+ "rope_theta": 160000,
71
+ "rope_type": "default"
72
+ },
73
+ "sliding_attention": {
74
+ "rope_theta": 160000,
75
+ "rope_type": "default"
76
+ }
77
+ },
78
+ "sep_token_id": 1,
79
+ "sparse_pred_ignore_index": -100,
80
+ "sparse_prediction": false,
81
+ "tie_word_embeddings": true,
82
+ "transformers_version": "5.8.1",
83
+ "use_cache": false,
84
+ "vocab_size": 256000
85
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "pytorch": "2.12.0+cu130",
4
+ "sentence_transformers": "5.5.0",
5
+ "transformers": "5.8.1"
6
+ },
7
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
8
+ "default_prompt_name": null,
9
+ "model_type": "CrossEncoder",
10
+ "prompts": {}
11
+ }
eval/CrossEncoderClassificationEvaluator_fineweb_c_eval_results.csv ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ epoch,steps,Accuracy,Accuracy_Threshold,F1,F1_Threshold,Precision,Recall,Average_Precision
2
+ 0.20069204152249134,58,0.8369140625,0.8085842,0.29916897506925205,0.39676917,0.1945945945945946,0.6467065868263473,0.22527425150874691
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1da53abc763ad0bb28a0f22a87a51d748a582a6647f6d6efd768188b4dd08c3e
3
+ size 1230138348
modules.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.base.modules.transformer.Transformer"
7
+ }
8
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "transformer_task": "sequence-classification",
3
+ "modality_config": {
4
+ "text": {
5
+ "method": "forward",
6
+ "method_output_name": "logits"
7
+ }
8
+ },
9
+ "module_output_name": "scores"
10
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:17f7d8b9518c403d7429ad9eeeabb6eed49c8d3311de8ef4ed5ad811381a2ced
3
+ size 34363441
tokenizer_config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "backend": "tokenizers",
3
+ "bos_token": "<bos>",
4
+ "clean_up_tokenization_spaces": false,
5
+ "cls_token": "<bos>",
6
+ "eos_token": "<eos>",
7
+ "extra_special_tokens": [
8
+ "<start_of_turn>",
9
+ "<end_of_turn>"
10
+ ],
11
+ "is_local": false,
12
+ "local_files_only": false,
13
+ "mask_token": "<mask>",
14
+ "model_input_names": [
15
+ "input_ids",
16
+ "attention_mask"
17
+ ],
18
+ "model_max_length": 512,
19
+ "pad_token": "<pad>",
20
+ "padding_side": "right",
21
+ "sep_token": "<eos>",
22
+ "spaces_between_special_tokens": false,
23
+ "tokenizer_class": "TokenizersBackend",
24
+ "unk_token": "<unk>"
25
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f287bce3d837ae0035731d003fc6433d47aa6bd64fdb6d910daaa4681a50ac49
3
+ size 5713