Upload tokenizer_parakeet_48k_261k/tokenizer_full_stats.json with huggingface_hub

Browse files

Files changed (1) hide show

tokenizer_parakeet_48k_261k/tokenizer_full_stats.json +86 -0

tokenizer_parakeet_48k_261k/tokenizer_full_stats.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "en": {
+    "tokens": 453320060.0,
+    "words": 349957279.0,
+    "lines": 16916959.0,
+    "tokens_per_word": 1.2953582828605774,
+    "avg_tokens_per_line": 26.796781856597278
+  },
+  "hi": {
+    "tokens": 280684874.0,
+    "words": 210299384.0,
+    "lines": 10398436.0,
+    "tokens_per_word": 1.3346918505476935,
+    "avg_tokens_per_line": 26.992989522655137
+  },
+  "te": {
+    "tokens": 209728016.0,
+    "words": 119466611.0,
+    "lines": 8520112.0,
+    "tokens_per_word": 1.7555366662238372,
+    "avg_tokens_per_line": 24.61564073336125
+  },
+  "ml": {
+    "tokens": 151621954.0,
+    "words": 77461860.0,
+    "lines": 5431191.0,
+    "tokens_per_word": 1.9573755910328,
+    "avg_tokens_per_line": 27.916888579318975
+  },
+  "pa": {
+    "tokens": 149498418.0,
+    "words": 108515094.0,
+    "lines": 5036773.0,
+    "tokens_per_word": 1.377673948289627,
+    "avg_tokens_per_line": 29.68138885750857
+  },
+  "ta": {
+    "tokens": 132895268.0,
+    "words": 72855361.0,
+    "lines": 4533355.0,
+    "tokens_per_word": 1.8240973097367537,
+    "avg_tokens_per_line": 29.314992538638602
+  },
+  "kn": {
+    "tokens": 86369605.0,
+    "words": 45502553.0,
+    "lines": 2988443.0,
+    "tokens_per_word": 1.8981265732496373,
+    "avg_tokens_per_line": 28.90120541030898
+  },
+  "gu": {
+    "tokens": 75126588.0,
+    "words": 44453889.0,
+    "lines": 2626542.0,
+    "tokens_per_word": 1.6899891030906204,
+    "avg_tokens_per_line": 28.602850439855903
+  },
+  "bn": {
+    "tokens": 66371126.0,
+    "words": 39086017.0,
+    "lines": 2441433.0,
+    "tokens_per_word": 1.6980785225570567,
+    "avg_tokens_per_line": 27.18531534553682
+  },
+  "mr": {
+    "tokens": 61685551.0,
+    "words": 38015683.0,
+    "lines": 2256325.0,
+    "tokens_per_word": 1.6226342954301256,
+    "avg_tokens_per_line": 27.338947625009695
+  },
+  "or": {
+    "tokens": 38244695.0,
+    "words": 19515379.0,
+    "lines": 1241428.0,
+    "tokens_per_word": 1.9597208437509719,
+    "avg_tokens_per_line": 30.807018208063617
+  },
+  "as": {
+    "tokens": 23542984.0,
+    "words": 12977320.0,
+    "lines": 785702.0,
+    "tokens_per_word": 1.8141637872842775,
+    "avg_tokens_per_line": 29.96426635034657
+  }
+}