tinycompany
/

ShawtyIsBad-ib

@@ -45,6 +45,65 @@ Evaluated the tokenizer's performance on:
 | **Hindi**    | 49                  | 14              | 9.07                 | 0.928               |
 | **English**  | 65                  | 16              | 4.06                 | 0.937               |
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650a93c23449d9a49c356aab/QDI1ZPXPzQNARatnQkLmU.png)

 | **Hindi**    | 49                  | 14              | 9.07                 | 0.928               |
 | **English**  | 65                  | 16              | 4.06                 | 0.937               |
+### 4. Encoding-Decoding Capabilities
+```
+Hindi Analysis:
+Original Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
+Token IDs Count: 14
+Token Strings: ['à¤¨à¤®', 'à¤¸à¥įà¤¤à¥ĩ', ',', 'Ġà¤®à¥Īà¤Ĥ', 'Ġà¤Ńà¤¾à¤°à¤¤', 'Ġà¤¸à¥ĩ', 'Ġà¤¹à¥Ĥà¤ģ', 'à¥¤', 'Ġà¤¦à¤¿à¤²à¥įà¤²à¥Ģ', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¬à¤¡à¤¼à¤¾', 'Ġà¤¶à¤¹à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
+Decoded Text: नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।
+Text Reconstruction: True
+Hindi Analysis:
+Original Text: हिंदी भाषा बहुत सुंदर है।
+Token IDs Count: 7
+Token Strings: ['à¤¹', 'à¤¿à¤Ĥà¤¦à¥Ģ', 'Ġà¤Ńà¤¾à¤·à¤¾', 'Ġà¤¬à¤¹à¥ģà¤¤', 'Ġà¤¸à¥ģà¤Ĥà¤¦à¤°', 'Ġà¤¹à¥Ī', 'à¥¤']
+Decoded Text: हिंदी भाषा बहुत सुंदर है।
+Text Reconstruction: True
+Hindi Analysis:
+Original Text: मुझे किताबें पढ़ना पसंद है।
+Token IDs Count: 7
+Token Strings: ['à¤®', 'à¥ģà¤Ŀà¥ĩ', 'Ġà¤ķà¤¿à¤¤à¤¾à¤¬à¥ĩà¤Ĥ', 'Ġà¤ªà¤¢à¤¼à¤¨à¤¾', 'Ġà¤ªà¤¸à¤Ĥà¤¦', 'Ġà¤¹à¥Ī', 'à¥¤']
+Decoded Text: मुझे किताबें पढ़ना पसंद है।
+Text Reconstruction: True
+Hindi Analysis:
+Original Text: यह एक उदाहरण वाक्य है।
+Token IDs Count: 6
+Token Strings: ['à¤¯à¤¹', 'Ġà¤ıà¤ķ', 'Ġà¤īà¤¦à¤¾à¤¹à¤°à¤£', 'Ġà¤µà¤¾à¤ķà¥įà¤¯', 'Ġà¤¹à¥Ī', 'à¥¤']
+Decoded Text: यह एक उदाहरण वाक्य है।
+Text Reconstruction: True
+English Analysis:
+Original Text: Hello, I am from India. Delhi is a big city.
+Token IDs Count: 13
+Token Strings: ['Hello', ',', 'ĠI', 'Ġam', 'Ġfrom', 'ĠIndia', '.', 'ĠDelhi', 'Ġis', 'Ġa', 'Ġbig', 'Ġcity', '.']
+Decoded Text: Hello, I am from India. Delhi is a big city.
+Text Reconstruction: True
+English Analysis:
+Original Text: The English language is widely spoken.
+Token IDs Count: 7
+Token Strings: ['The', 'ĠEnglish', 'Ġlanguage', 'Ġis', 'Ġwidely', 'Ġspoken', '.']
+Decoded Text: The English language is widely spoken.
+Text Reconstruction: True
+English Analysis:
+Original Text: I enjoy reading books.
+Token IDs Count: 5
+Token Strings: ['I', 'Ġenjoy', 'Ġreading', 'Ġbooks', '.']
+Decoded Text: I enjoy reading books.
+Text Reconstruction: True
+English Analysis:
+Original Text: This is an example sentence.
+Token IDs Count: 6
+Token Strings: ['This', 'Ġis', 'Ġan', 'Ġexample', 'Ġsentence', '.']
+Decoded Text: This is an example sentence.
+Text Reconstruction: True
+```
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650a93c23449d9a49c356aab/QDI1ZPXPzQNARatnQkLmU.png)