模型訓練時是否是將文字全部轉為繁體？

by orina1123 - opened Mar 3

Mar 3

感謝分享這個模型！
想請問這個模型的訓練資料中，類型為「簡體中文」的文字，是否是用OpenCC轉為繁體之後才輸入模型？如果是的話，使用的config是哪一個？
https://github.com/BYVoid/OpenCC/tree/master/data/config

Owner Mar 3

感謝提問～
沒錯！當時關注的問題會是“想要找出字體是繁體，但是字詞語意是大陸用語（ex.軟件...）"
當時為了保留訓練資料中完整“大陸用語”我們使用的是 s2t 僅做基本自行轉換

renhehuang changed discussion status to closed Mar 16

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment