模型訓練時是否是將文字全部轉為繁體?

#3
by orina1123 - opened

感謝分享這個模型!
想請問這個模型的訓練資料中,類型為「簡體中文」的文字,是否是用OpenCC轉為繁體之後才輸入模型?如果是的話,使用的config是哪一個?
https://github.com/BYVoid/OpenCC/tree/master/data/config

感謝提問~
沒錯!當時關注的問題會是“想要找出字體是繁體,但是字詞語意是大陸用語(ex.軟件...)"
當時為了保留訓練資料中完整“大陸用語”我們使用的是 s2t 僅做基本自行轉換

renhehuang changed discussion status to closed

Sign up or log in to comment