Dieses Repository beinhaltet einen State-of-the-Art-Classifier zur Unterscheidung von Texten in Leichter Sprache und komplexem Deutsch. Dem Classifier gelingt hierbei sogar eine sichere Unterscheidung zwischen Texten in Leichter und Einfacher Sprache. Ausgegebene Labels sind yes und no, wobei ein yes signalisiert, dass der vorliegende Text hohe Übereinstimmungen mit tatsächlichen, geprüften Texten in Leichter Sprache hat.

Er wurde auf über 17.000 Beispielen und 4.000.000 Tokens an reinem, aufgearbeitetem Text trainiert. Es kam keine synthetische Datengenerierung, sondern ein pures Training auf von menschlichen Prüfer:innen als lesbar bewerteten Texten in Leichter Sprache zum Einsatz.

Der Classifier wird kostenfrei online angeboten werden, um bereits erste Proben mit ihm durchzuführen.

In späteren Iterationen des Projekts ist ein Training von Jacob 24b mittels RLHF und diesem Modell als "reward predictor" geplant.

Downloads last month: 333

Safetensors

Model size

0.1B params

Tensor type

BF16

Model tree for jacob-ml/reward-predictor

Base model

distilbert/distilbert-base-multilingual-cased

Finetuned

(433)

this model