--- title: SHAD Homework emoji: 🚀 colorFrom: red colorTo: red sdk: docker app_port: 8501 tags: - streamlit pinned: false short_description: Задание шад Моисейкин Андрей license: mit --- Реализация задания из ноутбука через `streamlit` и `finetune` модели `distilbert/distilbert-base-cased` для классификации научный статей ## Что за файлики - `train_distilbert.py` - на датасете архива `arxivData.json` из кагле. - `app.py` - веб-интерфейс на streamlit, который загружает уже обученный чекпонинт - `paper_classifier.py` - общие константы, примеры Используются поля: - `title` - `summary` - `tag` ## Обучение ```bash conda activate main pip install -r requirements.txt python train_distilbert.py ``` По умолчанию checkpoint будет сохранён в `artifacts/distilbert-arxiv`. ## Запуск streamlit После обучения: ```bash conda activate main streamlit run app.py --server.port 8080 ``` После запуска откройте `http://localhost:8080`. ## Как работает инференс - модель читает `title` и `abstract` - если `abstract` пустой, используется только название статьи - сервис показывает только те классы, которые суммарно набирают `95%` вероятности по категориям, иначе гг.