Spaces:
Sleeping
Sleeping
metadata
title: SHAD Homework
emoji: 🚀
colorFrom: red
colorTo: red
sdk: docker
app_port: 8501
tags:
- streamlit
pinned: false
short_description: Задание шад Моисейкин Андрей
license: mit
Реализация задания из ноутбука через streamlit и finetune модели
distilbert/distilbert-base-cased для классификации научный статей
Что за файлики
train_distilbert.py- на датасете архиваarxivData.jsonиз кагле.app.py- веб-интерфейс на streamlit, который загружает уже обученный чекпонинтpaper_classifier.py- общие константы, примеры
Используются поля:
titlesummarytag
Обучение
conda activate main
pip install -r requirements.txt
python train_distilbert.py
По умолчанию checkpoint будет сохранён в artifacts/distilbert-arxiv.
Запуск streamlit
После обучения:
conda activate main
streamlit run app.py --server.port 8080
После запуска откройте http://localhost:8080.
Как работает инференс
- модель читает
titleиabstract - если
abstractпустой, используется только название статьи - сервис показывает только те классы, которые суммарно набирают
95%вероятности по категориям, иначе гг.