Spaces:

greeta
/

scraper

Sleeping

App Files Files Community

greeta commited on Mar 10

Commit

3b50f03

verified ·

1 Parent(s): 37957c3

Upload 15 files

Browse files

Files changed (15) hide show

.env.example +13 -0
.gitignore +66 -0
Dockerfile +34 -0
FIXES.md +69 -0
README.md +417 -0
app.py +322 -0
hf_spaces_config.yaml +18 -0
models.py +80 -0
requirements.txt +12 -0
rubert_client.py +136 -0
schema.sql +85 -0
scraper.cpython-314.pyc +0 -0
scraper.py +218 -0
supabase_client.py +191 -0
test_scraper.py +75 -0

.env.example ADDED Viewed

	@@ -0,0 +1,13 @@

+# Supabase (обязательно)
+SUPABASE_URL=https://your-project.supabase.co
+SUPABASE_SERVICE_KEY=your-service-role-key
+# RuBERT API (опционально)
+RUBERT_URL=https://your-rubert.hf.space
+# Настройки скрапера
+FIPI_BASE_URL=https://fipi.ru
+SCRAPER_INTERVAL_HOURS=24
+# Hugging Face (опционально)
+HF_TOKEN=hf_your-token

.gitignore ADDED Viewed

	@@ -0,0 +1,66 @@

+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+# Virtual environments
+venv/
+env/
+ENV/
+.venv
+# IDE
+.vscode/
+.idea/
+*.swp
+*.swo
+*~
+# Environment variables
+.env
+.env.local
+# Logs
+*.log
+logs/
+# Database
+*.db
+*.sqlite
+*.sqlite3
+# Testing
+.pytest_cache/
+.coverage
+htmlcov/
+.tox/
+# Jupyter Notebook
+.ipynb_checkpoints
+# Machine Learning
+*.h5
+*.pkl
+*.pth
+*.onnx
+# OS
+.DS_Store
+Thumbs.db

Dockerfile ADDED Viewed

	@@ -0,0 +1,34 @@

+FROM python:3.11-slim
+# Установка рабочих переменных
+ENV PYTHONDONTWRITEBYTECODE=1 \
+    PYTHONUNBUFFERED=1 \
+    PIP_NO_CACHE_DIR=1 \
+    PIP_DISABLE_PIP_VERSION_CHECK=1
+# Установка рабочей директории
+WORKDIR /app
+# Установка системных зависимостей
+RUN apt-get update && apt-get install -y \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+# Копирование зависимостей
+COPY requirements.txt .
+# Установка Python зависимостей
+RUN pip install --no-cache-dir -r requirements.txt
+# Копирование исходного кода
+COPY . .
+# Экспозиция порта
+EXPOSE 7860
+# Переменные окружения по умолчанию
+ENV PORT=7860
+ENV HOST=0.0.0.0
+# Запуск приложения
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

FIXES.md ADDED Viewed

	@@ -0,0 +1,69 @@

+# Исправления скрапера ФИПИ
+## Найденные проблемы
+1. **Неверные URL-адреса** - скрапер использовал несуществующие адреса:
+   - ❌ `/oge/demo/oge-russian` → 404
+   - ❌ `/ege/demo/ege-russian` → 404
+   - ✅ Исправлено на: `/ege/otkrytyy-bank-zadaniy-ege`, `/oge/otkrytyy-bank-zadaniy-oge`
+2. **SSL ошибки для поддоменов** - `ege.fipi.ru` и `oge.fipi.ru` требовали отключения проверки SSL
+3. **Парсинг заголовков** - заголовки не извлекались из-за неправильного селектора
+## Внесенные исправления
+### 1. Обновлены URL-адреса в `scrape_tasks()`
+```python
+urls_to_scrape = [
+    "https://fipi.ru/ege/otkrytyy-bank-zadaniy-ege",
+    "https://fipi.ru/oge/otkrytyy-bank-zadaniy-oge",
+]
+```
+### 2. Отключена проверка SSL в `fetch_page()`
+```python
+ssl_context = ssl.create_default_context()
+ssl_context.check_hostname = False
+ssl_context.verify_mode = ssl.CERT_NONE
+```
+### 3. Улучшен парсинг в `parse_task_page()`
+- Добавлен селектор `.content h1` для заголовков
+- Добавлено извлечение из `<title>` если h1 пустой
+- Добавлено извлечение ссылок на задания
+- Очистка от скриптов, стилей, nav, header, footer
+### 4. Добавлено скачивание вложенных заданий
+Теперь скрапер переходит по найденным ссылкам и скачивает дополнительные задания.
+## Результат
+| До исправления | После исправления |
+|----------------|-------------------|
+| 0 заданий      | 12 заданий        |
+| 404 ошибки     | 200 OK            |
+| "Без названия" | Правильные заголовки |
+## Запуск теста
+```bash
+cd ai-scraper
+python test_scraper.py
+```
+## Использование
+```python
+from scraper import FIPIScraper
+import asyncio
+async def main():
+    scraper = FIPIScraper()
+    tasks = await scraper.scrape_tasks(subject="russian")
+    print(f"Найдено заданий: {len(tasks)}")
+    for task in tasks:
+        print(f"- {task['title']}: {task['source_url']}")
+asyncio.run(main())
+```

README.md ADDED Viewed

	@@ -0,0 +1,417 @@

+# 🕷️ AI Scraper ФИПИ
+Сервис для автоматического сбора заданий с сайта ФИПИ (fipi.ru) с использованием AI-анализа на основе **ruBERT**.
+---
+## ✨ Возможности
+- 🕷️ **Автоматический парсинг** заданий с сайта ФИПИ
+- 🧠 **AI-классификация** заданий через ruBERT
+- 💾 **Сохранение в Supabase** с автоматическим обновлением
+- 🚀 **Деплой на Hugging Face Spaces**
+- 📊 **REST API** для доступа к заданиям
+- 🔍 **Поиск** по заданиям
+- 📈 **Статистика** и аналитика
+---
+## 📁 Структура
+```
+ai-scraper/
+├── app.py                 # Основное FastAPI приложение
+├── scraper.py             # Парсер сайта ФИПИ
+├── rubert_client.py       # Клиент для ruBERT API
+├── supabase_client.py     # Интеграция с Supabase
+├── models.py              # Pydantic модели
+├── requirements.txt       # Python зависимости
+├── schema.sql             # SQL схема для Supabase
+├── Dockerfile             # Docker конфигурация
+├── hf_spaces_config.yaml  # Конфиг для Hugging Face
+├── .env.example           # Шаблон переменных окружения
+└── README.md              # Документация
+```
+---
+## 🚀 Быстрый старт
+### 1. Локальная разработка
+```bash
+cd ai-scraper
+# Создайте виртуальное окружение
+python -m venv venv
+# Активируйте
+venv\Scripts\activate  # Windows
+source venv/bin/activate  # Linux/Mac
+# Установите зависимости
+pip install -r requirements.txt
+# Скопируйте .env.example в .env (опционально)
+cp .env.example .env
+# Заполните .env своими ключами
+# ИЛИ настройте переменные окружения в вашей системе
+# Запустите сервер
+uvicorn app:app --reload --host 0.0.0.0 --port 8000
+```
+Откройте http://localhost:8000/docs для Swagger UI.
+---
+## ⚙️ Переменные окружения
+### Для локальной разработки
+Скопируйте `.env.example` в `.env` и заполните своими значениями:
+```env
+SUPABASE_URL=https://your-project.supabase.co
+SUPABASE_SERVICE_KEY=your-service-role-key
+RUBERT_URL=https://your-rubert.hf.space
+FIPI_BASE_URL=https://fipi.ru
+```
+### Для Hugging Face Spaces
+**Не нужно загружать `.env` файл!** Настройте переменные через интерфейс:
+1. Откройте ваш Space
+2. Перейдите в **Settings** → **Secrets**
+3. Добавьте переменные:
+   - `SUPABASE_URL`
+   - `SUPABASE_SERVICE_KEY`
+   - `RUBERT_URL` (опционально)
+   - `FIPI_BASE_URL` (опционально)
+---
+## 🗄️ Настройка Supabase
+### 1. Создайте проект
+Перейдите на [Supabase](https://supabase.com) и создайте новый проект.
+### 2. Выполните SQL скрипт
+1. Откройте [SQL Editor](https://supabase.com/dashboard/project/_/sql/new)
+2. Скопируйте содержимое `schema.sql`
+3. Нажмите **Run**
+### 3. Получите ключи
+1. Перейдите в **Settings** → **API**
+2. Скопируйте:
+   - **Project URL** → `SUPABASE_URL`
+   - **service_role key** → `SUPABASE_SERVICE_KEY`
+---
+## 🧠 Настройка ruBERT
+### Вариант 1: Использование существующего API
+Если у вас уже есть развернутый ruBERT (как в основном проекте):
+```env
+RUBERT_URL=https://your-rubert-instance.hf.space
+```
+### Вариант 2: Развертывание ruBERT
+Создайте новый Space на Hugging Face с моделью ruBERT:
+1. [RuBERT от DeepPavlov](https://huggingface.co/deepvk/rubert-base-cased)
+2. Используйте шаблон Gradio или FastAPI
+3. Добавьте эндпоинты `/api/analyze` и `/api/embedding`
+---
+## 🌐 Деплой на Hugging Face Spaces
+### Шаг 1: Создайте Space
+1. Перейдите на [Hugging Face Spaces](https://huggingface.co/spaces)
+2. Нажмите **Create new Space**
+3. Заполните:
+   - **Space name**: `fipi-ai-scraper`
+   - **License**: MIT
+   - **SDK**: Docker
+   - **Visibility**: Public или Private
+### Шаг 2: Загрузите файлы
+```bash
+# Инициализируйте git в папке ai-scraper
+cd ai-scraper
+git init
+git add .
+git commit -m "Initial commit"
+# Добавьте remote вашего Space
+git remote add origin https://huggingface.co/spaces/YOUR_USERNAME/fipi-ai-scraper
+# Push в Space
+git push -u origin main
+```
+### Шаг 3: Настройте переменные окружения
+**Важно:** Не загружайте `.env` файл в репозиторий!
+В Settings вашего Space добавьте в **Secrets**:
+| Variable | Value |
+|----------|-------|
+| `SUPABASE_URL` | https://your-project.supabase.co |
+| `SUPABASE_SERVICE_KEY` | ваш service key |
+| `RUBERT_URL` | https://your-rubert.hf.space |
+| `FIPI_BASE_URL` | https://fipi.ru |
+⚠️ **Примечание:** Переменные окружения добавляются через интерфейс Hugging Face:
+**Settings** → **Repository secrets** → **New secret**
+### Шаг 4: Дождитесь деплоя
+Space автоматически соберет Docker образ и запустит приложение.
+---
+## 📡 API Endpoints
+| Метод | Эндпоинт | Описание |
+|-------|----------|----------|
+| GET | `/` | Информация об API |
+| GET | `/api/health` | Проверка статуса сервиса |
+| GET | `/api/tasks` | Получить все задания |
+| GET | `/api/tasks/latest` | Последние добавленные задания |
+| GET | `/api/tasks/{task_id}` | Получить задание по ID |
+| GET | `/api/tasks/type/{type}` | Задания по типу |
+| GET | `/api/tasks/search?q=` | Поиск заданий |
+| POST | `/api/scrape` | Запустить парсинг ФИПИ |
+| POST | `/api/analyze` | AI анализ существующих заданий |
+| GET | `/api/stats` | Статистика по заданиям |
+---
+## 📝 Примеры использования
+### Python
+```python
+import requests
+BASE_URL = "https://your-space.hf.space"
+# Получить последние задания
+response = requests.get(f"{BASE_URL}/api/tasks/latest?limit=10")
+tasks = response.json()
+print(f"Найдено заданий: {len(tasks)}")
+# Запустить парсинг ФИПИ
+response = requests.post(f"{BASE_URL}/api/scrape")
+result = response.json()
+print(result["message"])
+# Поиск заданий
+response = requests.get(f"{BASE_URL}/api/tasks/search?q=сочинение")
+tasks = response.json()
+# Получить статистику
+response = requests.get(f"{BASE_URL}/api/stats")
+stats = response.json()
+print(f"Всего заданий: {stats['total_tasks']}")
+```
+### cURL
+```bash
+# Health check
+curl https://your-space.hf.space/api/health
+# Получить задания
+curl https://your-space.hf.space/api/tasks/latest
+# Запустить скрапинг
+curl -X POST https://your-space.hf.space/api/scrape \
+  -H "Content-Type: application/json" \
+  -d '{"subject": "russian"}'
+# Поиск
+curl "https://your-space.hf.space/api/tasks/search?q=ЕГЭ"
+```
+---
+## 🔧 Конфигурация
+### Переменные окружения
+| Переменная | Описание | Пример |
+|------------|----------|--------|
+| `SUPABASE_URL` | URL проекта Supabase | `https://xxx.supabase.co` |
+| `SUPABASE_SERVICE_KEY` | Service role ключ Supabase | `eyJhbG...` |
+| `RUBERT_URL` | URL ruBERT API | `https://rubert.hf.space` |
+| `FIPI_BASE_URL` | Базовый URL ФИПИ | `https://fipi.ru` |
+| `PORT` | Порт приложения | `7860` |
+| `HOST` | Хост приложения | `0.0.0.0` |
+---
+## 🏗️ Архитектура
+```
+┌─────────────────┐     ┌──────────────────┐     ┌─────────────────┐
+│   FIPIScraper   │────▶│  RuBERTClient    │────▶│  SupabaseClient │
+│   (BeautifulSoup)│    │  (HTTP API)      │     │  (Supabase JS)  │
+└─────────────────┘     └──────────────────┘     └─────────────────┘
+         │                       │                        │
+         ▼                       ▼                        ▼
+   fipi.ru                 ruBERT HF               Supabase DB
+   (парсинг)              (AI анализ)              (хранение)
+```
+### Поток данных
+1. **Скрапинг**: `FIPIScraper` парсит задания с fipi.ru
+2. **Анализ**: `RuBERTClient` анализирует текст задания
+3. **Сохранение**: `SupabaseClient` сохраняет в базу данных
+4. **API**: FastAPI предоставляет REST эндпоинты
+---
+## 🔒 Безопасность
+- ✅ **RLS (Row Level Security)** в Supabase
+- ✅ **Валидация данных** через Pydantic
+- ✅ **CORS** настроен для API
+- ✅ **Service Key** не экспон��руется на клиенте
+---
+## 🛠️ Решение проблем
+### "Supabase не настроен"
+Проверьте переменные окружения:
+```bash
+echo $SUPABASE_URL
+echo $SUPABASE_SERVICE_KEY
+```
+### "RuBERT клиент не настроен"
+Убедитесь, что `RUBERT_URL` указан и API доступен:
+```bash
+curl https://your-rubert.hf.space/api/health
+```
+### Ошибки при скрапинге
+Сайт ФИПИ может блокировать запросы. Попробуйте:
+- Изменить `User-Agent` в `scraper.py`
+- Использовать прокси
+- Добавить задержки между запросами
+### Docker не собирается
+Проверьте логи:
+```bash
+docker build -t fipi-scraper .
+docker run -p 7860:7860 fipi-scraper
+```
+### Configuration error / Missing .env
+**Это нормально!** Для Hugging Face Spaces:
+1. Не загружайте `.env` в репозиторий
+2. Настройте переменные через **Settings** → **Repository secrets**
+3. Файл `.env.example` существует только для документации
+---
+## 📝 История изменений
+### Март 2026 - Исправление парсера ФИПИ
+**Исправленные проблемы:**
+- ❌ Неверные URL-адреса (404 ошибки)
+- ❌ SSL ошибки для поддоменов
+- ❌ Некорректный парсинг заголовков
+**Результат:**
+- ✅ Найдено заданий: 0 → 12
+- ✅ Все запросы возвращают 200 OK
+Подробности в [FIXES.md](FIXES.md)
+---
+## 📊 Мониторинг
+### Логи приложения
+```bash
+# Логи в Hugging Face Space
+# Settings → Logs
+# Локально
+uvicorn app:app --log-level debug
+```
+### Метрики
+- `/api/health` — статус сервисов
+- `/api/stats` — статистика заданий
+---
+## 🤝 Интеграция с основным проектом
+Этот сервис дополняет основной проект `refined-main`:
+1. **Импорт заданий** из ФИПИ в базу
+2. **AI-анализ** через тот же ruBERT
+3. **Единая Supabase** для обоих сервисов
+### Подключение
+В основном проекте добавьте:
+```typescript
+// services/fipiTasks.ts
+const FIPI_SCRAPER_URL = 'https://fipi-ai-scraper.hf.space';
+export async function fetchLatestTasks(limit = 10) {
+  const response = await fetch(`${FIPI_SCRAPER_URL}/api/tasks/latest?limit=${limit}`);
+  return response.json();
+}
+```
+---
+## 📚 Дополнительные ресурсы
+- [Документация FastAPI](https://fastapi.tiangolo.com/)
+- [Документация Supabase](https://supabase.com/docs)
+- [Hugging Face Spaces](https://huggingface.co/docs/hub/spaces)
+- [ruBERT модель](https://huggingface.co/deepvk/rubert-base-cased)
+- [ФИПИ](https://fipi.ru/)
+---
+## 📄 Лицензия
+MIT License
+---
+**Последнее обновление:** Март 2026
+**Статус:** ✅ Готово к деплою

app.py ADDED Viewed

	@@ -0,0 +1,322 @@

+"""
+FastAPI приложение для AI Scraper ФИПИ
+Деплой на Hugging Face Spaces
+"""
+from fastapi import FastAPI, HTTPException, BackgroundTasks
+from fastapi.middleware.cors import CORSMiddleware
+from typing import List
+from datetime import datetime
+import logging
+import os
+from models import (
+    TaskResponse,
+    ScrapeRequest,
+    ScrapeResponse,
+    HealthResponse,
+    StatsResponse,
+    ErrorResponse,
+)
+from scraper import FIPIScraper
+from rubert_client import RuBERTClient
+from supabase_client import SupabaseClient
+# Настройка логирования
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# Инициализация приложения
+app = FastAPI(
+    title="AI Scraper ФИПИ",
+    description="Сервис для автоматического сбора заданий с сайта ФИПИ с AI-анализом на ruBERT",
+    version="1.0.0",
+)
+# CORS middleware
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# Глобальные клиенты
+scraper: FIPIScraper = None
+rubert_client: RuBERTClient = None
+supabase_client: SupabaseClient = None
+@app.on_event("startup")
+async def startup_event():
+    """Инициализация клиентов при старте"""
+    global scraper, rubert_client, supabase_client
+    # Инициализация скрапера
+    fipi_url = os.getenv("FIPI_BASE_URL", "https://fipi.ru")
+    scraper = FIPIScraper(base_url=fipi_url)
+    logger.info(f"FIPIScraper инициализирован: {fipi_url}")
+    # Инициализация ruBERT клиента
+    rubert_url = os.getenv("RUBERT_URL")
+    if rubert_url:
+        rubert_client = RuBERTClient(api_url=rubert_url)
+        logger.info(f"RuBERTClient инициализирован: {rubert_url}")
+    else:
+        logger.warning("RUBERT_URL не указан, анализ через ruBERT будет недоступен")
+    # Инициализация Supabase клиента
+    supabase_url = os.getenv("SUPABASE_URL")
+    supabase_key = os.getenv("SUPABASE_SERVICE_KEY")
+    if supabase_url and supabase_key:
+        supabase_client = SupabaseClient(url=supabase_url, key=supabase_key)
+        logger.info("SupabaseClient инициализирован")
+    else:
+        logger.warning("SUPABASE_URL или SUPABASE_SERVICE_KEY не указаны, работа с БД будет недоступна")
+@app.get("/api/health", response_model=HealthResponse)
+async def health_check():
+    """Проверка статуса сервиса"""
+    services = {
+        "api": True,
+        "scraper": scraper is not None,
+        "rubert": False,
+        "supabase": False,
+    }
+    if rubert_client:
+        services["rubert"] = await rubert_client.health_check()
+    if supabase_client:
+        try:
+            await supabase_client.get_stats()
+            services["supabase"] = True
+        except Exception:
+            services["supabase"] = False
+    return HealthResponse(
+        status="healthy" if all(services.values()) else "degraded",
+        timestamp=datetime.utcnow(),
+        services=services,
+    )
+@app.get("/api/tasks", response_model=List[TaskResponse])
+async def get_all_tasks():
+    """Получить все задания"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    tasks = await supabase_client.get_all_tasks()
+    return [TaskResponse(**task) for task in tasks]
+@app.get("/api/tasks/latest", response_model=List[TaskResponse])
+async def get_latest_tasks(limit: int = 10):
+    """Получить последние задания"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    tasks = await supabase_client.get_latest_tasks(limit=limit)
+    return [TaskResponse(**task) for task in tasks]
+@app.get("/api/tasks/{task_id}", response_model=TaskResponse)
+async def get_task(task_id: int):
+    """Получить задание по ID"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    task = await supabase_client.get_task_by_id(task_id)
+    if not task:
+        raise HTTPException(status_code=404, detail="Задание не найдено")
+    return TaskResponse(**task)
+@app.get("/api/tasks/type/{task_type}", response_model=List[TaskResponse])
+async def get_tasks_by_type(task_type: str):
+    """Получить задания по типу"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    tasks = await supabase_client.get_tasks_by_type(task_type)
+    return [TaskResponse(**task) for task in tasks]
+@app.get("/api/tasks/search", response_model=List[TaskResponse])
+async def search_tasks(q: str):
+    """Поиск заданий по запросу"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    tasks = await supabase_client.search_tasks(q)
+    return [TaskResponse(**task) for task in tasks]
+@app.post("/api/scrape", response_model=ScrapeResponse)
+async def scrape_tasks(request: ScrapeRequest, background_tasks: BackgroundTasks):
+    """
+    Запустить скрапинг заданий
+    Фоновая задача для сбора заданий с ФИПИ
+    """
+    if not scraper:
+        raise HTTPException(status_code=503, detail="Скрапер не настроен")
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    try:
+        tasks_scraped = 0
+        tasks_saved = 0
+        duplicates_skipped = 0
+        # Если указаны URL, скрапим их
+        if request.urls:
+            for url in request.urls:
+                task = await scraper.parse_task_page(
+                    await scraper.fetch_page(url),
+                    url
+                )
+                if task:
+                    tasks_scraped += 1
+                    result = await supabase_client.insert_task(task)
+                    if result:
+                        tasks_saved += 1
+                    else:
+                        duplicates_skipped += 1
+        # Если указан поисковый запрос
+        elif request.query:
+            tasks = await scraper.search_tasks(request.query)
+            tasks_scraped = len(tasks)
+            for task in tasks:
+                # AI анализ через ruBERT
+                if rubert_client:
+                    analysis = await rubert_client.analyze_text(task.get("content", ""))
+                    if analysis:
+                        task["rubert_analysis"] = analysis
+                result = await supabase_client.insert_task(task)
+                if result:
+                    tasks_saved += 1
+                else:
+                    duplicates_skipped += 1
+        # Скрапинг по предмету (по умолчанию)
+        else:
+            tasks = await scraper.scrape_tasks(subject=request.subject)
+            tasks_scraped = len(tasks)
+            for task in tasks:
+                # AI анализ через ruBERT
+                if rubert_client:
+                    analysis = await rubert_client.analyze_text(task.get("content", ""))
+                    if analysis:
+                        task["rubert_analysis"] = analysis
+                result = await supabase_client.insert_task(task)
+                if result:
+                    tasks_saved += 1
+                else:
+                    duplicates_skipped += 1
+        return ScrapeResponse(
+            success=True,
+            tasks_scraped=tasks_scraped,
+            tasks_saved=tasks_saved,
+            duplicates_skipped=duplicates_skipped,
+            message=f"Успешно обработано {tasks_scraped} заданий. Сохранено: {tasks_saved}, пропущено дубликатов: {duplicates_skipped}",
+        )
+    except Exception as e:
+        logger.error(f"Ошибка при скрапинге: {e}")
+        raise HTTPException(status_code=500, detail=f"Ошибка скрапинга: {str(e)}")
+@app.get("/api/stats", response_model=StatsResponse)
+async def get_stats():
+    """Получить статистику по заданиям"""
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    stats = await supabase_client.get_stats()
+    # Получение времени последнего скрапинга
+    latest = await supabase_client.get_latest_tasks(limit=1)
+    last_scrape = latest[0].get("scraped_at") if latest else None
+    return StatsResponse(
+        total_tasks=stats.get("total", 0),
+        by_type=stats.get("by_type", {}),
+        last_scrape=last_scrape,
+    )
+@app.post("/api/analyze", response_model=ScrapeResponse)
+async def analyze_existing_tasks():
+    """
+    AI анализ существующих заданий в базе
+    Запускает ruBERT анализ для всех заданий без анализа
+    """
+    if not supabase_client:
+        raise HTTPException(status_code=503, detail="Supabase не настроен")
+    if not rubert_client:
+        raise HTTPException(status_code=503, detail="RuBERT клиент не настроен")
+    try:
+        tasks = await supabase_client.get_all_tasks()
+        analyzed_count = 0
+        for task in tasks:
+            # Пропускаем уже проанализированные
+            if task.get("rubert_analysis"):
+                continue
+            # Анализ через ruBERT
+            analysis = await rubert_client.analyze_text(task.get("content", ""))
+            if analysis:
+                task["rubert_analysis"] = analysis
+                await supabase_client.update_task(task["id"], {"rubert_analysis": analysis})
+                analyzed_count += 1
+        return ScrapeResponse(
+            success=True,
+            tasks_scraped=analyzed_count,
+            tasks_saved=analyzed_count,
+            duplicates_skipped=len(tasks) - analyzed_count,
+            message=f"Проанализировано {analyzed_count} заданий",
+        )
+    except Exception as e:
+        logger.error(f"Ошибка при анализе: {e}")
+        raise HTTPException(status_code=500, detail=f"Ошибка анализа: {str(e)}")
+@app.get("/", tags=["root"])
+async def root():
+    """Корневой эндпоинт"""
+    return {
+        "message": "AI Scraper ФИПИ API",
+        "version": "1.0.0",
+        "docs": "/docs",
+    }
+@app.exception_handler(Exception)
+async def global_exception_handler(request, exc):
+    """Глобальный обработчик исключений"""
+    logger.error(f"Необработанная ошибка: {exc}")
+    return ErrorResponse(
+        error="Internal Server Error",
+        detail=str(exc),
+        timestamp=datetime.utcnow(),
+    )

hf_spaces_config.yaml ADDED Viewed

	@@ -0,0 +1,18 @@

+# Конфигурация для Hugging Face Spaces
+# https://huggingface.co/docs/hub/spaces-sdks-docker
+sdk: docker
+python_version: 3.11
+# Переменные окружения (опционально)
+env:
+  - name: PORT
+    value: 7860
+  - name: HOST
+    value: 0.0.0.0
+# Ресурсы (опционально, для CPU basic)
+# hardware: cpu-basic
+# Для использования GPU (если нужно)
+# hardware: gpu-nvidia-t4

models.py ADDED Viewed

	@@ -0,0 +1,80 @@

+"""
+Pydantic модели для API
+"""
+from pydantic import BaseModel, Field
+from typing import List, Optional, Dict, Any
+from datetime import datetime
+class TaskInput(BaseModel):
+    """Модель для входных данных задания"""
+    title: str = Field(..., description="Заголовок задания")
+    content: str = Field(..., description="Содержимое задания")
+    source_url: str = Field(..., description="URL источника")
+    task_type: Optional[str] = Field(None, description="Тип задания")
+    images: Optional[List[str]] = Field(default_factory=list, description="Изображения")
+    variants: Optional[List[str]] = Field(default_factory=list, description="Варианты ответов")
+class TaskResponse(BaseModel):
+    """Модель для ответа с заданием"""
+    id: Optional[int] = None
+    title: str
+    content: str
+    source_url: str
+    task_type: Optional[str] = None
+    images: Optional[List[str]] = None
+    variants: Optional[List[str]] = None
+    scraped_at: Optional[datetime] = None
+    rubert_analysis: Optional[Dict[str, Any]] = None
+class ScrapeRequest(BaseModel):
+    """Модель для запроса на скрапинг"""
+    subject: Optional[str] = Field("russian", description="Код предмета")
+    urls: Optional[List[str]] = Field(default_factory=list, description="Список URL для скрапинга")
+    query: Optional[str] = Field(None, description="Поисковый запрос")
+class ScrapeResponse(BaseModel):
+    """Модель для ответа скрапинга"""
+    success: bool
+    tasks_scraped: int
+    tasks_saved: int
+    duplicates_skipped: int
+    message: str
+class AnalysisRequest(BaseModel):
+    """Модель для запроса анализа"""
+    text: str = Field(..., description="Текст для анализа")
+class AnalysisResponse(BaseModel):
+    """Модель для ответа анализа"""
+    category: str
+    keywords: List[str]
+    confidence: float
+    embedding: Optional[List[float]] = None
+class HealthResponse(BaseModel):
+    """Модель для ответа health check"""
+    status: str
+    timestamp: datetime
+    services: Dict[str, bool]
+class StatsResponse(BaseModel):
+    """Модель для ответа статистики"""
+    total_tasks: int
+    by_type: Dict[str, int]
+    last_scrape: Optional[datetime] = None
+class ErrorResponse(BaseModel):
+    """Модель для ответа с ошибкой"""
+    error: str
+    detail: Optional[str] = None
+    timestamp: datetime = Field(default_factory=datetime.utcnow)

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+fastapi==0.109.0
+uvicorn[standard]==0.27.0
+python-dotenv==1.0.0
+supabase==2.3.4
+httpx==0.26.0
+beautifulsoup4==4.12.3
+lxml==5.1.0
+requests==2.31.0
+pydantic==2.5.3
+pydantic-settings==2.1.0
+aiohttp==3.9.1
+playwright==1.40.0

rubert_client.py ADDED Viewed

	@@ -0,0 +1,136 @@

+"""
+Клиент для RuBERT API
+Анализ текстов заданий с использованием ruBERT
+"""
+import httpx
+from typing import Dict, List, Optional
+import logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class RuBERTClient:
+    """Клиент для взаимодействия с RuBERT API"""
+    def __init__(self, api_url: str):
+        self.api_url = api_url.rstrip('/')
+        self.timeout = 30.0
+    async def analyze_text(self, text: str) -> Optional[Dict]:
+        """
+        Анализ текста через ruBERT
+        Args:
+            text: Текст для анализа
+        Returns:
+            Результат анализа с категориями и метаданными
+        """
+        async with httpx.AsyncClient(timeout=self.timeout) as client:
+            try:
+                response = await client.post(
+                    f"{self.api_url}/api/analyze",
+                    json={"text": text},
+                    headers={"Content-Type": "application/json"}
+                )
+                response.raise_for_status()
+                return response.json()
+            except httpx.HTTPError as e:
+                logger.error(f"Ошибка RuBERT API: {e}")
+                return None
+    async def classify_task(self, task_text: str) -> Optional[str]:
+        """
+        Классификация типа задания
+        Args:
+            task_text: Текст задания
+        Returns:
+            Категория задания
+        """
+        result = await self.analyze_text(task_text)
+        if result:
+            return result.get("category", "unknown")
+        return None
+    async def extract_keywords(self, text: str) -> List[str]:
+        """
+        Извлечение ключевых слов из текста
+        Args:
+            text: Текст для анализа
+        Returns:
+            Список ключевых слов
+        """
+        result = await self.analyze_text(text)
+        if result:
+            return result.get("keywords", [])
+        return []
+    async def get_embedding(self, text: str) -> Optional[List[float]]:
+        """
+        Получение эмбеддинга текста
+        Args:
+            text: Текст для получения эмбеддинга
+        Returns:
+            Вектор эмбеддинга
+        """
+        async with httpx.AsyncClient(timeout=self.timeout) as client:
+            try:
+                response = await client.post(
+                    f"{self.api_url}/api/embedding",
+                    json={"text": text},
+                    headers={"Content-Type": "application/json"}
+                )
+                response.raise_for_status()
+                data = response.json()
+                return data.get("embedding")
+            except httpx.HTTPError as e:
+                logger.error(f"Ошибка получения эмбеддинга: {e}")
+                return None
+    async def similarity_search(
+        self,
+        query: str,
+        existing_texts: List[str]
+    ) -> List[Dict]:
+        """
+        Поиск похожих текстов
+        Args:
+            query: Поисковый запрос
+            existing_texts: Список текстов для поиска
+        Returns:
+            Список похожих текстов с оценками схожести
+        """
+        async with httpx.AsyncClient(timeout=self.timeout) as client:
+            try:
+                response = await client.post(
+                    f"{self.api_url}/api/similarity",
+                    json={
+                        "query": query,
+                        "documents": existing_texts
+                    },
+                    headers={"Content-Type": "application/json"}
+                )
+                response.raise_for_status()
+                return response.json().get("results", [])
+            except httpx.HTTPError as e:
+                logger.error(f"Ошибка поиска похожих текстов: {e}")
+                return []
+    async def health_check(self) -> bool:
+        """Проверка доступности API"""
+        async with httpx.AsyncClient(timeout=5.0) as client:
+            try:
+                response = await client.get(f"{self.api_url}/api/health")
+                return response.status_code == 200
+            except Exception:
+                return False

schema.sql ADDED Viewed

	@@ -0,0 +1,85 @@

+-- SQL схема для таблицы заданий ФИПИ в Supabase
+-- Выполните этот скрипт в SQL Editor вашего проекта Supabase
+-- Создание таблицы для хранения заданий
+CREATE TABLE IF NOT EXISTS fipi_tasks (
+    id BIGSERIAL PRIMARY KEY,
+    title TEXT NOT NULL,
+    content TEXT NOT NULL,
+    source_url TEXT UNIQUE NOT NULL,
+    task_type TEXT DEFAULT 'other',
+    images TEXT[] DEFAULT '{}',
+    variants TEXT[] DEFAULT '{}',
+    rubert_analysis JSONB DEFAULT '{}',
+    scraped_at TIMESTAMPTZ DEFAULT NOW(),
+    created_at TIMESTAMPTZ DEFAULT NOW(),
+    updated_at TIMESTAMPTZ DEFAULT NOW()
+);
+-- Индексы для ускорения поиска
+CREATE INDEX IF NOT EXISTS idx_fipi_tasks_task_type ON fipi_tasks(task_type);
+CREATE INDEX IF NOT EXISTS idx_fipi_tasks_scraped_at ON fipi_tasks(scraped_at DESC);
+CREATE INDEX IF NOT EXISTS idx_fipi_tasks_source_url ON fipi_tasks(source_url);
+CREATE INDEX IF NOT EXISTS idx_fipi_tasks_title ON fipi_tasks USING gin(title gin_trgm_ops);
+CREATE INDEX IF NOT EXISTS idx_fipi_tasks_content ON fipi_tasks USING gin(content gin_trgm_ops);
+-- Включение расширения для полнотекстового поиска
+CREATE EXTENSION IF NOT EXISTS pg_trgm;
+-- RLS (Row Level Security) политики
+ALTER TABLE fipi_tasks ENABLE ROW LEVEL SECURITY;
+-- Политика для чтения (публичный доступ)
+CREATE POLICY "Public can view all tasks"
+    ON fipi_tasks
+    FOR SELECT
+    USING (true);
+-- Политика для записи (только сервисный ключ)
+CREATE POLICY "Service key can insert tasks"
+    ON fipi_tasks
+    FOR INSERT
+    WITH CHECK (true);
+-- Политика для обновления
+CREATE POLICY "Service key can update tasks"
+    ON fipi_tasks
+    FOR UPDATE
+    USING (true);
+-- Политика для удаления
+CREATE POLICY "Service key can delete tasks"
+    ON fipi_tasks
+    FOR DELETE
+    USING (true);
+-- Триггер для автоматического обновления updated_at
+CREATE OR REPLACE FUNCTION update_updated_at_column()
+RETURNS TRIGGER AS $$
+BEGIN
+    NEW.updated_at = NOW();
+    RETURN NEW;
+END;
+$$ LANGUAGE plpgsql;
+CREATE TRIGGER update_fipi_tasks_updated_at
+    BEFORE UPDATE ON fipi_tasks
+    FOR EACH ROW
+    EXECUTE FUNCTION update_updated_at_column();
+-- Представление для статистики
+CREATE OR REPLACE VIEW fipi_tasks_stats AS
+SELECT
+    COUNT(*) as total_tasks,
+    COUNT(*) FILTER (WHERE task_type = 'writing') as writing_tasks,
+    COUNT(*) FILTER (WHERE task_type = 'test') as test_tasks,
+    COUNT(*) FILTER (WHERE task_type = 'listening') as listening_tasks,
+    COUNT(*) FILTER (WHERE task_type = 'reading') as reading_tasks,
+    COUNT(*) FILTER (WHERE task_type = 'other') as other_tasks,
+    MAX(scraped_at) as last_scrape
+FROM fipi_tasks;
+-- Комментарий к таблице
+COMMENT ON TABLE fipi_tasks IS 'Задания с сайта ФИПИ (fipi.ru) для ЕГЭ и ОГЭ';
+COMMENT ON COLUMN fipi_tasks.task_type IS 'Тип задания: writing, test, listening, reading, other';
+COMMENT ON COLUMN fipi_tasks.rubert_analysis IS 'Результат анализа через ruBERT (категория, ключевые слова, эмбеддинги)';

scraper.cpython-314.pyc ADDED Viewed

Binary file (13.9 kB). View file

scraper.py ADDED Viewed

	@@ -0,0 +1,218 @@

+"""
+Скрапер для сайта ФИПИ (fipi.ru)
+Извлекает задания по русскому языку для ЕГЭ (задание 27)
+"""
+import httpx
+from bs4 import BeautifulSoup
+from typing import List, Dict, Optional
+from datetime import datetime
+import re
+import logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class FIPIScraper:
+    """Парсер для сайта ФИПИ"""
+    def __init__(self, base_url: str = "https://fipi.ru"):
+        self.base_url = base_url
+        self.headers = {
+            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
+            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
+            "Accept-Language": "ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7",
+        }
+    async def fetch_page(self, url: str) -> Optional[str]:
+        """Получение HTML страницы"""
+        # Создаем клиент с отключенной проверкой SSL (для fipi.ru поддоменов)
+        import ssl
+        ssl_context = ssl.create_default_context()
+        ssl_context.check_hostname = False
+        ssl_context.verify_mode = ssl.CERT_NONE
+        async with httpx.AsyncClient(
+            headers=self.headers,
+            timeout=30.0,
+            verify=ssl_context
+        ) as client:
+            try:
+                response = await client.get(url)
+                response.raise_for_status()
+                return response.text
+            except httpx.HTTPError as e:
+                logger.error(f"Ошибка при получении {url}: {e}")
+                return None
+    def parse_task_page(self, html: str, url: str) -> Optional[Dict]:
+        """Парсинг страницы с заданием"""
+        soup = BeautifulSoup(html, 'lxml')
+        # Извлечение заголовка - приоритет h1 в .content
+        title_tag = soup.select_one('.content h1') or soup.find('h1')
+        title = title_tag.get_text(strip=True) if title_tag else "Без названия"
+        # Если заголовок пустой, пробуем извлечь из title документа
+        if not title or title == "Без названия":
+            title_doc = soup.find('title')
+            if title_doc:
+                title = title_doc.get_text(strip=True)
+        # Извлечение основного контента - приоритет .content
+        content_div = soup.select_one('.content') or soup.find('div', class_='field--name-body')
+        if not content_div:
+            content_div = soup.find('main') or soup.find('body')
+        # Очистка текста - удаляем скрипты и стили
+        for element in content_div.find_all(['script', 'style', 'nav', 'header', 'footer']):
+            element.decompose()
+        content = content_div.get_text(separator='\n', strip=True) if content_div else ""
+        # Извлечение изображения (если есть)
+        images = []
+        for img in content_div.find_all('img'):
+            src = img.get('src') or img.get('data-src')
+            if src:
+                if not src.startswith('http'):
+                    src = self.base_url + src
+                images.append(src)
+        # Извлечение ссылок на задания
+        task_links = []
+        for link in content_div.find_all('a', href=True):
+            href = link['href']
+            link_text = link.get_text(strip=True)
+            if any(pattern in href for pattern in ['/ege/', '/oge/', '/task/', '/demo/', '/bank/']):
+                if not href.startswith('http'):
+                    href = self.base_url + href
+                task_links.append({"text": link_text, "url": href})
+        # Определение типа задания
+        task_type = self._detect_task_type(title, content)
+        # Извлечение вариантов (если есть)
+        variants = self._extract_variants(content)
+        return {
+            "title": title,
+            "content": content,
+            "source_url": url,
+            "task_type": task_type,
+            "images": images,
+            "variants": variants,
+            "task_links": task_links,
+            "scraped_at": datetime.utcnow().isoformat(),
+        }
+    def _detect_task_type(self, title: str, content: str) -> str:
+        """Определение типа задания"""
+        text = (title + " " + content).lower()
+        if any(word in text for word in ["сочинение", "эссе", "напишит"]):
+            return "writing"
+        elif any(word in text for word in ["тест", "выбер", "вариант"]):
+            return "test"
+        elif any(word in text for word in ["ауди", "слуш"]):
+            return "listening"
+        elif any(word in text for word in ["чит", "текст"]):
+            return "reading"
+        else:
+            return "other"
+    def _extract_variants(self, content: str) -> List[str]:
+        """Извлечение вариантов ответов"""
+        variants = []
+        # Паттерн для вариантов типа "1) ... 2) ..."
+        pattern = r'(\d+)[\.\)]\s*([^\n\d]+)'
+        matches = re.findall(pattern, content)
+        for _, variant in matches:
+            variants.append(variant.strip())
+        return variants[:10]  # Ограничение на 10 вариантов
+    async def scrape_tasks(self, subject: str = "russian") -> List[Dict]:
+        """
+        Скрапинг заданий по предмету
+        Args:
+            subject: Код предмета (по умолчанию russian)
+        Returns:
+            Список заданий
+        """
+        tasks = []
+        # Актуальные URLs для скрапинга (fipi.ru) - только работающие
+        urls_to_scrape = [
+            f"{self.base_url}/ege/otkrytyy-bank-zadaniy-ege",
+            f"{self.base_url}/oge/otkrytyy-bank-zadaniy-oge",
+        ]
+        for url in urls_to_scrape:
+            logger.info(f"Скрапинг {url}")
+            html = await self.fetch_page(url)
+            if html:
+                task = self.parse_task_page(html, url)
+                if task:
+                    tasks.append(task)
+                    # Если есть ссылки на задания, скачиваем их
+                    for link_info in task.get('task_links', [])[:5]:  # Ограничиваем количество
+                        link_url = link_info.get('url')
+                        if link_url:
+                            logger.info(f"  -> Скачиваем задание: {link_url}")
+                            link_html = await self.fetch_page(link_url)
+                            if link_html:
+                                subtask = self.parse_task_page(link_html, link_url)
+                                if subtask:
+                                    tasks.append(subtask)
+        logger.info(f"Найдено {len(tasks)} заданий")
+        return tasks
+    async def scrape_task_by_id(self, task_id: str) -> Optional[Dict]:
+        """Скрапинг конкретного задания по ID"""
+        url = f"{self.base_url}/task/{task_id}"
+        logger.info(f"Скрапинг задания {task_id}")
+        html = await self.fetch_page(url)
+        if html:
+            return self.parse_task_page(html, url)
+        return None
+    async def search_tasks(self, query: str) -> List[Dict]:
+        """Поиск заданий по ключевому слову"""
+        tasks = []
+        # Используем правильный URL для поиска на fipi.ru
+        search_url = f"{self.base_url}/search?q={query}"
+        html = await self.fetch_page(search_url)
+        if not html:
+            # Пробуем альтернативный поиск через банк заданий
+            logger.info("Поиск не доступен, пробуем парсинг банка заданий")
+            return await self.scrape_tasks()
+        soup = BeautifulSoup(html, 'lxml')
+        # Поиск ссылок на задания с правильными паттернами
+        for link in soup.find_all('a', href=True):
+            href = link['href']
+            # Проверяем на наличие валидных URL заданий
+            if any(pattern in href for pattern in ['/ege/', '/oge/', '/task/', '/demo/', '/bank/']):
+                if not href.startswith('http'):
+                    href = self.base_url + href
+                task_html = await self.fetch_page(href)
+                if task_html:
+                    task = self.parse_task_page(task_html, href)
+                    if task:
+                        tasks.append(task)
+        return tasks

supabase_client.py ADDED Viewed

	@@ -0,0 +1,191 @@

+"""
+Клиент для Supabase
+Хранение и управление заданиями
+"""
+from supabase import create_client, Client
+from typing import List, Dict, Optional
+from datetime import datetime
+import logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class SupabaseClient:
+    """Клиент для работы с Supabase"""
+    def __init__(self, url: str, key: str):
+        self.client: Client = create_client(url, key)
+        self.table_name = "fipi_tasks"
+    async def insert_task(self, task: Dict) -> Optional[Dict]:
+        """
+        Добавление задания в базу
+        Args:
+            task: Данные задания
+        Returns:
+            Сохраненное задание с ID
+        """
+        try:
+            # Проверка на дубликаты по URL
+            existing = await self.get_task_by_url(task.get("source_url", ""))
+            if existing:
+                logger.info(f"Задание уже существует: {task.get('source_url')}")
+                return existing
+            # Добавление записи
+            result = self.client.table(self.table_name).insert(task).execute()
+            if result.data:
+                logger.info(f"Задание сохранено: {result.data[0].get('id')}")
+                return result.data[0]
+            return None
+        except Exception as e:
+            logger.error(f"Ошибка при сохранении задания: {e}")
+            return None
+    async def insert_tasks_batch(self, tasks: List[Dict]) -> List[Dict]:
+        """
+        Пакетное добавление заданий
+        Args:
+            tasks: Список заданий
+        Returns:
+            Список сохраненных заданий
+        """
+        saved = []
+        for task in tasks:
+            result = await self.insert_task(task)
+            if result:
+                saved.append(result)
+        logger.info(f"Сохранено {len(saved)} из {len(tasks)} заданий")
+        return saved
+    async def get_task_by_id(self, task_id: int) -> Optional[Dict]:
+        """Получение задания по ID"""
+        try:
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .eq("id", task_id)\
+                .execute()
+            return result.data[0] if result.data else None
+        except Exception as e:
+            logger.error(f"Ошибка получения задания: {e}")
+            return None
+    async def get_task_by_url(self, url: str) -> Optional[Dict]:
+        """Получение задания по URL (проверка на дубликат)"""
+        try:
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .eq("source_url", url)\
+                .execute()
+            return result.data[0] if result.data else None
+        except Exception as e:
+            logger.error(f"Ошибка проверки дубликата: {e}")
+            return None
+    async def get_latest_tasks(self, limit: int = 10) -> List[Dict]:
+        """Получение последних заданий"""
+        try:
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .order("scraped_at", desc=True)\
+                .limit(limit)\
+                .execute()
+            return result.data or []
+        except Exception as e:
+            logger.error(f"Ошибка получения последних заданий: {e}")
+            return []
+    async def get_all_tasks(self) -> List[Dict]:
+        """Получение всех заданий"""
+        try:
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .execute()
+            return result.data or []
+        except Exception as e:
+            logger.error(f"Ошибка получения всех заданий: {e}")
+            return []
+    async def search_tasks(self, query: str) -> List[Dict]:
+        """Поиск заданий по содержимому"""
+        try:
+            # Поиск по заголовку и контенту
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .or_(f"title.ilike.%{query}%,content.ilike.%{query}%")\
+                .execute()
+            return result.data or []
+        except Exception as e:
+            logger.error(f"Ошибка поиска: {e}")
+            return []
+    async def get_tasks_by_type(self, task_type: str) -> List[Dict]:
+        """Получение заданий по типу"""
+        try:
+            result = self.client.table(self.table_name)\
+                .select("*")\
+                .eq("task_type", task_type)\
+                .execute()
+            return result.data or []
+        except Exception as e:
+            logger.error(f"Ошибка получения заданий по типу: {e}")
+            return []
+    async def update_task(self, task_id: int, updates: Dict) -> Optional[Dict]:
+        """Обновление задания"""
+        try:
+            result = self.client.table(self.table_name)\
+                .update(updates)\
+                .eq("id", task_id)\n                .execute()
+            return result.data[0] if result.data else None
+        except Exception as e:
+            logger.error(f"Ошибка обновления задания: {e}")
+            return None
+    async def delete_task(self, task_id: int) -> bool:
+        """Удаление задания"""
+        try:
+            result = self.client.table(self.table_name)\
+                .delete()\
+                .eq("id", task_id)\
+                .execute()
+            return len(result.data) > 0
+        except Exception as e:
+            logger.error(f"Ошибка удаления задания: {e}")
+            return False
+    async def get_stats(self) -> Dict:
+        """Получение статистики по заданиям"""
+        try:
+            all_tasks = await self.get_all_tasks()
+            stats = {
+                "total": len(all_tasks),
+                "by_type": {}
+            }
+            for task in all_tasks:
+                task_type = task.get("task_type", "unknown")
+                stats["by_type"][task_type] = stats["by_type"].get(task_type, 0) + 1
+            return stats
+        except Exception as e:
+            logger.error(f"Ошибка получения статистики: {e}")
+            return {"total": 0, "by_type": {}}

test_scraper.py ADDED Viewed

	@@ -0,0 +1,75 @@

+"""
+Тест для проверки работы скрапера
+"""
+import asyncio
+import sys
+from bs4 import BeautifulSoup
+from scraper import FIPIScraper
+async def test_scraper():
+    """Тестирование скрапера"""
+    scraper = FIPIScraper(base_url="https://fipi.ru")
+    print("=" * 50)
+    print("Тестирование скрапера ФИПИ")
+    print("=" * 50)
+    # Тест 1: Проверка главной страницы
+    print("\n1. Проверка главной страницы...")
+    html = await scraper.fetch_page("https://fipi.ru")
+    if html:
+        print(f"   ✅ Главная страница получена (длина: {len(html)} символов)")
+    else:
+        print("   ❌ Не удалось получить главную страницу")
+        return
+    # Тест 2: Парсинг главной страницы
+    print("\n2. Парсинг главной страницы...")
+    task = scraper.parse_task_page(html, "https://fipi.ru")
+    if task:
+        print(f"   ✅ Заголовок: {task['title'][:100] if task['title'] else 'N/A'}")
+        print(f"   ✅ Тип задания: {task['task_type']}")
+    else:
+        print("   ❌ Не удалось распарсить страницу")
+    # Тест 3: Проверка страницы с ЕГЭ
+    print("\n3. Проверка страницы ЕГЭ...")
+    html = await scraper.fetch_page("https://fipi.ru/ege")
+    if html:
+        print(f"   ✅ Страница ЕГЭ получена (длина: {len(html)} символов)")
+        task = scraper.parse_task_page(html, "https://fipi.ru/ege")
+        if task:
+            print(f"   ✅ Заголовок: {task['title'][:100] if task['title'] else 'N/A'}")
+    else:
+        print("   ❌ Не удалось получить страницу ЕГЭ")
+    # Тест 4: Проверка банка заданий ЕГЭ
+    print("\n4. Проверка банка заданий ЕГЭ...")
+    html = await scraper.fetch_page("https://fipi.ru/ege/otkrytyy-bank-zadaniy-ege")
+    if html:
+        print(f"   ✅ Страница банка заданий ЕГЭ получена (длина: {len(html)} символов)")
+        # Пробуем найти ссылки на задания
+        soup = BeautifulSoup(html, 'lxml')
+        links = [a['href'] for a in soup.find_all('a', href=True) if '/ege/' in a['href']]
+        print(f"   ✅ Найдено ссылок в банке заданий: {len(links)}")
+        if links:
+            print(f"   📋 Примеры ссылок: {links[:5]}")
+    else:
+        print("   ❌ Не удалось получить страницу банка заданий ЕГЭ")
+    # Тест 5: Скрапинг заданий по предмету
+    print("\n5. Скрапинг заданий по русскому языку...")
+    tasks = await scraper.scrape_tasks(subject="russian")
+    print(f"   {'✅' if tasks else '⚠️'} Найдено заданий: {len(tasks)}")
+    for i, task in enumerate(tasks[:3], 1):
+        print(f"      {i}. {task.get('title', 'Без названия')[:80]}")
+    print("\n" + "=" * 50)
+    print("Тестирование завершено")
+    print("=" * 50)
+if __name__ == "__main__":
+    asyncio.run(test_scraper())