OncoAgent / docs /research /real_data_sources.md
MaximoLopezChenlo's picture
Upload folder using huggingface_hub
e1624f5 verified
# Fuentes de Datos Reales en Oncología (Open & Registered Access)
Para construir un sistema OncoAgent robusto y libre de alucinaciones, necesitamos datos del mundo real. A continuación, presento la lista más exhaustiva de fuentes de datos oncológicos categorizadas por su utilidad para nuestro pipeline (Fine-Tuning vs. RAG) y su nivel de accesibilidad.
## 1. Datasets de NLP y Resúmenes Clínicos (Ideal para Fine-Tuning)
Estos datasets contienen texto libre clínico, ideal para entrenar a Llama 3.1 en razonamiento oncológico y extracción de entidades.
* **PMC-Patients V2 (HuggingFace / GitHub)**
* **Volumen:** ~250,000 resúmenes de pacientes reales.
* **Origen:** Extraídos de reportes de casos médicos en *PubMed Central*.
* **Acceso:** 🟢 **Abierto** (HuggingFace Hub).
* **Uso en OncoAgent:** Fundamental para generar el formato JSONL de instrucción y entrenar la lógica de "Patient-to-Article" (conectar un paciente con literatura).
* **PubMedQA / MedQA / MedMCQA (HuggingFace)**
* **Volumen:** Cientos de miles de pares de Pregunta/Respuesta biomédica.
* **Origen:** Exámenes médicos reales (USMLE) y abstracts de PubMed con respuestas de expertos.
* **Acceso:** 🟢 **Abierto** (HuggingFace Hub).
* **Uso en OncoAgent:** Validación de razonamiento y fine-tuning de QA clínico.
## 2. Bases de Conocimiento Clínico (Ideal para RAG Engine)
Documentos autoritativos que sirven como fuente de verdad para el sistema de recuperación vectorial.
* **ESMO Clinical Practice Guidelines**
* **Origen:** *European Society for Medical Oncology*, publicados en *Annals of Oncology*.
* **Formato:** PDFs de alta calidad (Living Guidelines).
* **Acceso:** 🟢 **Abierto** (Free/Open Access directamente en su web).
* **Uso en OncoAgent:** Fuente primaria de verdad para el RAG sin fricción de autenticación.
* **NCCN Clinical Practice Guidelines in Oncology**
* **Origen:** *National Comprehensive Cancer Network*.
* **Formato:** PDFs detallados estructurados en algoritmos.
* **Acceso:** 🟡 **Registro Gratuito Requerido**. Los PDFs deben descargarse manualmente tras iniciar sesión.
* **Uso en OncoAgent:** Estándar de oro en EE.UU. Requiere recolección manual previa.
## 3. Registros de Historias Clínicas Electrónicas (EHR / EMR)
Datos crudos de hospitales, ideales para pruebas de estrés de triaje con ruido real (laboratorios, notas de evolución).
* **MIMIC-IV (PhysioNet)**
* **Volumen:** Cientos de miles de admisiones hospitalarias (Beth Israel Deaconess Medical Center). Contiene un subconjunto masivo de pacientes oncológicos con notas clínicas de texto libre, patología y radiología.
* **Acceso:** 🔴 **Controlado**. Requiere firmar un *Data Use Agreement (DUA)* y completar el curso de ética CITI.
* **Uso en OncoAgent:** La mejor fuente de datos de historias clínicas crudas si logras la acreditación.
* **Project Data Sphere**
* **Volumen:** Datos a nivel de paciente de ensayos clínicos oncológicos históricos donados por farmacéuticas (Sanofi, Pfizer, etc.).
* **Acceso:** 🟡 **Registro Requerido**. Abierto a investigadores tras registro básico.
* **Uso en OncoAgent:** Excelente para evaluar líneas de tratamiento y toxicidad real.
## 4. Datos Genómicos y Patología (Multimodal)
Si el OncoAgent se expande a analizar perfiles moleculares para terapias dirigidas (Targeted Therapy).
* **TCGA (The Cancer Genome Atlas) / Genomic Data Commons (GDC)**
* **Volumen:** +11,000 pacientes (33 tipos de cáncer).
* **Origen:** NIH / NCI.
* **Acceso:** 🟢 **Abierto** para datos clínicos y mutaciones simples; 🔴 **Controlado** para genómica cruda.
* **Uso en OncoAgent:** Cruce de perfiles moleculares (ej. EGFR, ALK) con guías clínicas.
* **AACR Project GENIE**
* **Volumen:** +130,000 pacientes.
* **Origen:** Consorcio internacional. Relaciona secuenciación clínica con resultados del mundo real.
* **Acceso:** 🟢 **Abierto** a la comunidad investigadora mediante releases periódicos.
---
> [!TIP]
> **Estrategia para el Hackathon (Viabilidad vs. Tiempo):**
> Dado el límite de tiempo, la mejor relación esfuerzo-beneficio es:
> 1. Descargar **ESMO Guidelines** (sin fricción) para llenar ChromaDB.
> 2. Descargar **PMC-Patients V2** vía el SDK de HuggingFace para los casos de prueba de triaje.
> *(Esto nos da 100% de realidad clínica en 10 minutos de procesamiento, sin esperar certificaciones éticas como las de MIMIC-IV).*