# Fuentes de Datos Reales en Oncología (Open & Registered Access) Para construir un sistema OncoAgent robusto y libre de alucinaciones, necesitamos datos del mundo real. A continuación, presento la lista más exhaustiva de fuentes de datos oncológicos categorizadas por su utilidad para nuestro pipeline (Fine-Tuning vs. RAG) y su nivel de accesibilidad. ## 1. Datasets de NLP y Resúmenes Clínicos (Ideal para Fine-Tuning) Estos datasets contienen texto libre clínico, ideal para entrenar a Llama 3.1 en razonamiento oncológico y extracción de entidades. * **PMC-Patients V2 (HuggingFace / GitHub)** * **Volumen:** ~250,000 resúmenes de pacientes reales. * **Origen:** Extraídos de reportes de casos médicos en *PubMed Central*. * **Acceso:** 🟢 **Abierto** (HuggingFace Hub). * **Uso en OncoAgent:** Fundamental para generar el formato JSONL de instrucción y entrenar la lógica de "Patient-to-Article" (conectar un paciente con literatura). * **PubMedQA / MedQA / MedMCQA (HuggingFace)** * **Volumen:** Cientos de miles de pares de Pregunta/Respuesta biomédica. * **Origen:** Exámenes médicos reales (USMLE) y abstracts de PubMed con respuestas de expertos. * **Acceso:** 🟢 **Abierto** (HuggingFace Hub). * **Uso en OncoAgent:** Validación de razonamiento y fine-tuning de QA clínico. ## 2. Bases de Conocimiento Clínico (Ideal para RAG Engine) Documentos autoritativos que sirven como fuente de verdad para el sistema de recuperación vectorial. * **ESMO Clinical Practice Guidelines** * **Origen:** *European Society for Medical Oncology*, publicados en *Annals of Oncology*. * **Formato:** PDFs de alta calidad (Living Guidelines). * **Acceso:** 🟢 **Abierto** (Free/Open Access directamente en su web). * **Uso en OncoAgent:** Fuente primaria de verdad para el RAG sin fricción de autenticación. * **NCCN Clinical Practice Guidelines in Oncology** * **Origen:** *National Comprehensive Cancer Network*. * **Formato:** PDFs detallados estructurados en algoritmos. * **Acceso:** 🟡 **Registro Gratuito Requerido**. Los PDFs deben descargarse manualmente tras iniciar sesión. * **Uso en OncoAgent:** Estándar de oro en EE.UU. Requiere recolección manual previa. ## 3. Registros de Historias Clínicas Electrónicas (EHR / EMR) Datos crudos de hospitales, ideales para pruebas de estrés de triaje con ruido real (laboratorios, notas de evolución). * **MIMIC-IV (PhysioNet)** * **Volumen:** Cientos de miles de admisiones hospitalarias (Beth Israel Deaconess Medical Center). Contiene un subconjunto masivo de pacientes oncológicos con notas clínicas de texto libre, patología y radiología. * **Acceso:** 🔴 **Controlado**. Requiere firmar un *Data Use Agreement (DUA)* y completar el curso de ética CITI. * **Uso en OncoAgent:** La mejor fuente de datos de historias clínicas crudas si logras la acreditación. * **Project Data Sphere** * **Volumen:** Datos a nivel de paciente de ensayos clínicos oncológicos históricos donados por farmacéuticas (Sanofi, Pfizer, etc.). * **Acceso:** 🟡 **Registro Requerido**. Abierto a investigadores tras registro básico. * **Uso en OncoAgent:** Excelente para evaluar líneas de tratamiento y toxicidad real. ## 4. Datos Genómicos y Patología (Multimodal) Si el OncoAgent se expande a analizar perfiles moleculares para terapias dirigidas (Targeted Therapy). * **TCGA (The Cancer Genome Atlas) / Genomic Data Commons (GDC)** * **Volumen:** +11,000 pacientes (33 tipos de cáncer). * **Origen:** NIH / NCI. * **Acceso:** 🟢 **Abierto** para datos clínicos y mutaciones simples; 🔴 **Controlado** para genómica cruda. * **Uso en OncoAgent:** Cruce de perfiles moleculares (ej. EGFR, ALK) con guías clínicas. * **AACR Project GENIE** * **Volumen:** +130,000 pacientes. * **Origen:** Consorcio internacional. Relaciona secuenciación clínica con resultados del mundo real. * **Acceso:** 🟢 **Abierto** a la comunidad investigadora mediante releases periódicos. --- > [!TIP] > **Estrategia para el Hackathon (Viabilidad vs. Tiempo):** > Dado el límite de tiempo, la mejor relación esfuerzo-beneficio es: > 1. Descargar **ESMO Guidelines** (sin fricción) para llenar ChromaDB. > 2. Descargar **PMC-Patients V2** vía el SDK de HuggingFace para los casos de prueba de triaje. > *(Esto nos da 100% de realidad clínica en 10 minutos de procesamiento, sin esperar certificaciones éticas como las de MIMIC-IV).*