File size: 4,614 Bytes
e1624f5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
# Fuentes de Datos Reales en Oncología (Open & Registered Access)

Para construir un sistema OncoAgent robusto y libre de alucinaciones, necesitamos datos del mundo real. A continuación, presento la lista más exhaustiva de fuentes de datos oncológicos categorizadas por su utilidad para nuestro pipeline (Fine-Tuning vs. RAG) y su nivel de accesibilidad.

## 1. Datasets de NLP y Resúmenes Clínicos (Ideal para Fine-Tuning)

Estos datasets contienen texto libre clínico, ideal para entrenar a Llama 3.1 en razonamiento oncológico y extracción de entidades.

*   **PMC-Patients V2 (HuggingFace / GitHub)**
    *   **Volumen:** ~250,000 resúmenes de pacientes reales.
    *   **Origen:** Extraídos de reportes de casos médicos en *PubMed Central*.
    *   **Acceso:** 🟢 **Abierto** (HuggingFace Hub).
    *   **Uso en OncoAgent:** Fundamental para generar el formato JSONL de instrucción y entrenar la lógica de "Patient-to-Article" (conectar un paciente con literatura).
*   **PubMedQA / MedQA / MedMCQA (HuggingFace)**
    *   **Volumen:** Cientos de miles de pares de Pregunta/Respuesta biomédica.
    *   **Origen:** Exámenes médicos reales (USMLE) y abstracts de PubMed con respuestas de expertos.
    *   **Acceso:** 🟢 **Abierto** (HuggingFace Hub).
    *   **Uso en OncoAgent:** Validación de razonamiento y fine-tuning de QA clínico.

## 2. Bases de Conocimiento Clínico (Ideal para RAG Engine)

Documentos autoritativos que sirven como fuente de verdad para el sistema de recuperación vectorial.

*   **ESMO Clinical Practice Guidelines**
    *   **Origen:** *European Society for Medical Oncology*, publicados en *Annals of Oncology*.
    *   **Formato:** PDFs de alta calidad (Living Guidelines).
    *   **Acceso:** 🟢 **Abierto** (Free/Open Access directamente en su web).
    *   **Uso en OncoAgent:** Fuente primaria de verdad para el RAG sin fricción de autenticación.
*   **NCCN Clinical Practice Guidelines in Oncology**
    *   **Origen:** *National Comprehensive Cancer Network*.
    *   **Formato:** PDFs detallados estructurados en algoritmos.
    *   **Acceso:** 🟡 **Registro Gratuito Requerido**. Los PDFs deben descargarse manualmente tras iniciar sesión.
    *   **Uso en OncoAgent:** Estándar de oro en EE.UU. Requiere recolección manual previa.

## 3. Registros de Historias Clínicas Electrónicas (EHR / EMR)

Datos crudos de hospitales, ideales para pruebas de estrés de triaje con ruido real (laboratorios, notas de evolución).

*   **MIMIC-IV (PhysioNet)**
    *   **Volumen:** Cientos de miles de admisiones hospitalarias (Beth Israel Deaconess Medical Center). Contiene un subconjunto masivo de pacientes oncológicos con notas clínicas de texto libre, patología y radiología.
    *   **Acceso:** 🔴 **Controlado**. Requiere firmar un *Data Use Agreement (DUA)* y completar el curso de ética CITI.
    *   **Uso en OncoAgent:** La mejor fuente de datos de historias clínicas crudas si logras la acreditación.
*   **Project Data Sphere**
    *   **Volumen:** Datos a nivel de paciente de ensayos clínicos oncológicos históricos donados por farmacéuticas (Sanofi, Pfizer, etc.).
    *   **Acceso:** 🟡 **Registro Requerido**. Abierto a investigadores tras registro básico.
    *   **Uso en OncoAgent:** Excelente para evaluar líneas de tratamiento y toxicidad real.

## 4. Datos Genómicos y Patología (Multimodal)

Si el OncoAgent se expande a analizar perfiles moleculares para terapias dirigidas (Targeted Therapy).

*   **TCGA (The Cancer Genome Atlas) / Genomic Data Commons (GDC)**
    *   **Volumen:** +11,000 pacientes (33 tipos de cáncer).
    *   **Origen:** NIH / NCI.
    *   **Acceso:** 🟢 **Abierto** para datos clínicos y mutaciones simples; 🔴 **Controlado** para genómica cruda.
    *   **Uso en OncoAgent:** Cruce de perfiles moleculares (ej. EGFR, ALK) con guías clínicas.
*   **AACR Project GENIE**
    *   **Volumen:** +130,000 pacientes.
    *   **Origen:** Consorcio internacional. Relaciona secuenciación clínica con resultados del mundo real.
    *   **Acceso:** 🟢 **Abierto** a la comunidad investigadora mediante releases periódicos.

---

> [!TIP]
> **Estrategia para el Hackathon (Viabilidad vs. Tiempo):**
> Dado el límite de tiempo, la mejor relación esfuerzo-beneficio es:
> 1. Descargar **ESMO Guidelines** (sin fricción) para llenar ChromaDB.
> 2. Descargar **PMC-Patients V2** vía el SDK de HuggingFace para los casos de prueba de triaje.
> *(Esto nos da 100% de realidad clínica en 10 minutos de procesamiento, sin esperar certificaciones éticas como las de MIMIC-IV).*