ARARAS — Gemma-4 E4B — Rare Diseases (SFT)

Fine-tune supervisionado (SFT, LoRA) do google/gemma-4-e4b para raciocínio clínico em doenças raras, com foco em diferencial priorizado e ancoragem em códigos HPO / OMIM / ORPHA. Parte da pilha RarasNet (Raras-AI).

Uso rápido

from transformers import AutoModelForCausalLM, AutoProcessor
import torch

model_id = "Raras-AI/araras-gemma4-e4b-rare-diseases"
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype=torch.float16, device_map="auto"
)
processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {"role": "system", "content":
     "Você é ARARAS, especialista em doenças raras. Responda com raciocínio "
     "clínico estruturado, diferencial priorizado e códigos HPO/OMIM/ORPHA quando possível."},
    {"role": "user", "content":
     "Menino de 4 anos, hipotonia desde o nascimento, fraqueza progressiva proximal, "
     "CK 12.000 U/L, biópsia muscular com distrofia. Hipóteses?"},
]
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=768, temperature=0.2, top_p=0.9)
print(processor.decode(out[0], skip_special_tokens=True))

Aplicando só o adapter sobre o base

from peft import PeftModel
from transformers import AutoModelForCausalLM

base = AutoModelForCausalLM.from_pretrained("google/gemma-4-e4b", torch_dtype="float16", device_map="auto")
model = PeftModel.from_pretrained(base, "Raras-AI/araras-gemma4-e4b-rare-diseases", subfolder="adapter")

Detalhes do treino

Base: google/gemma-4-e4b (Gemma-4 E4B, Gemma4ForConditionalGeneration)
Método: LoRA SFT (Unsloth)
Plataforma: Kaggle (TPU/GPU)
Duração: ~442 min (7h22)
Loss final: 4.0493
Dataset: corpus clínico curado de doenças raras, português + inglês, com ancoragem HPO/OMIM/ORPHA
Pipeline: deploy/train_gemma4_e4b_kaggle.py no repo interno

Detalhes adicionais do pipeline e do corpus estão em TRAINING_PLAN.md do monorepo RarasNet.

Arquivos

adapter/ — pesos LoRA (73 MB) + configuração PEFT + tokenizer
merged_16bit/ — merge float16 completo do adapter no base (15.9 GB) — para quem quer pular o passo de merge
Modelfile — stub para serving local (Ollama / llama.cpp)

Nota sobre GGUF / Ollama: Gemma 4 ainda não tem conversor no llama.cpp upstream. O Modelfile incluso aponta para o merged_16bit e ficará funcional quando o suporte for mergeado. Enquanto isso, use o modelo via transformers ou vLLM.

Limitações e uso responsável

Este modelo é um apoio de raciocínio clínico, não substitui avaliação médica.
Pode alucinar códigos HPO/OMIM/ORPHA — sempre valide contra a ontologia oficial.
Corpus de treino cobre principalmente doenças com literatura em inglês e português; cobertura pode ser irregular para doenças ultrarraras com poucos casos descritos.
Não usar para decisões clínicas sem supervisão humana.

Licença

Herda a licença Gemma Terms of Use do modelo base. Uso clínico em produção requer revisão adicional.

Citação

@software{araras_gemma4_e4b_2026,
  title  = {ARARAS: Gemma-4 E4B SFT for Rare Disease Clinical Reasoning},
  author = {Raras-AI},
  year   = {2026},
  url    = {https://huggingface.co/Raras-AI/araras-gemma4-e4b-rare-diseases},
}

Downloads last month: -; Downloads are not tracked for this model. How to track