riv-ai-v2 / README.md
ia-espirita's picture
Update README.md
85d0c82 verified
---
language:
- pt
license: apache-2.0
tags:
- spiritism
- kardec
- espiritismo
- allan-kardec
- religion
- portuguese
- brazilian
- fine-tuned
- qlora
- llama-3.1
- spirituality
- riv-ai
- espírita
- unsloth
- GGUF
- llama.cpp
datasets:
- ia-espirita/riv-ai-v2-dataset
base_model: meta-llama/Meta-Llama-3.1-8B-Instruct
pipeline_tag: text-generation
model-index:
- name: riv-ai-v2
results: []
---
# 🔮 RIV AI v2 — Modelo de IA Espírita Open Source
<p align="center">
<img src="https://img.shields.io/badge/Versão-2.0-6B0FD4?style=for-the-badge" />
<img src="https://img.shields.io/badge/Base-Llama_3.1_8B-00D4FF?style=for-the-badge" />
<img src="https://img.shields.io/badge/Doutrina-Kardec_Completo-orange?style=for-the-badge" />
<img src="https://img.shields.io/badge/Língua-Português_BR-green?style=for-the-badge" />
<img src="https://img.shields.io/badge/Fine--tuning-QLoRA-red?style=for-the-badge" />
<img src="https://img.shields.io/badge/GGUF-Q4__K__M-yellow?style=for-the-badge" />
</p>
> **🆕 Versão 2.0 — atualização significativa.** Esta é a evolução do [RIV AI v1](https://huggingface.co/ia-espirita/riv-ai), agora baseada em **Llama 3.1** e treinada com a obra de **Allan Kardec praticamente completa**: as 5 obras da Codificação + obras complementares + Revistas Espíritas (1858–1869). Dataset **4× maior** que a v1.
**RIV AI** (homenagem a Hippolyte Léon Denizard **Riv**ail — Allan Kardec) é um modelo de linguagem open-source treinado na **Doutrina Espírita**, conforme codificada e desenvolvida por **Allan Kardec**.
A v2 foi fine-tunada via **QLoRA** sobre o **Llama 3.1 8B Instruct** com um dataset expandido de **4.896 pares de pergunta/resposta** extraídos da obra integral de Kardec. O objetivo é oferecer um assistente que responda sobre a Doutrina com **fidelidade doutrinária** e **citação de fontes**, servindo como ferramenta de estudo, divulgação e replicação científica.
> *"O Espiritismo é uma ciência que trata da natureza, origem e destino dos Espíritos, bem como de suas relações com o mundo corporal."*
> — Allan Kardec, *O Livro dos Espíritos*, Introdução.
---
## 🆕 O que mudou da v1 para a v2
| | **v1** | **v2** |
|---|---|---|
| **Modelo base** | Llama 3.0 8B Instruct | **Llama 3.1 8B Instruct** |
| **Pares no dataset** | ~1.200 | **4.896** (4× maior) |
| **Cobertura doutrinária** | 5 obras da Codificação | **Codificação + Complementares + Revistas Espíritas** |
| **Épocas** | 3 | 2 (compensa o dataset maior, evita overfit) |
| **Total de steps** | ~450 | 1.224 |
| **Loss final** | 0,64 | **0,74** (esperado e desejado — ver explicação abaixo) |
| **Repositório** | `ia-espirita/riv-ai` | `ia-espirita/riv-ai-v2` |
### Por que a loss da v2 é maior — e por que isso é positivo
A loss absoluta da v2 (0,74) é numericamente maior que a v1 (0,64), mas isso **não significa pior qualidade**. Pelo contrário:
- **Dataset 4× maior** = maior diversidade lexical e temática → o modelo generaliza em vez de memorizar
- **2 épocas vs 3** = redução intencional de exposição repetida → menos overfitting literal
- **Cobertura ampliada** = mais conceitos novos sendo aprendidos → loss converge mais alto, mas a representação é mais rica
Em resumo: a v1 ficou mais "decorada" no escopo restrito da Codificação. A v2 está mais "compreendendo" um corpus muito maior. Para uso real (RAG + geração), a v2 entrega respostas mais robustas e com contextualização mais ampla.
---
## 📦 Arquivos disponíveis
| Arquivo | Formato | Tamanho | Uso |
|---------|---------|---------|-----|
| `meta-llama-3.1-8b-instruct.Q4_K_M.gguf` | GGUF 4-bit | ~4,9 GB | Ollama, LM Studio, llama.cpp |
| `adapter_model.safetensors` | LoRA adapter | ~168 MB | Transformers + PEFT (Python) |
| Modelo merged 16-bit | Safetensors (4 shards) | ~16 GB | vLLM, deploy server |
---
## 🎯 Para que serve?
Este modelo foi criado para responder perguntas sobre a Doutrina Espírita com:
- **Precisão doutrinária** — fundamentado na obra integral de Allan Kardec
- **Citação de fontes** — toda resposta referencia livro, questão e/ou capítulo
- **Tom acolhedor e didático** — como um amigo estudioso explicando Kardec
- **Analogias modernas** — traduz conceitos espíritas para linguagem contemporânea quando apropriado
- **Português brasileiro** — treinado nativamente em PT-BR
### Exemplos de perguntas que o modelo responde:
| Pergunta | Fonte da resposta |
|----------|-------------------|
| O que é Deus? | *O Livro dos Espíritos*, questão 1 |
| Animais têm espírito? | *O Livro dos Espíritos*, questões 597-602 |
| O que acontece quando morremos? | *O Livro dos Espíritos*, questões 149-165 |
| O que é mediunidade? | *O Livro dos Médiuns*, cap. 14 |
| O que é o perispírito? | *O Livro dos Espíritos*, questões 93-95 |
| Como surgiu o Espiritismo? | *Revista Espírita*, 1858 / *O Que É o Espiritismo* |
| O que é o Espiritismo em poucas palavras? | *O Que É o Espiritismo*, "Resumo da Doutrina" |
| Como conduzir uma sessão mediúnica? | *Instruções Práticas sobre as Manifestações Espíritas* (1858) |
| Existe céu e inferno? | *O Céu e o Inferno*, Parte Primeira |
| Como fazer o Evangelho no Lar? | *O Evangelho Segundo o Espiritismo*, cap. 28 |
| Ciência e Espiritismo se contradizem? | *A Gênese*, cap. 1 |
---
## 💻 Como usar
### Com Ollama (mais fácil)
```bash
ollama run iaespirita/riv-ai-v2
```
Modelo disponível em: [ollama.com/iaespirita/riv-ai-v2](https://ollama.com/iaespirita/riv-ai-v2)
### Com LM Studio
1. Baixe o arquivo `meta-llama-3.1-8b-instruct.Q4_K_M.gguf` deste repositório
2. Abra o LM Studio e importe o arquivo
3. Configure o system prompt:
> *Você é RIV AI, um assistente especializado em Doutrina Espírita. Responda de forma objetiva, didática e precisa, sempre citando a fonte (obra, questão ou capítulo) ao final. Use português brasileiro.*
4. Comece a conversar
### Com llama.cpp
```bash
llama-cli -hf ia-espirita/riv-ai-v2 --jinja
```
### Com Transformers (Python)
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "ia-espirita/riv-ai-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
messages = [
{"role": "system", "content": "Você é RIV AI, um assistente especializado em Doutrina Espírita. Responda de forma objetiva, didática e precisa, sempre citando a fonte (obra, questão ou capítulo) ao final. Use português brasileiro."},
{"role": "user", "content": "O que acontece quando morremos?"}
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
output = model.generate(input_ids, max_new_tokens=512, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))
```
### Com vLLM (servidor OpenAI-compatible)
```bash
python -m vllm.entrypoints.openai.api_server \
--model ia-espirita/riv-ai-v2 \
--port 8000
```
---
## 📚 Fontes do treinamento
O dataset v2 foi construído a partir da **obra integral de Allan Kardec em domínio público**, organizada em três blocos:
### Bloco 1 — Codificação Espírita (5 obras canônicas)
| Obra | Ano | Estrutura | Tema central |
|------|-----|-----------|--------------|
| **O Livro dos Espíritos** | 1857 | 1.019 questões em 4 partes | Deus, espíritos, leis morais, vida futura |
| **O Livro dos Médiuns** | 1861 | 32 capítulos, 370 itens | Mediunidade, manifestações e comunicação |
| **O Evangelho Segundo o Espiritismo** | 1864 | 28 capítulos | Moral de Jesus à luz do Espiritismo |
| **O Céu e o Inferno** | 1865 | 2 partes (doutrina + relatos) | Justiça divina, penas e recompensas futuras |
| **A Gênese** | 1868 | 18 capítulos | Ciência e Espiritismo: criação, milagres, profecias |
### Bloco 2 — Obras complementares de Kardec
| Obra | Ano | Estrutura | Tema central |
|------|-----|-----------|--------------|
| **Instruções Práticas sobre as Manifestações Espíritas** | 1858 | Manual prático | Primeira obra de Kardec sobre o tema. Como conduzir reuniões mediúnicas, glossário inicial |
| **O Que É o Espiritismo** | 1859 | Opúsculo em 3 capítulos | Introdução em formato de diálogo: explica a Doutrina para iniciantes e céticos |
### Bloco 3 — Revistas Espíritas
| Obra | Ano | Estrutura | Tema central |
|------|-----|-----------|--------------|
| **Revista Espírita — Jornal de Estudos Psicológicos** | 1858–1869 | 12 volumes anuais | Periódico mensal editado por Kardec. Artigos, comunicações mediúnicas, debates, comentários doutrinários, casos práticos |
**Todas as obras são de domínio público** (Allan Kardec faleceu em 1869; obras publicadas entre 1857–1869).
---
## 🔧 Detalhes técnicos do treinamento
| Parâmetro | Valor |
|-----------|-------|
| **Modelo base** | `meta-llama/Meta-Llama-3.1-8B-Instruct` |
| **Método** | QLoRA (4-bit quantization) |
| **Framework** | Unsloth 2026.4.8 (2× faster) |
| **Dataset** | 4.896 pares Q&A no formato ShareGPT |
| **Idioma** | Português Brasileiro |
| **Hardware** | NVIDIA Tesla T4 (Google Colab) |
| **Precisão** | fp16 (T4 não suporta bf16) |
| **Épocas** | 2 |
| **Total steps** | 1.224 |
| **Batch size efetivo** | 8 (2 per device × 4 gradient accumulation × 1 GPU) |
| **Learning rate** | 2e-4 |
| **LR scheduler** | linear |
| **Warmup steps** | 10 |
| **Weight decay** | 0,01 |
| **Optimizer** | AdamW 8-bit |
| **LoRA rank (r)** | 16 |
| **LoRA alpha** | 32 |
| **LoRA dropout** | 0 |
| **LoRA target modules** | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| **Trainable parameters** | 41.943.040 / 8.072.204.288 (**0,52%**) |
| **Max seq length** | 2048 |
| **Random seed** | 3407 |
| **Gradient checkpointing** | Unsloth optimized |
| **Tempo de treino** | ~1h50min em T4 |
| **GGUF quantization** | Q4_K_M (~4,9 GB) |
### Curva de loss (amostragem a cada 20 steps)
```
Step 20 → 1,669 (warmup)
Step 100 → 1,010
Step 200 → 1,003
Step 300 → 0,969
Step 400 → 0,957
Step 500 → 0,958
Step 600 → 0,938 (fim da época 1)
Step 620 → 0,856 (início da época 2 — drop natural)
Step 700 → 0,762
Step 800 → 0,755
Step 900 → 0,741
Step 1000 → 0,731
Step 1100 → 0,741
Step 1180 → 0,742 (convergência)
```
A curva mostra duas fases distintas: **descida acentuada no warmup → estabilização ao redor de 0,95 na primeira época → segundo drop quando inicia a segunda época → convergência estável em ~0,74**.
---
## 📊 Dataset
O dataset está publicado em [`ia-espirita/riv-ai-v2-dataset`](https://huggingface.co/datasets/ia-espirita/riv-ai-v2-dataset).
### Distribuição por bloco
| Bloco | Pares aproximados |
|-------|-------------------|
| Codificação Espírita (5 obras) | ~1.200 |
| Obras complementares (Instruções Práticas + O Que É o Espiritismo) | ~600 |
| Revistas Espíritas (12 volumes) | ~3.000 |
| Temas modernos / sintéticos / existenciais | ~100 |
| **Total** | **4.896** |
### Formato
```json
{
"conversations": [
{"from": "human", "value": "Animais têm alma segundo a Doutrina Espírita?"},
{"from": "gpt", "value": "Sim, os animais possuem um princípio inteligente que sobrevive à morte do corpo físico. Esse princípio evolui progressivamente através dos reinos da natureza...\n\n📖 Fonte: O Livro dos Espíritos, questões 597-602."}
]
}
```
---
## 🔮 Por que "RIV"?
**RIV** é uma homenagem a **Riv**ail — o verdadeiro nome de Allan Kardec.
Hippolyte Léon Denizard Rivail (1804-1869) foi o pedagogo francês que codificou a Doutrina Espírita. Ele adotou o pseudônimo "Allan Kardec" para separar seu trabalho acadêmico da obra espírita. O nome RIV AI conecta a tradição kardecista com a era da inteligência artificial — o passado e o futuro do conhecimento espírita.
---
## ⚠️ Limitações e uso responsável
- Este modelo é uma **ferramenta de estudo**, não substitui a leitura das obras originais de Allan Kardec.
- **Citações específicas (questões, capítulos, itens) podem conter imprecisões.** O modelo aprende a estrutura e o conceito doutrinário, mas pode ocasionalmente gerar numerações incorretas. **Sempre verifique a citação na obra original.**
- Não é um médium e não recebe mensagens de espíritos.
- Não faz previsões do futuro nem prescreve tratamentos médicos.
- Para questões de mediunidade prática, sempre procure um centro espírita presencialmente.
- Para temas sensíveis como suicídio, o modelo orienta o contato com o **CVV (188)**.
- O dataset desta v2 cobre a obra de **Allan Kardec**. Para conteúdo da série André Luiz (psicografia de Chico Xavier), use o modelo companheiro [`ia-espirita/andre-luiz-ai`](https://huggingface.co/ia-espirita/andre-luiz-ai). Obras de Emmanuel, Divaldo Franco e outros autores mediúnicos poderão ser incluídas em versões futuras.
---
## 🗺️ Roadmap
- [x] **v1.0** — Codificação Espírita (5 obras de Allan Kardec)
- [x] **v2.0** — Codificação + Instruções Práticas + O Que É o Espiritismo + Revistas Espíritas (este modelo)
- [ ] **v3.0** — Obras de Emmanuel, Divaldo Franco e ESDE
- [ ] **v4.0** — Versão em Espanhol (es)
- [ ] **v5.0** — Versão em Inglês (en)
---
## 🌐 Projeto IA.Espirita
O RIV AI v2 é a versão open-source do projeto IA.Espirita — Doutrina Espírita na Era da Inteligência Artificial. O **RIV IA** ([iaespirita.com](https://iaespirita.com)) usa uma arquitetura mais robusta (modelo base maior com reasoning + RAG estrito sobre o mesmo corpus), enquanto este modelo é publicado como artefato de pesquisa, replicação e deploy offline.
| Plataforma | Link |
|------------|------|
| 🌐 Site | [iaespirita.com](https://iaespirita.com) |
| 🤖 RIV IA (chatbot) | [Converse agora](https://iaespirita.com) |
| ▶️ YouTube | [@ia.espirita](https://youtube.com/@ia.espirita) |
| 🎵 TikTok | [@ia.esprita](https://tiktok.com/@ia.esprita) |
| 📸 Instagram | [@ia.espirita](https://instagram.com/ia.espirita) |
| 🎧 Spotify | [IA.Espirita Podcast](https://open.spotify.com/show/4Xf22wuDUlJUnMx2hjWV7A) |
| 🐦 X/Twitter | [@IAEspiritaBR](https://x.com/IAEspiritaBR) |
| 📧 E-mail | [contato@iaespirita.com.br](mailto:contato@iaespirita.com.br) |
---
## 📜 Licença
O modelo é distribuído sob licença **Apache 2.0**.
As obras de Allan Kardec utilizadas no treinamento são de **domínio público** (publicadas entre 1857-1869).
---
## 🙏 Citação
```bibtex
@misc{iaespirita2026rivaiv2,
title={RIV AI v2: Modelo de IA Espírita Open Source baseado na obra integral de Allan Kardec},
author={IA.Espirita},
year={2026},
url={https://huggingface.co/ia-espirita/riv-ai-v2},
note={Fine-tuned on Llama 3.1 8B Instruct with QLoRA using Allan Kardec's complete works (Codification + Practical Instructions + What is Spiritism + Revue Spirite 1858-1869)}
}
```
---
## 🤝 Contribuições
Contribuições são bem-vindas. Se você é estudioso da Doutrina Espírita e/ou desenvolvedor:
- 📝 Revise e expanda o dataset com novas perguntas e respostas
- 🧪 Teste o modelo e reporte erros doutrinários (especialmente citações imprecisas)
- 🌍 Ajude a traduzir o dataset para espanhol e inglês
- 📚 Contribua com dados de obras mediúnicas para as próximas versões
Abra uma issue ou pull request neste repositório.
---
<p align="center">
<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>
<br>
<i>"Nascer, morrer, renascer ainda e progredir sem cessar, tal é a Lei."</i><br>
— Allan Kardec, epitáfio em seu túmulo no cemitério Père-Lachaise, Paris.
</p>