parity-embedding-juridico-br-v3

Modelo de embedding 100% jurídico brasileiro, treinado sobre dataset com filtro estrito de domínio (70+ regex de termos jurídicos).

Diferenças do v2

  • Dataset v2 continha frases de NLI genérico (ASSIN2 — "jóqueis montando cavalos") que poluíam o domínio jurídico.
  • v3 remove ASSIN2 e aplica regex estrito em todas as fontes.
  • Resultado: dataset menor mas 100% jurídico. Modelo aprende sinais jurídicos.

Dataset

SamuelMauli/parity-juridico-dataset-v3

Uso

from sentence_transformers import SentenceTransformer
m = SentenceTransformer("SamuelMauli/parity-embedding-juridico-br-v3")
v = m.encode("Acórdão 244/2021 limita atestado quantitativo a 50%")

Owner

Doublethree / Parity (samuel.mauli@gmail.com)

Downloads last month
21
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SamuelMauli/parity-embedding-juridico-br-v3