parity-embedding-juridico-br-v3

Modelo de embedding 100% jurídico brasileiro, treinado sobre dataset com filtro estrito de domínio (70+ regex de termos jurídicos).

Diferenças do v2

Dataset v2 continha frases de NLI genérico (ASSIN2 — "jóqueis montando cavalos") que poluíam o domínio jurídico.
v3 remove ASSIN2 e aplica regex estrito em todas as fontes.
Resultado: dataset menor mas 100% jurídico. Modelo aprende só sinais jurídicos.

Dataset

SamuelMauli/parity-juridico-dataset-v3

Uso

from sentence_transformers import SentenceTransformer
m = SentenceTransformer("SamuelMauli/parity-embedding-juridico-br-v3")
v = m.encode("Acórdão 244/2021 limita atestado quantitativo a 50%")

Owner

Doublethree / Parity (samuel.mauli@gmail.com)

Downloads last month: 21

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for SamuelMauli/parity-embedding-juridico-br-v3

Base model

sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

Quantized

(16)

this model