Modelo de Reconhecimento de Entidades Nomeadas para Textos Geológicos

Descrição do Modelo

Modelo especializado de Reconhecimento de Entidades Nomeadas treinado em textos do domínio geológico e petrolífero em português. O modelo foi ajustado para identificar e classificar 13 tipos diferentes de entidades geológicas comumente encontradas em relatórios técnicos, artigos científicos e documentação da indústria.

Performance do Modelo

Desempenho em todas as classes de entidades:

Classe de Entidade Precisão Recall F1-Score Suporte
BACIA 0.91 0.96 0.94 581
CAMPO 0.87 0.81 0.84 99
ESTRUTURA_FISICA 0.89 0.84 0.86 396
FLUIDODATERRA 0.89 0.85 0.87 339
FOSSEIS 0.90 0.76 0.82 336
MINERAIS 0.93 0.83 0.88 217
NAO_CONSOLID 0.89 0.69 0.78 131
PALEOAMBIENTE 0.85 0.71 0.77 486
POÇO 0.97 0.92 0.94 84
ROCHA 0.93 0.93 0.93 848
TEXTURA 0.88 0.79 0.84 29
UNIDADE_CRONO 0.95 0.96 0.95 1119
UNIDADE_LITO 0.91 0.88 0.90 468

Performance Geral:

  • Média Micro: Precisão: 0.91, Recall: 0.88, F1-Score: 0.90
  • Média Macro: Precisão: 0.91, Recall: 0.84, F1-Score: 0.87
  • Média Ponderada: Precisão: 0.91, Recall: 0.88, F1-Score: 0.89

Classes de Entidades

O modelo reconhece 13 tipos de entidades geológicas:

  • BACIA: Bacias geológicas e áreas sedimentares
  • CAMPO: Campos de petróleo e gás
  • ESTRUTURA_FISICA: Estruturas e arranjos de rochas
  • FLUIDODATERRA: Fluidos geológicos
  • FOSSEIS: Restos fósseis e evidências paleontológicas
  • MINERAIS: Composições e tipos minerais
  • NAO_CONSOLID: Materiais geológicos não consolidados
  • PALEOAMBIENTE: Ambientes sedimentares antigos
  • POÇO: Poços de petróleo/gás e locais de perfuração
  • ROCHA: Tipos e formações rochosas
  • TEXTURA: Texturas e padrões de rochas
  • UNIDADE_CRONO: Períodos de tempo geológico
  • UNIDADE_LITO: Formações litoestratigráficas

Citação

@inproceedings{moreira2025petrogeoner,
  title={PetroGeoNER: A Refined and Unified Dataset for NER in the Oil \& Gas Domain},
  author={Moreira, Higor and da Silva, Patricia Ferreira and Vieira, Renata and Moreira, Viviane},
  booktitle={Simp{\'o}sio Brasileiro de Tecnologia da Informa{\c{c}}{\~a}o e da Linguagem Humana (STIL)},
  pages={259--271},
  year={2025},
  organization={SBC}
}
Downloads last month
1
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hmoreira/xlm-roberta-large-petrogeoner

Finetuned
(929)
this model

Dataset used to train hmoreira/xlm-roberta-large-petrogeoner