Modelo de Reconhecimento de Entidades Nomeadas para Textos Geológicos
Descrição do Modelo
Modelo especializado de Reconhecimento de Entidades Nomeadas treinado em textos do domínio geológico e petrolífero em português. O modelo foi ajustado para identificar e classificar 13 tipos diferentes de entidades geológicas comumente encontradas em relatórios técnicos, artigos científicos e documentação da indústria.
Performance do Modelo
Desempenho em todas as classes de entidades:
| Classe de Entidade | Precisão | Recall | F1-Score | Suporte |
|---|---|---|---|---|
| BACIA | 0.91 | 0.96 | 0.94 | 581 |
| CAMPO | 0.87 | 0.81 | 0.84 | 99 |
| ESTRUTURA_FISICA | 0.89 | 0.84 | 0.86 | 396 |
| FLUIDODATERRA | 0.89 | 0.85 | 0.87 | 339 |
| FOSSEIS | 0.90 | 0.76 | 0.82 | 336 |
| MINERAIS | 0.93 | 0.83 | 0.88 | 217 |
| NAO_CONSOLID | 0.89 | 0.69 | 0.78 | 131 |
| PALEOAMBIENTE | 0.85 | 0.71 | 0.77 | 486 |
| POÇO | 0.97 | 0.92 | 0.94 | 84 |
| ROCHA | 0.93 | 0.93 | 0.93 | 848 |
| TEXTURA | 0.88 | 0.79 | 0.84 | 29 |
| UNIDADE_CRONO | 0.95 | 0.96 | 0.95 | 1119 |
| UNIDADE_LITO | 0.91 | 0.88 | 0.90 | 468 |
Performance Geral:
- Média Micro: Precisão: 0.91, Recall: 0.88, F1-Score: 0.90
- Média Macro: Precisão: 0.91, Recall: 0.84, F1-Score: 0.87
- Média Ponderada: Precisão: 0.91, Recall: 0.88, F1-Score: 0.89
Classes de Entidades
O modelo reconhece 13 tipos de entidades geológicas:
- BACIA: Bacias geológicas e áreas sedimentares
- CAMPO: Campos de petróleo e gás
- ESTRUTURA_FISICA: Estruturas e arranjos de rochas
- FLUIDODATERRA: Fluidos geológicos
- FOSSEIS: Restos fósseis e evidências paleontológicas
- MINERAIS: Composições e tipos minerais
- NAO_CONSOLID: Materiais geológicos não consolidados
- PALEOAMBIENTE: Ambientes sedimentares antigos
- POÇO: Poços de petróleo/gás e locais de perfuração
- ROCHA: Tipos e formações rochosas
- TEXTURA: Texturas e padrões de rochas
- UNIDADE_CRONO: Períodos de tempo geológico
- UNIDADE_LITO: Formações litoestratigráficas
Citação
@inproceedings{moreira2025petrogeoner,
title={PetroGeoNER: A Refined and Unified Dataset for NER in the Oil \& Gas Domain},
author={Moreira, Higor and da Silva, Patricia Ferreira and Vieira, Renata and Moreira, Viviane},
booktitle={Simp{\'o}sio Brasileiro de Tecnologia da Informa{\c{c}}{\~a}o e da Linguagem Humana (STIL)},
pages={259--271},
year={2025},
organization={SBC}
}
- Downloads last month
- 1
Model tree for hmoreira/xlm-roberta-large-petrogeoner
Base model
FacebookAI/xlm-roberta-large