| --- |
| license: apache-2.0 |
| language: |
| - pt |
| pipeline_tag: text-classification |
| library_name: transformers |
| widget: |
| - text: | |
| As palavras "feliz" e "alegre" são sinônimos? |
| tags: |
| - portuguese |
| - bert |
| - sinônimos |
| model-index: |
| - name: simnonym |
| results: |
| - task: |
| type: text-generation |
| dataset: |
| type: lrds-code/sym-pair |
| name: sym-pair |
| config: pt |
| split: validation |
| metrics: |
| - type: Accuracy |
| value: 91.79 |
| datasets: |
| - lrds-code/sym-pair |
| --- |
| |
| <hr> |
|
|
| # Simnonym |
|
|
| Simnonym é um classificador BERT-based de sinônimos da língua portuguesa. |
|
|
| ## Entrada |
|
|
| A entrada deve sempre seguir o template do prompt |
| - **'As palavras "{}" e "{}" são sinônimos?'** |
|
|
| ## Dados de Treinamento |
|
|
| O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair). |
|
|
| Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não. |
|
|
| Sym-Pair é composto por: |
| - Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)). |
| - Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos. |
|
|
| ## Descrição do Modelo |
|
|
| - **Desenvolvido por:** [Leonardo Souza](https://huggingface.co/lrds-code) |
| - **Tipo do modelo:** BERT |
| - **Licença:** Apache 2.0 |
| - **Fine-tunado do modelo:** [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased) |
|
|
| ## Como Usar |
|
|
| Exemplo de uma única classificação: |
| |
| ```python |
| import torch |
| from transformers import AutoTokenizer |
| from transformers import AutoModelForSequenceClassification |
| |
| model_name = 'lrds-code/simnonym' |
| |
| tokenizer = AutoTokenizer.from_pretrained(model_name) |
| model = AutoModelForSequenceClassification.from_pretrained(model_name) |
| |
| inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt') |
| |
| with torch.no_grad(): |
| output = model(**inputs).logits |
| |
| predict_id = logits.argmax().item() |
| model.config.id2label[predict_id] |
| ``` |