lrds-code
/

simnonym

Text Classification

Eval Results (legacy)

text-embeddings-inference

Model card Files Files and versions

simnonym / README.md

lrds-code's picture

Update README.md

b27ba23 verified about 2 years ago

|

history blame contribute delete

2.16 kB

	---
	license: apache-2.0
	language:
	- pt
	pipeline_tag: text-classification
	library_name: transformers
	widget:
	- text: \|
	As palavras "feliz" e "alegre" são sinônimos?
	tags:
	- portuguese
	- bert
	- sinônimos
	model-index:
	- name: simnonym
	results:
	- task:
	type: text-generation
	dataset:
	type: lrds-code/sym-pair
	name: sym-pair
	config: pt
	split: validation
	metrics:
	- type: Accuracy
	value: 91.79
	datasets:
	- lrds-code/sym-pair
	---

	<hr>

	# Simnonym

	Simnonym é um classificador BERT-based de sinônimos da língua portuguesa.

	## Entrada

	A entrada deve sempre seguir o template do prompt
	- 'As palavras "{}" e "{}" são sinônimos?'

	## Dados de Treinamento

	O modelo foi treinado e avaliado no conjunto de dados [Sym-Pair](lrds-code/sym-pair).

	Sym-Pair possui aproximadamente 1.5 milhões de sentenças que comparam pares de palavras. Esses pares podem ser sinônimos ou não.

	Sym-Pair é composto por:
	- Pares de sinônimos e antônimos obtidos de dois datasets ([DicSin](https://github.com/fititnt/DicSin-dicionario-sinonimos-portugues-brasileiro) e [Portuguese Brazilian Synonyms](https://github.com/stavarengo/portuguese-brazilian-synonyms)).
	- Pares aleatórios de palavras não relacionadas. Obtidos através de combinação aleatória do conjunto de sinônimos.

	## Descrição do Modelo

	- Desenvolvido por: [Leonardo Souza](https://huggingface.co/lrds-code)
	- Tipo do modelo: BERT
	- Licença: Apache 2.0
	- Fine-tunado do modelo: [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased)

	## Como Usar

	Exemplo de uma única classificação:

	```python
	import torch
	from transformers import AutoTokenizer
	from transformers import AutoModelForSequenceClassification

	model_name = 'lrds-code/simnonym'

	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSequenceClassification.from_pretrained(model_name)

	inputs = tokenizer('As palavras "feliz" e "alegre" são sinônimos?', return_tensors='pt')

	with torch.no_grad():
	output = model(**inputs).logits

	predict_id = logits.argmax().item()
	model.config.id2label[predict_id]
	```