story2dialogue-SODA-T5-LoRA

This model is a fine-tuned version of google-t5/t5-base on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 16
eval_batch_size: 16
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 3

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum	Bleu1	Bleu2	Bleu3	Bleu4	Avg Jaccard	Gen Length
2.1429	0.2938	1000	1.9285	0.1306	0.0518	0.1135	0.1135	0.7539	0.3521	0.1620	0.0764	0.0657	10.3782
2.0224	0.5876	2000	1.8245	0.1298	0.0518	0.1129	0.1129	0.7606	0.3651	0.1718	0.0825	0.0661	10.3641
1.9642	0.8814	3000	1.7781	0.1291	0.0524	0.1128	0.1128	0.7564	0.3765	0.1820	0.0903	0.0657	10.2462
1.918	1.1751	4000	1.7482	0.1282	0.0510	0.1117	0.1117	0.7504	0.3745	0.1845	0.0937	0.0658	10.3853
1.9062	1.4689	5000	1.7299	0.1257	0.0490	0.1101	0.1101	0.7484	0.3746	0.1868	0.0958	0.0649	10.3065
1.8854	1.7627	6000	1.7120	0.1270	0.0513	0.1114	0.1114	0.7504	0.3722	0.1851	0.0979	0.0647	10.2755

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Adapter

(83)

this model