mms-300m-amh-matewosx

This model is a fine-tuned version of facebook/mms-300m on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 30
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss	Wer	Cer
8.2224	0.4209	500	4.1240	1.0	1.0
8.1967	0.8418	1000	4.0965	1.0	1.0
8.1930	1.2626	1500	4.0816	1.0	1.0
8.0075	1.6835	2000	3.9886	0.9985	0.9931
5.9809	2.1044	2500	2.6265	0.9988	0.6725
1.9546	2.5253	3000	0.6612	0.4666	0.1509
1.5891	2.9461	3500	0.5417	0.3780	0.1210
1.4711	3.3670	4000	0.4786	0.3412	0.1086
1.4025	3.7879	4500	0.4494	0.3345	0.1054
1.4410	4.2088	5000	0.4487	0.3194	0.1019
1.2083	4.6296	5500	0.4384	0.3156	0.1002
1.1199	5.0505	6000	0.4265	0.3091	0.0986
1.2789	5.4714	6500	0.4436	0.3083	0.0986
1.2491	5.8923	7000	0.4328	0.3088	0.0985
1.2187	6.3131	7500	0.4934	0.3369	0.1062

Safetensors

Model size

0.3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support