wav2vec2-large-xlsr-facebook-300m-words-phoneme-exp-1-v17

This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.3240
Per Hf Metric: 0.1054
Per Avg: 0.1364

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 3e-05
train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 32
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 200
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Per Hf Metric	Per Avg
8.9257	1.0	102	4.4356	1.0	1.0
3.8907	2.0	204	3.1954	1.0	1.0
3.0197	3.0	306	2.8613	1.0	1.0
2.8507	4.0	408	2.7815	1.0	1.0
2.6814	5.0	510	2.4312	0.8502	0.8509
2.4649	6.0	612	2.3767	0.8505	0.8492
2.3858	7.0	714	2.2475	0.8465	0.8432
2.2354	8.0	816	2.1027	0.8093	0.8014
2.0775	9.0	918	1.9219	0.7763	0.7697
1.9098	10.0	1020	1.6439	0.7194	0.7163
1.7224	11.0	1122	1.4345	0.6400	0.6421
1.531	12.0	1224	1.2943	0.5491	0.5600
1.362	13.0	1326	1.0271	0.4115	0.4252
1.1924	14.0	1428	0.8114	0.2621	0.2877
1.0248	15.0	1530	0.6920	0.2009	0.2321
0.8676	16.0	1632	0.6024	0.1703	0.2002
0.79	17.0	1734	0.5444	0.1532	0.1820
0.7082	18.0	1836	0.5705	0.1588	0.1981
0.6739	19.0	1938	0.5077	0.1554	0.1905
0.6195	20.0	2040	0.4954	0.1394	0.1731
0.5803	21.0	2142	0.4857	0.1253	0.1669
0.5441	22.0	2244	0.4386	0.1184	0.1539
0.4789	23.0	2346	0.4330	0.1091	0.1459
0.4889	24.0	2448	0.3957	0.1091	0.1382
0.4573	25.0	2550	0.4106	0.1033	0.1376
0.4521	26.0	2652	0.3811	0.0998	0.1297
0.4254	27.0	2754	0.3582	0.1045	0.1332
0.4128	28.0	2856	0.3577	0.1011	0.1311
0.4057	29.0	2958	0.3930	0.1032	0.1390
0.373	30.0	3060	0.3837	0.1003	0.1350
0.3632	31.0	3162	0.3727	0.1077	0.1431
0.359	32.0	3264	0.3681	0.1035	0.1376
0.3291	33.0	3366	0.3384	0.0993	0.1302
0.3524	34.0	3468	0.3623	0.1066	0.1363
0.3217	35.0	3570	0.3869	0.1011	0.1365
0.3075	36.0	3672	0.3546	0.0961	0.1294
0.3118	37.0	3774	0.3240	0.1027	0.1337
0.2988	38.0	3876	0.3424	0.1013	0.1314
0.2877	39.0	3978	0.3796	0.1019	0.1347
0.2733	40.0	4080	0.3427	0.0990	0.1292
0.2721	41.0	4182	0.3920	0.0931	0.1280
0.2494	42.0	4284	0.3253	0.0913	0.1183
0.26	43.0	4386	0.3344	0.0963	0.1282
0.2541	44.0	4488	0.3282	0.0912	0.1212
0.25	45.0	4590	0.3678	0.0923	0.1227
0.257	46.0	4692	0.3467	0.0936	0.1257
0.2391	47.0	4794	0.3459	0.0955	0.1240

Framework versions

Transformers 4.55.2
Pytorch 2.8.0+cu126
Datasets 4.0.0
Tokenizers 0.21.4

Downloads last month: 4

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for alinerodrigues/wav2vec2-large-xlsr-facebook-300m-words-phoneme-exp-1-v17

Base model

facebook/wav2vec2-xls-r-300m

Finetuned

(836)

this model