File size: 2,461 Bytes
e6a6835 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 | {
"purpose": "Multi-seed evaluation across 10 stratified splits of the 200 user-level rows. With n=30 test users, single-seed metrics are noisy; multi-seed gives a reliable picture.",
"seeds_evaluated": [
42,
7,
13,
17,
23,
31,
45,
99,
123,
200
],
"per_seed": [
{
"seed": 42,
"test_n_classes": 3,
"accuracy": 0.6666666666666666,
"macro_f1": 0.6453546453546454,
"macro_roc_auc_ovr": 0.8016919142238835
},
{
"seed": 7,
"test_n_classes": 3,
"accuracy": 0.8666666666666667,
"macro_f1": 0.8139986139986141,
"macro_roc_auc_ovr": 0.877301738235242
},
{
"seed": 13,
"test_n_classes": 3,
"accuracy": 0.5333333333333333,
"macro_f1": 0.44536610343061955,
"macro_roc_auc_ovr": 0.737813083241472
},
{
"seed": 17,
"test_n_classes": 3,
"accuracy": 0.7333333333333333,
"macro_f1": 0.670995670995671,
"macro_roc_auc_ovr": 0.8726337896734316
},
{
"seed": 23,
"test_n_classes": 3,
"accuracy": 0.7,
"macro_f1": 0.6267942583732058,
"macro_roc_auc_ovr": 0.7978373158999758
},
{
"seed": 31,
"test_n_classes": 3,
"accuracy": 0.7666666666666667,
"macro_f1": 0.7068160597572363,
"macro_roc_auc_ovr": 0.8585702861598001
},
{
"seed": 45,
"test_n_classes": 3,
"accuracy": 0.6666666666666666,
"macro_f1": 0.6306595365418894,
"macro_roc_auc_ovr": 0.8429286802048951
},
{
"seed": 99,
"test_n_classes": 3,
"accuracy": 0.7333333333333333,
"macro_f1": 0.6844116844116844,
"macro_roc_auc_ovr": 0.7860817961521286
},
{
"seed": 123,
"test_n_classes": 3,
"accuracy": 0.6666666666666666,
"macro_f1": 0.6138888888888889,
"macro_roc_auc_ovr": 0.8116214620370631
},
{
"seed": 200,
"test_n_classes": 3,
"accuracy": 0.6666666666666666,
"macro_f1": 0.5367965367965367,
"macro_roc_auc_ovr": 0.738158799380027
}
],
"aggregate": {
"accuracy_mean": 0.7,
"accuracy_std": 0.08164965809277261,
"accuracy_min": 0.5333333333333333,
"accuracy_max": 0.8666666666666667,
"macro_f1_mean": 0.6375081998548991,
"macro_f1_std": 0.09333613924888397,
"roc_auc_mean": 0.8124638865207918,
"roc_auc_std": 0.047957223370412666
},
"published_artifact_seed": 42
} |