{
  "purpose": "Multi-seed evaluation across 10 stratified splits of the 200 user-level rows. With n=30 test users, single-seed metrics are noisy; multi-seed gives a reliable picture.",
  "seeds_evaluated": [
    42,
    7,
    13,
    17,
    23,
    31,
    45,
    99,
    123,
    200
  ],
  "per_seed": [
    {
      "seed": 42,
      "test_n_classes": 3,
      "accuracy": 0.6666666666666666,
      "macro_f1": 0.6453546453546454,
      "macro_roc_auc_ovr": 0.8016919142238835
    },
    {
      "seed": 7,
      "test_n_classes": 3,
      "accuracy": 0.8666666666666667,
      "macro_f1": 0.8139986139986141,
      "macro_roc_auc_ovr": 0.877301738235242
    },
    {
      "seed": 13,
      "test_n_classes": 3,
      "accuracy": 0.5333333333333333,
      "macro_f1": 0.44536610343061955,
      "macro_roc_auc_ovr": 0.737813083241472
    },
    {
      "seed": 17,
      "test_n_classes": 3,
      "accuracy": 0.7333333333333333,
      "macro_f1": 0.670995670995671,
      "macro_roc_auc_ovr": 0.8726337896734316
    },
    {
      "seed": 23,
      "test_n_classes": 3,
      "accuracy": 0.7,
      "macro_f1": 0.6267942583732058,
      "macro_roc_auc_ovr": 0.7978373158999758
    },
    {
      "seed": 31,
      "test_n_classes": 3,
      "accuracy": 0.7666666666666667,
      "macro_f1": 0.7068160597572363,
      "macro_roc_auc_ovr": 0.8585702861598001
    },
    {
      "seed": 45,
      "test_n_classes": 3,
      "accuracy": 0.6666666666666666,
      "macro_f1": 0.6306595365418894,
      "macro_roc_auc_ovr": 0.8429286802048951
    },
    {
      "seed": 99,
      "test_n_classes": 3,
      "accuracy": 0.7333333333333333,
      "macro_f1": 0.6844116844116844,
      "macro_roc_auc_ovr": 0.7860817961521286
    },
    {
      "seed": 123,
      "test_n_classes": 3,
      "accuracy": 0.6666666666666666,
      "macro_f1": 0.6138888888888889,
      "macro_roc_auc_ovr": 0.8116214620370631
    },
    {
      "seed": 200,
      "test_n_classes": 3,
      "accuracy": 0.6666666666666666,
      "macro_f1": 0.5367965367965367,
      "macro_roc_auc_ovr": 0.738158799380027
    }
  ],
  "aggregate": {
    "accuracy_mean": 0.7,
    "accuracy_std": 0.08164965809277261,
    "accuracy_min": 0.5333333333333333,
    "accuracy_max": 0.8666666666666667,
    "macro_f1_mean": 0.6375081998548991,
    "macro_f1_std": 0.09333613924888397,
    "roc_auc_mean": 0.8124638865207918,
    "roc_auc_std": 0.047957223370412666
  },
  "published_artifact_seed": 42
}