Сравнение qwen3 и metalgpt1

#7
by Shougakusei - opened

Сравнивую на датасете Alloy-Bench, параметры:
max_tokens = 2048
temperature = 0.6
top_p = 0.95
top_k = 20

Получаю одинаковую точность в ~75%, MetalGPT1 на пару процентов ниже.

Что я могу делать не так?

Sign up or log in to comment