FIRL-Abalone-REINFORCE++ - a nickhe Collection

nickhe 's Collections

updated Jan 25

Saved LORA adapter checkpoints from training Qwen2.5-7B to generate decision trees for Abalone age regression dataset, using reinforce++ algorithm.