Luckeciano Carvalho Melo's picture

Luckeciano Carvalho Melo

luckeciano

·

https://luckeciano.github.io

AI & ML interests

Reinforcement Learning

Organizations

luckeciano 's models 1,128

luckeciano/Qwen-2.5-7B-Missing-Response-RL-Baseline

Text Generation • 8B • Updated Apr 8, 2025 • 2

luckeciano/Qwen-2.5-7B-Len-Penalty-Baseline

Text Generation • 8B • Updated Apr 8, 2025 • 2

luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.4

Text Generation • 8B • Updated Apr 7, 2025 • 2

luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-0.1

Text Generation • 8B • Updated Apr 6, 2025 • 2

luckeciano/Qwen-2.5-7B-Len-Penalty

Updated Apr 6, 2025

luckeciano/Qwen-2.5-7B-Answer-Entropy-RL-1

Updated Apr 5, 2025

luckeciano/Qwen-2.5-0.5B-Instruct-Answer-Entropy-RL

Updated Apr 5, 2025

luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.25

Text Generation • 8B • Updated Apr 5, 2025 • 2

luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-0.1

Text Generation • 8B • Updated Apr 5, 2025 • 2

luckeciano/Qwen-2.5-7B-Embedding-Entropy-RL-Len-Penalty

Text Generation • 8B • Updated Apr 4, 2025 • 4

luckeciano/Qwen-2.5-1.5B-Simple-RL

Text Generation • 2B • Updated Mar 25, 2025 • 4

luckeciano/Qwen-2.5-0.5B-Instruct-Simple-RL

Updated Mar 18, 2025

luckeciano/pku-alpaca3.1-8b-gt-reward-model

Updated Jan 31, 2025

luckeciano/pku-alpaca3.1-8b-gt-rewards

Updated Sep 9, 2024

luckeciano/merged-hermes-reward-model-reddit

Text Classification • 7B • Updated Feb 2, 2024 • 2

luckeciano/merged-llama7b-reward-model-reddit

Text Classification • Updated Jan 19, 2024 • 2

luckeciano/merged-gpt2-xl-sft-reddit

Text Generation • Updated Dec 12, 2023 • 5

luckeciano/merged-llama-sft-reddit

Text Generation • Updated Dec 11, 2023 • 5