14 10

Иван Сергеев

qq-5678

AI & ML interests

None yet

Recent Activity

liked a dataset 3 days ago

OpenAssistant/oasst1

upvoted a paper 3 days ago

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

liked a dataset 5 days ago

HuggingFaceFW/finepdfs

View all activity

Organizations

None yet

liked a dataset 3 days ago

OpenAssistant/oasst1

Viewer • Updated May 2, 2023 • 88.8k • 12k • 1.5k

upvoted a paper 3 days ago

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Paper • 2604.02288 • Published 13 days ago • 30

liked a dataset 5 days ago

HuggingFaceFW/finepdfs

Viewer • Updated 11 days ago • 476M • 20.9k • 840

upvoted a paper 5 days ago

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Paper • 2604.02721 • Published 12 days ago • 352

liked a dataset 6 days ago

zvzv1919/plain_claudeopus46_30t_prompterv1.2

Viewer • Updated 6 days ago • 20 • 45

upvoted a paper 7 days ago

Adam's Law: Textual Frequency Law on Large Language Models

Paper • 2604.02176 • Published 13 days ago • 469

liked a dataset 11 days ago

uonlp/CulturaX

Viewer • Updated Dec 16, 2024 • 7.18B • 17.7k • 610

liked a dataset 12 days ago

asdnao21/RM_Model_Infer

Viewer • Updated 9 days ago • 5.9k • 14.3k

liked a model 14 days ago

colbert-ir/colbertv2.0

Updated Apr 5, 2024 • 15.1M • 323

liked a dataset 14 days ago

nvidia/PhysicalAI-Autonomous-Vehicles

Updated 7 days ago • 1.01M • 833

upvoted a paper 15 days ago

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Paper • 2603.25750 • Published 26 days ago • 36

upvoted a paper 21 days ago

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Paper • 2603.22458 • Published 22 days ago • 135

upvoted 2 papers about 1 month ago

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Paper • 2603.04597 • Published Mar 4 • 210

Heterogeneous Agent Collaborative Reinforcement Learning

Paper • 2603.02604 • Published Mar 3 • 194

liked 2 models about 2 months ago

Nanbeige/Nanbeige4.1-3B

Text Generation • 4B • Updated 21 days ago • 352k • • 1.03k

MiniMaxAI/MiniMax-M2.5

Text Generation • 229B • Updated Mar 10 • 813k • • 1.38k

upvoted 4 papers about 2 months ago

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Paper • 2602.22859 • Published Feb 26 • 151

A Very Big Video Reasoning Suite

Paper • 2602.20159 • Published Feb 23 • 519

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published Feb 11 • 220

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

Paper • 2602.12783 • Published Feb 13 • 216

Иван Сергеев

AI & ML interests

Recent Activity

Organizations

qq-5678's activity