Zhongpai Gao's picture

Zhongpai Gao

gaozhongpai

·

Gaozhongpai

AI & ML interests

3D computer vision

Recent Activity

liked a model 1 day ago

FluidInference/silero-vad-coreml

updated a Space 1 day ago

UII-AI/MedVidBench-Leaderboard

liked a Space 2 days ago

UII-AI/MedGRPO-Demo

View all activity

Organizations

upvoted a paper 9 days ago

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Paper • 2604.07209 • Published 11 days ago • 35

upvoted 2 papers 10 days ago

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Paper • 2604.05015 • Published 13 days ago • 233

MedGemma 1.5 Technical Report

Paper • 2604.05081 • Published 13 days ago • 14

upvoted a paper 11 days ago

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Paper • 2604.02288 • Published 17 days ago • 31

upvoted a paper 18 days ago

HandX: Scaling Bimanual Motion and Interaction Generation

Paper • 2603.28766 • Published 19 days ago • 12

upvoted 2 papers about 1 month ago

Online Experiential Learning for Language Models

Paper • 2603.16856 • Published Mar 17 • 58

Heterogeneous Agent Collaborative Reinforcement Learning

Paper • 2603.02604 • Published Mar 3 • 194

upvoted 2 papers about 2 months ago

MediX-R1: Open Ended Medical Reinforcement Learning

Paper • 2602.23363 • Published Feb 26 • 22

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published Feb 11 • 220

upvoted 10 papers 3 months ago

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Paper • 2601.22153 • Published Jan 29 • 74

FrankenMotion: Part-level Human Motion Generation and Composition

Paper • 2601.10909 • Published Jan 15 • 19

BabyVision: Visual Reasoning Beyond Language

Paper • 2601.06521 • Published Jan 10 • 201

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Paper • 2601.06943 • Published Jan 11 • 216

3AM: Segment Anything with Geometric Consistency in Videos

Paper • 2601.08831 • Published Jan 13 • 34

Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

Paper • 2601.04720 • Published Jan 8 • 58

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 230

MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding

Paper • 2512.06581 • Published Dec 6, 2025 • 2

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

Paper • 2601.03044 • Published Jan 6 • 28

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

Paper • 2601.00664 • Published Jan 2 • 57

upvoted a paper 4 months ago

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Paper • 2512.04677 • Published Dec 4, 2025 • 177