Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2311.07919

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

Paper • 2507.08128 • Published Jul 10, 2025 • 14
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Pengi: An Audio Language Model for Audio Tasks

Paper • 2305.11834 • Published May 19, 2023 • 2

Source Papers of LLM Giants

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 171
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 64

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Stable Audio Open

Paper • 2407.14358 • Published Jul 19, 2024 • 26
OpenMOSS-Team/AnyGPT-chat

Text Generation • Updated Jun 5, 2024 • 651 • 19
FBK-MT/mosel

Viewer • Updated Oct 7, 2025 • 2.2M • 1.88k • 89

Papers - Audio - Captions

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Audio Dialogues: Dialogues dataset for audio and music understanding

Paper • 2404.07616 • Published Apr 11, 2024 • 15

Papers - Audio - Text to Speech

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Paper • 2404.03204 • Published Apr 4, 2024 • 9
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
FlashSpeech: Efficient Zero-Shot Speech Synthesis

Paper • 2404.14700 • Published Apr 23, 2024 • 32

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

ModaVerse: Efficiently Transforming Modalities with LLMs

Paper • 2401.06395 • Published Jan 12, 2024 • 3
Boosting Large Language Model for Speech Synthesis: An Empirical Study

Paper • 2401.00246 • Published Dec 30, 2023 • 13
An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

Paper • 2312.03668 • Published Dec 6, 2023 • 1
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

Paper • 2311.06753 • Published Nov 12, 2023 • 6

Papers - Audio - Understanding

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9

Papers - Audio - TTS

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Paper • 1712.05884 • Published Dec 16, 2017 • 3
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

Paper • 2403.16973 • Published Mar 25, 2024 • 3
High Fidelity Neural Audio Compression

Paper • 2210.13438 • Published Oct 24, 2022 • 4
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Paper • 2404.03204 • Published Apr 4, 2024 • 9

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

Paper • 2507.08128 • Published Jul 10, 2025 • 14
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Pengi: An Audio Language Model for Audio Tasks

Paper • 2305.11834 • Published May 19, 2023 • 2

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

Source Papers of LLM Giants

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 171
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 64

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Stable Audio Open

Paper • 2407.14358 • Published Jul 19, 2024 • 26
OpenMOSS-Team/AnyGPT-chat

Text Generation • Updated Jun 5, 2024 • 651 • 19
FBK-MT/mosel

Viewer • Updated Oct 7, 2025 • 2.2M • 1.88k • 89

ModaVerse: Efficiently Transforming Modalities with LLMs

Paper • 2401.06395 • Published Jan 12, 2024 • 3
Boosting Large Language Model for Speech Synthesis: An Empirical Study

Paper • 2401.00246 • Published Dec 30, 2023 • 13
An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

Paper • 2312.03668 • Published Dec 6, 2023 • 1
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

Paper • 2311.06753 • Published Nov 12, 2023 • 6

Papers - Audio - Captions

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Audio Dialogues: Dialogues dataset for audio and music understanding

Paper • 2404.07616 • Published Apr 11, 2024 • 15

Papers - Audio - Understanding

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9

Papers - Audio - Text to Speech

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Paper • 2404.03204 • Published Apr 4, 2024 • 9
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
FlashSpeech: Efficient Zero-Shot Speech Synthesis

Paper • 2404.14700 • Published Apr 23, 2024 • 32

Papers - Audio - TTS

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Paper • 1712.05884 • Published Dec 16, 2017 • 3
VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

Paper • 2403.16973 • Published Mar 25, 2024 • 3
High Fidelity Neural Audio Compression

Paper • 2210.13438 • Published Oct 24, 2022 • 4
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Paper • 2404.03204 • Published Apr 4, 2024 • 9

Previous
1
2
3
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs