[to-read] - a h1de0us Collection

h1de0us 's Collections

[to-read]

updated Mar 17, 2025

A Survey of Small Language Models

Paper • 2410.20011 • Published Oct 25, 2024 • 46
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

Paper • 2410.23168 • Published Oct 30, 2024 • 24
What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Paper • 2410.23743 • Published Oct 31, 2024 • 64
GPT or BERT: why not both?

Paper • 2410.24159 • Published Oct 31, 2024 • 14
Physics in Next-token Prediction

Paper • 2411.00660 • Published Nov 1, 2024 • 14
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Paper • 2411.02327 • Published Nov 4, 2024 • 11
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 127
Hymba: A Hybrid-head Architecture for Small Language Models

Paper • 2411.13676 • Published Nov 20, 2024 • 48
GPT-4o System Card

Paper • 2410.21276 • Published Oct 25, 2024 • 87
Transformers without Normalization

Paper • 2503.10622 • Published Mar 13, 2025 • 172