NN Arch Components - a lzhbrian Collection

lzhbrian 's Collections

NN Arch Components

Linear Attention

NN Arch Components

updated Feb 11

A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

Paper • 2601.22966 • Published Jan 30
STEM: Scaling Transformers with Embedding Modules

Paper • 2601.10639 • Published Jan 15 • 2
Deep Delta Learning

Paper • 2601.00417 • Published Jan 1 • 34
mHC: Manifold-Constrained Hyper-Connections

Paper • 2512.24880 • Published Dec 31, 2025 • 322
VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse

Paper • 2512.14531 • Published Dec 16, 2025 • 15
Stronger Normalization-Free Transformers

Paper • 2512.10938 • Published Dec 11, 2025 • 22
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Paper • 2505.06708 • Published May 10, 2025 • 11
Transformers without Normalization

Paper • 2503.10622 • Published Mar 13, 2025 • 172
Forgetting Transformer: Softmax Attention with a Forget Gate

Paper • 2503.02130 • Published Mar 3, 2025 • 32
Hyper-Connections

Paper • 2409.19606 • Published Sep 29, 2024 • 26
Virtual Width Networks

Paper • 2511.11238 • Published Nov 14, 2025 • 39