AI learning - a kalinkrustev Collection

kalinkrustev 's Collections

AI learning

updated 4 days ago

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 121
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper • 2005.11401 • Published May 22, 2020 • 14
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 60
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper • 2205.14135 • Published May 27, 2022 • 15
QLoRA: Efficient Finetuning of Quantized LLMs

Paper • 2305.14314 • Published May 23, 2023 • 61
Textbooks Are All You Need

Paper • 2306.11644 • Published Jun 20, 2023 • 154
Layer Normalization

Paper • 1607.06450 • Published Jul 21, 2016 • 4
Segment Anything

Paper • 2304.02643 • Published Apr 5, 2023 • 6
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 64
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Paper • 2307.05695 • Published Jul 11, 2023 • 24
Visualizing and Understanding Convolutional Networks

Paper • 1311.2901 • Published Nov 12, 2013
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

Paper • 2305.07759 • Published May 12, 2023 • 45
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Paper • 2307.16789 • Published Jul 31, 2023 • 102
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Paper • 2308.00675 • Published Aug 1, 2023 • 37
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve

Paper • 2309.13638 • Published Sep 24, 2023
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

Paper • 2307.02477 • Published Jul 5, 2023
openbmb/UltraFeedback

Viewer • Updated Dec 29, 2023 • 64k • 5.79k • 413
openbmb/UltraChat

Viewer • Updated Feb 22, 2024 • 949k • 9.23k • 485
Textbooks Are All You Need II: phi-1.5 technical report

Paper • 2309.05463 • Published Sep 11, 2023 • 90
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 23
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 251
Code Llama: Open Foundation Models for Code

Paper • 2308.12950 • Published Aug 24, 2023 • 29
DocPrompting: Generating Code by Retrieving the Docs

Paper • 2207.05987 • Published Jul 13, 2022 • 1
SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size

Paper • 1602.07360 • Published Feb 24, 2016 • 1
Physics of Language Models: Part 3.2, Knowledge Manipulation

Paper • 2309.14402 • Published Sep 25, 2023 • 7
Wuerstchen: Efficient Pretraining of Text-to-Image Models

Paper • 2306.00637 • Published Jun 1, 2023 • 13
microsoft/phi-1_5

Text Generation • 1B • Updated Nov 24, 2025 • 81.5k • 1.36k
replit/replit-code-v1_5-3b

Text Generation • Updated Oct 20, 2023 • 1.19k • 313
ybelkada/segment-anything

Updated Dec 26, 2023 • 123
HuggingFaceH4/zephyr-7b-alpha

Text Generation • 7B • Updated Oct 16, 2024 • 5.37k • • 1.12k
fondant-ai/fondant-cc-25m

Viewer • Updated Nov 21, 2023 • 25.9M • 284 • 54
Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 58
ostris/ikea-instructions-lora-sdxl

Text-to-Image • Updated Sep 29, 2023 • 303 • • 239
facebook/belebele

Viewer • Updated Aug 12, 2024 • 110k • 18.1k • 126
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Paper • 2208.12242 • Published Aug 25, 2022 • 13
Adding Conditional Control to Text-to-Image Diffusion Models

Paper • 2302.05543 • Published Feb 10, 2023 • 58
MusicLM: Generating Music From Text

Paper • 2301.11325 • Published Jan 26, 2023 • 4
AudioLM: a Language Modeling Approach to Audio Generation

Paper • 2209.03143 • Published Sep 7, 2022
UniAudio: An Audio Foundation Model Toward Universal Audio Generation

Paper • 2310.00704 • Published Oct 1, 2023 • 20
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

Paper • 2109.10282 • Published Sep 21, 2021 • 13
LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

Paper • 2405.00732 • Published Apr 29, 2024 • 122