pretrain-normal-smollm-1p7b-100B-20n-2048sl-960gbsz-no-bad-data

This repository contains the Hugging Face export of the normal-smollm-1p7b-100B-20n-2048sl-960gbsz-no-bad-data pretraining checkpoint.

Notes

Converted from:

Megatron checkpoint: /capstor/store/cscs/swissai/a141/model-raising-training/checkpoints/pretraining/smollm2-1p7b/megatron/normal-smollm-1p7b-100B-20n-2048sl-960gbsz-no-bad-data
Hugging Face export: /capstor/store/cscs/swissai/a141/model-raising-training/checkpoints/pretraining/smollm2-1p7b/hf/normal-smollm-1p7b-100B-20n-2048sl-960gbsz-no-bad-data

This export was corrected after conversion and validated against the intermediate Megatron-torch checkpoint with exact tensor parity.

Safetensors

Model size

2B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support