Premchan369
/

Q-TensorFormer

Text Generation

quantum-machine-learning

tensor-networks

model-compression

llm-compression

attention-mechanism

Model card Files Files and versions

Premchan369 commited on about 16 hours ago

Commit

3067a41

·

verified ·

1 Parent(s): bcadbf4

v3.0.0: Configs

Files changed (3) hide show

configs/default.yaml +38 -0
configs/production.yaml +38 -0
configs/sweep.yaml +43 -0

configs/default.yaml ADDED Viewed

	@@ -0,0 +1,38 @@

+experiment_name: default
+output_dir: ./outputs/default
+model:
+  d_model: 128
+  n_heads: 4
+  n_layers: 2
+  ff_multiplier: 4
+  max_seq_len: 128
+  vocab_size: 10000
+  dropout: 0.1
+  tt_rank: 8
+  tt_min_rank: 2
+  use_tensor_ffn: true
+  n_qubits: 4
+  n_quantum_layers: 2
+  quantum_sparsity: 0.7
+  use_quantum: true
+  rank_alpha: 2.0
+  rank_smoothing: 0.9
+training:
+  learning_rate: 3.0e-4
+  weight_decay: 0.01
+  warmup_steps: 100
+  max_epochs: 10
+  batch_size: 16
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1.0
+  seed: 42
+  lr_scheduler: cosine
+  lr_min_factor: 0.1
+budget:
+  max_params: null
+  max_latency_ms: null
+  max_energy_per_query: null
+  target_compression_ratio: null

configs/production.yaml ADDED Viewed

	@@ -0,0 +1,38 @@

+experiment_name: production
+output_dir: ./outputs/production
+model:
+  d_model: 512
+  n_heads: 8
+  n_layers: 6
+  ff_multiplier: 4
+  max_seq_len: 256
+  vocab_size: 30000
+  dropout: 0.1
+  tt_rank: 16
+  tt_min_rank: 4
+  use_tensor_ffn: true
+  n_qubits: 6
+  n_quantum_layers: 3
+  quantum_sparsity: 0.8
+  use_quantum: true
+  rank_alpha: 2.0
+  rank_smoothing: 0.95
+training:
+  learning_rate: 2.0e-4
+  weight_decay: 0.01
+  warmup_steps: 500
+  max_epochs: 15
+  batch_size: 4
+  gradient_accumulation_steps: 4
+  max_grad_norm: 1.0
+  seed: 42
+  lr_scheduler: cosine
+  lr_min_factor: 0.05
+budget:
+  max_params: 50000000
+  max_latency_ms: 50.0
+  max_energy_per_query: 500.0
+  target_compression_ratio: 2.0

configs/sweep.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+experiment_name: sweep
+output_dir: ./outputs/sweep
+model:
+  d_model: 128
+  n_heads: 4
+  n_layers: 2
+  ff_multiplier: 4
+  max_seq_len: 128
+  vocab_size: 10000
+  dropout: 0.1
+  tt_rank: 8
+  tt_min_rank: 2
+  use_tensor_ffn: true
+  n_qubits: 4
+  n_quantum_layers: 2
+  quantum_sparsity: 0.7
+  use_quantum: true
+  rank_alpha: 2.0
+  rank_smoothing: 0.9
+training:
+  learning_rate: 3.0e-4
+  weight_decay: 0.01
+  warmup_steps: 50
+  max_epochs: 5
+  batch_size: 16
+  gradient_accumulation_steps: 1
+  max_grad_norm: 1.0
+  seed: 42
+  lr_scheduler: cosine
+  lr_min_factor: 0.1
+budget:
+  max_params: null
+  max_latency_ms: null
+  max_energy_per_query: null
+  target_compression_ratio: null
+# Sweep overrides (handled by sweep.py)
+sweep:
+  tt_rank: [2, 4, 8, 16]
+  use_quantum: [true, false]