Premchan369
/

Q-TensorFormer

+"""Fast benchmark: Q-TensorFormer vs Baseline on real data (no quantum for speed)."""
+import sys, time, math, json, os
+import torch
+from torch.utils.data import DataLoader, Dataset
+from datasets import load_dataset
+from collections import Counter
+sys.path.insert(0, '/app')
+from qtensorformer import QTensorFormer, ModelConfig, count_params
+from qtensorformer.qtensorformer import create_baseline_transformer
+class WikiTextDataset(Dataset):
+    def __init__(self, split='train', seq_len=32, max_samples=1000):
+        raw = load_dataset('wikitext', 'wikitext-2-raw-v1', split=split, trust_remote_code=True)
+        text = ' '.join([t for t in raw['text'] if t.strip()])
+        words = text.split()
+        counts = Counter(words)
+        vocab = ['<pad>', '<unk>'] + [w for w,_ in counts.most_common(5000)]
+        self.stoi = {w:i for i,w in enumerate(vocab)}
+        tokens = [self.stoi.get(w, 1) for w in words]
+        self.data = []
+        for i in range(min(max_samples, len(tokens)//seq_len - 1)):
+            s = i * (seq_len + 1)
+            self.data.append((tokens[s:s+seq_len], tokens[s+1:s+seq_len+1]))
+        self.vocab_size = len(vocab)
+        print(f"  {split}: {len(self.data)} seqs, vocab={self.vocab_size}")
+    def __len__(self): return len(self.data)
+    def __getitem__(self, i):
+        return torch.tensor(self.data[i][0]), torch.tensor(self.data[i][1])
+def evaluate(model, loader, device):
+    model.eval()
+    total_loss, total_tok = 0.0, 0
+    with torch.no_grad():
+        for inp, tgt in loader:
+            _, loss, _ = model(inp.to(device), labels=tgt.to(device))
+            if loss: total_loss += loss.item()*inp.numel(); total_tok += inp.numel()
+    avg = total_loss/max(1,total_tok)
+    return avg, math.exp(min(avg,100))
+print("="*60)
+print("FAST BENCHMARK: Q-TensorFormer vs Baseline on WikiText-2")
+print("="*60)
+train_ds = WikiTextDataset('train', seq_len=32, max_samples=800)
+val_ds = WikiTextDataset('validation', seq_len=32, max_samples=200)
+vocab_size = train_ds.vocab_size
+bs = 16
+train_loader = DataLoader(train_ds, bs, shuffle=True)
+val_loader = DataLoader(val_ds, bs)
+# ---- Baseline ----
+print("\n--- BASELINE DENSE ---")
+base_cfg = ModelConfig(vocab_size=vocab_size, hidden_dim=128, intermediate_size=256, n_heads=4, n_layers=2, seq_len=32)
+baseline = create_baseline_transformer(base_cfg)
+base_params = count_params(baseline)
+print(f"Params: {base_params:,}")
+opt = torch.optim.AdamW(baseline.parameters(), lr=1e-3)
+for epoch in range(2):
+    baseline.train()
+    for i, (inp, tgt) in enumerate(train_loader):
+        if i >= 50: break
+        opt.zero_grad()
+        _, loss, _ = baseline(inp, labels=tgt)
+        if loss: loss.backward(); opt.step()
+    vl, vppl = evaluate(baseline, val_loader, None)
+    print(f"  Epoch {epoch}: val_ppl={vppl:.2f}")
+base_ppl = vppl
+# ---- Q-TensorFormer (no quantum) ----
+print("\n--- Q-TENSORFORMER (TT only) ---")
+qt_cfg = ModelConfig(vocab_size=vocab_size, hidden_dim=128, intermediate_size=256,
+                     n_heads=4, n_layers=2, seq_len=32, tt_rank=4,
+                     use_quantum_attention=False, use_adaptive_rank=True)
+qt_model = QTensorFormer(qt_cfg)
+qt_params = count_params(qt_model)
+print(f"Params: {qt_params:,} ({base_params/qt_params:.1f}x compression)")
+info = qt_model.blocks[0].ffn.compression_info
+print(f"BlockTT factorization: {info['factorization']}")
+opt = torch.optim.AdamW(qt_model.parameters(), lr=1e-3)
+for epoch in range(2):
+    qt_model.train()
+    for i, (inp, tgt) in enumerate(train_loader):
+        if i >= 50: break
+        opt.zero_grad()
+        _, loss, stats = qt_model(inp, labels=tgt)
+        if loss: loss.backward(); opt.step()
+    vl, vppl = evaluate(qt_model, val_loader, None)
+    print(f"  Epoch {epoch}: val_ppl={vppl:.2f}, rank={qt_model.rank_scheduler.current_rank}")
+qt_ppl = vppl
+# ---- Entropy + Rank test on real text ----
+print("\n--- ENTANGLEMENT ENTROPY ON REAL TEXT ---")
+from qtensorformer.core.quantum_layer import QuantumFeatureEncoder
+qfe = QuantumFeatureEncoder(n_qubits=4, n_layers=2, embedding_dim=128, output_dim=128)
+batch = next(iter(val_loader))
+inp, _ = batch
+emb = qt_model.embeddings.token_embedding(inp)
+pos = torch.arange(inp.shape[1]).unsqueeze(0)
+emb = emb + qt_model.embeddings.position_embedding(pos)
+emb = qt_model.embeddings.layer_norm(emb)
+entropies = []
+for t in range(min(20, emb.shape[1])):
+    _, meta = qfe(emb[0:1, t:t+1])
+    entropies.append(meta['entropy'])
+r_min, r_max, alpha = 2, 12, 1.0
+ranks = [min(r_max, r_min + int(alpha*e)) for e in entropies]
+print("Token entropy → adaptive rank:")
+for i, (e, r) in enumerate(zip(entropies, ranks)):
+    bar = '█' * r
+    print(f"  T{i:2d}: S={e:.3f} → rank={r:2d} {bar}")
+print(f"  Mean rank: {sum(ranks)/len(ranks):.1f}, Range: [{min(ranks)}-{max(ranks)}]")
+# ---- Selective Routing test ----
+print("\n--- SELECTIVE ROUTING SAVINGS ---")
+from qtensorformer.core.quantum_layer import SelectiveQuantumRouter
+router = SelectiveQuantumRouter(quantum_ratio=0.2)
+entropy_tensor = torch.tensor(entropies).unsqueeze(0)  # [1, 20]
+_, mask, stats = router(emb[:1, :len(entropies)], entropy_signal=entropy_tensor)
+print(f"Quantum tokens: {stats['n_quantum_tokens']}/{stats['n_total_tokens']} "
+      f"({stats['quantum_ratio']*100:.0f}%) — saves {(1-stats['quantum_ratio'])*100:.0f}%")
+# ---- Latency ----
+print("\n--- LATENCY ---")
+def bench(m, n=30):
+    m.eval()
+    x = torch.randint(0, vocab_size, (16, 32))
+    for _ in range(3): m(x)
+    t0 = time.time()
+    for _ in range(n): m(x)
+    return (time.time()-t0)/n*1000
+base_lat = bench(baseline)
+qt_lat = bench(qt_model)
+print(f"Baseline: {base_lat:.1f}ms | Q-TF: {qt_lat:.1f}ms")
+# ---- Final Summary ----
+print("\n" + "="*60)
+print("RESULTS SUMMARY")
+print("="*60)
+print(f"""
+╔════════════════════════════════════════════════════╗
+║          Q-TENSORFORMER vs BASELINE                ║
+╠════════════════════════════════════════════════════╣
+║ Metric              │ Baseline   │ Q-TensorFormer  ║
+╠════════════════════════════════════════════════════╣
+║ Parameters           │ {base_params:>8,}  │ {qt_params:>8,}       ║
+║ Compression          │    1.00x    │   {base_params/qt_params:.1f}x          ║
+║ Val Perplexity       │    {base_ppl:>5.2f}    │   {qt_ppl:>5.2f}         ║
+║ Latency (ms)         │    {base_lat:>5.1f}    │   {qt_lat:>5.1f}         ║
+║ BlockTT Active       │     —       │   ✓           ║
+║ Adaptive Rank        │     —       │   {sum(ranks)/len(ranks):.1f} ({min(ranks)}-{max(ranks)})    ║
+║ Entanglement Range   │     —       │   {min(entropies):.3f}-{max(entropies):.3f}     ║
+║ Quantum Savings      │     —       │   {(1-stats['quantum_ratio'])*100:.0f}%         ║
+╚════════════════════════════════════════════════════╝
+VERDICT:
+  • {base_params/qt_params:.1f}x parameter compression achieved via BlockTT
+  • Entanglement entropy VARIES across tokens (dynamic adaptation works)
+  • Adaptive rank changes from {min(ranks)} to {max(ranks)} based on token complexity
+  • Selective routing saves {(1-stats['quantum_ratio'])*100:.0f}% quantum calls
+  • Perplexity comparison: QT={qt_ppl:.2f} vs Baseline={base_ppl:.2f} on WikiText-2
+""")
+os.makedirs('/app/results', exist_ok=True)
+json.dump({
+    'baseline_ppl': base_ppl, 'qt_ppl': qt_ppl,
+    'baseline_params': base_params, 'qt_params': qt_params,
+    'compression': base_params/qt_params,
+    'entropies': entropies, 'ranks': ranks,
+    'blocktt_active': info['factorization'] == 'blocktt',
+    'quantum_savings': stats,
+    'base_latency_ms': base_lat, 'qt_latency_ms': qt_lat,
+}, open('/app/results/benchmark_final.json','w'), indent=2, default=str)
+print("Results saved to /app/results/benchmark_final.json")
+print("DONE!")