artem9k/ai-text-detection-pile
Viewer • Updated • 1.39M • 968 • 46
Modèle d'ensemble multimodal pour détecter les contenus générés par IA (images, vidéos, texte) avec explicabilité GradCAM.
Visual Branch EfficientNet-B0/B4 ──┐
├──► Fusion pondérée ──► Confidence [0-1]
Text Branch RoBERTa-base ──┘
↓
GradCAM Heatmap (explicabilité)
from inference import load_model, classify_image, classify_text, classify_multimodal
model, config = load_model('multimodal_ensemble.pt', device='cuda')
# Image + GradCAM
result = classify_image(model, 'face.jpg', return_gradcam=True)
print(f"{result['prediction']} — confidence: {result['confidence']:.2%}")
# result['gradcam'] → heatmap (224, 224)
# Texte
result = classify_text(model, 'Cet essai analyse les impacts...')
print(f"{result['prediction']} — confidence: {result['confidence']:.2%}")
# Multimodal (image + texte)
result = classify_multimodal(model, image_path_or_pil='face.jpg', text='Caption...')
print(f"Fusion: {result['prediction']} — poids: {result['fusion_weights']}")
| Fichier | Description |
|---|---|
model.py |
Architecture complète |
preprocessing.py |
Pipeline de données |
inference.py |
API d'inférence |
train.py / train_optimised.py |
Scripts d'entraînement |
multimodal_ensemble.pt |
Checkpoint principal |
gradcam_examples/ |
Visualisations d'explicabilité |
alianassmaaa/multimodal-deepfake-space
Apache-2.0