YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

VulnAI / VulnIA - Dataset Pipeline V3

Pipeline de construction de dataset Java défensif pour la détection de vulnérabilités via CodeBERT.

Structure

  • run_pipeline.py : orchestrateur principal
  • vulnai/ : modules du pipeline
  • vulnai/utils/config.py : mapping labels, règles métier
  • vulnai/collect/synthetic_generator.py : générateur de données synthétiques
  • vulnai/normalize/schema.py : normalisation du schéma
  • vulnai/enrich/enricher.py : enrichissement (labels, confidence, quality)
  • vulnai/dedup/deduper.py : déduplication exacte + near-duplicate
  • vulnai/chunk/chunker.py : gestion du dépassement de 512 tokens
  • vulnai/balance/balancer.py : équilibrage des classes
  • vulnai/split/splitter.py : split anti-leakage
  • vulnai/validate/validator.py : validation finale
  • vulnai/export/hf_exporter.py : export HF dataset

Installation

pip install pandas numpy scikit-learn datasets transformers

Utilisation

python run_pipeline.py --stage all
python run_pipeline.py --stage export-hf --output hf_dataset_repo

Ethique

Usage strictement défensif. Ne pas utiliser pour générer des exploits.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support