YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
VulnAI / VulnIA - Dataset Pipeline V3
Pipeline de construction de dataset Java défensif pour la détection de vulnérabilités via CodeBERT.
Structure
run_pipeline.py: orchestrateur principalvulnai/: modules du pipelinevulnai/utils/config.py: mapping labels, règles métiervulnai/collect/synthetic_generator.py: générateur de données synthétiquesvulnai/normalize/schema.py: normalisation du schémavulnai/enrich/enricher.py: enrichissement (labels, confidence, quality)vulnai/dedup/deduper.py: déduplication exacte + near-duplicatevulnai/chunk/chunker.py: gestion du dépassement de 512 tokensvulnai/balance/balancer.py: équilibrage des classesvulnai/split/splitter.py: split anti-leakagevulnai/validate/validator.py: validation finalevulnai/export/hf_exporter.py: export HF dataset
Installation
pip install pandas numpy scikit-learn datasets transformers
Utilisation
python run_pipeline.py --stage all
python run_pipeline.py --stage export-hf --output hf_dataset_repo
Ethique
Usage strictement défensif. Ne pas utiliser pour générer des exploits.
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support