File size: 2,656 Bytes
81c79b1
 
d5335dd
 
 
 
 
 
 
81c79b1
 
d5335dd
81c79b1
d5335dd
81c79b1
 
 
d5335dd
81c79b1
d5335dd
 
81c79b1
d5335dd
 
81c79b1
d5335dd
81c79b1
d5335dd
81c79b1
d5335dd
 
 
 
 
 
 
 
81c79b1
d5335dd
81c79b1
d5335dd
81c79b1
d5335dd
 
 
 
 
 
 
 
 
81c79b1
d5335dd
 
 
 
81c79b1
d5335dd
 
 
 
81c79b1
 
 
 
d5335dd
81c79b1
 
d5335dd
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
---
library_name: transformers
datasets:
- LequeuISIR/GDN-CC
- LequeuISIR/GDN-CC-large
language:
- fr
base_model:
- Qwen/Qwen2.5-7B-Instruct
---

# Model Card for AU-clarification_gemma-2-9b-it

Qwen2.5-7B-Instruct finetuned on the GDN-CC dataset for the task of **Argumentative Unit Extraction**. This is the best model for AU extraction and the one used to annotate **GDN-CC-large**.

## Uses

It is recommended to use it with the vLLM framework:

```python
from vllm import LLM, SamplingParams

llm = LLM(model="LequeuISIR/AU-extraction_Qwen2.5-7B-Instruct", 
          max_model_len=2048)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")

sampling_params = SamplingParams(temperature=0.2, max_tokens=2000)

messages = [
    {"role": "user", "content": f"{PROMPT}{item['text'].strip()}"}
]
prompt_string = tokenizer.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True
)

outputs = llm.generate([prompt_string], sampling_params)

```

with the prompt being:
```
Je vais te donner un texte d'opinion en français. Ton travail est de segmenter ce textes en unités argumentatives. \
Nous définissions une unité argumentative comme un ou des segments du texte qui s'intérèssent à un sujet. Elle peut être composée de solution(s), \
d'argument(s) ou de simple affirmation(s). Une unitée argumentative n'est pas forcément contigüe: elle peut joindre des segments qui ne se suivent pas. \n \
Cette tâche est EXTRACTIVE. tu dois COPIER et seulement copier le texte de l'unité argumentative exactement comme elle est écrite, incluant les majuscules et la ponctuation. \
Si l'unité argumentative est composée de plusieurs segments non contigues, tu peux les concaténer en les séparant simplement d'un espace. Il y a au moins \
une unité argumentative dans le texte, mais pas de nombre maximum. Ressors les unité argumentative sous forme de liste comme montré dans l'exemple. \
Il n'est pas obligatoire que tous les segments du texte fasse partie d'une unité argumentative. \n\n \

Tu dois donner les unités argumentative sous la forme du liste: \n \
- unité argumentative 1\n \
- unité argumentative 2\n \
...\n\n \

Ne sort RIEN D'AUTRE que la liste d'unités argumentatives.
voici le texte:\n \
"""
```




 
**BibTeX:**

```bibtex
@article{lequeu2026gdn,
  title={The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations},
  author={Lequeu, Pierre-Antoine and Labat, L{\'e}o and Cave, Laur{\`e}ne and Lejeune, Ga{\"e}l and Yvon, Fran{\c{c}}ois and Piwowarski, Benjamin},
  journal={arXiv preprint arXiv:2601.14944},
  year={2026}
}
```