Matzan
/

desktop-agent-uncensored

ml-intern

Model card Files Files and versions

xet

Community

Matzan commited on 3 days ago

Commit

3b79d2e

verified ·

1 Parent(s): be8bbb0

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +71 -0

README.md ADDED Viewed

	@@ -0,0 +1,71 @@

+# 🤖 Desktop Agent Autónomo (Sin Censura)
+Agente de escritorio autónomo con VLM multimodal sin censura.
+## Arquitectura
+```
+👁️ OJOS     → pyautogui.screenshot() → Captura pantalla
+🧠 CEREBRO  → Qwen3.5-35B-A3B-abliterated → Piensa y decide
+🖐️ MANOS    → pyautogui → Ejecuta acciones
+📚 MEMORIA  → DPO online → Aprende de interacciones
+```
+## Modelos Soportados (Sin Censura)
+| Modelo | Tamaño | VRAM (4-bit) | Tipo | Link |
+|--------|--------|--------------|------|------|
+| **Qwen3.5-35B-A3B-abliterated** ⭐ | 35B/3B activos | ~16GB | MoE | [HF](https://hf.co/huihui-ai/Huihui-Qwen3.5-35B-A3B-abliterated) |
+| Qwen3.6-27B-abliterated | 27B | ~27GB | Dense | [HF](https://hf.co/wangzhang/Qwen3.6-27B-abliterated) |
+| Gemma-4-26B-A4B-abliterated | 26B/4B activos | ~14GB | MoE | [HF](https://hf.co/jenerallee78/gemma-4-26B-A4B-it-ara-abliterated) |
+## Instalación
+```bash
+pip install -r requirements.txt
+```
+## Uso
+### 1. Ejecutar agente
+```bash
+python agent.py --task "Open Chrome and search for AI news" --steps 20
+```
+### 2. Entrenar con DPO (aprendizaje)
+Primero el agente interactúa y guarda logs. Luego:
+```bash
+python train_dpo.py --epochs 3 --lr 5e-7
+```
+### 3. Usar modelo entrenado
+```bash
+python agent.py --model "Matzan/desktop-agent-dpo" --task "New task"
+```
+## Acciones Soportadas
+- `click(x, y)` — Click en coordenadas normalizadas (0-1)
+- `type("text")` — Escribe texto
+- `key("enter")` — Presiona tecla
+- `scroll(x, y, "down")` — Scroll en posición
+- `done("reason")` — Termina tarea
+- `fail("reason")` — No puede completar
+## ⚠️ Seguridad
+- `pyautogui.FAILSAFE = True` — Mueve mouse a esquina superior izquierda para abortar
+- El agente puede interactuar con tu desktop real. Úsalo con precaución.
+## Pipeline de Aprendizaje
+```
+1. Agente interactúa → Guarda (screenshot, acción, reward)
+2. DPO: compara acciones exitosas vs fallidas
+3. Reentrena modelo
+4. Repite
+```