# Use uma imagem Python leve
FROM python:3.10-slim

# Instalar dependências de build necessárias para compilar o llama-cpp
RUN apt-get update && apt-get install -y \
    build-essential \
    cmake \
    python3-dev \
    curl \
    && rm -rf /var/lib/apt/lists/*

# Definir diretório de trabalho
WORKDIR /app

# Instalar llama-cpp-python otimizado para CPU
# Usamos flags para garantir que não tente usar CUDA (GPU)
RUN CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" \
    pip install llama-cpp-python huggingface_hub[cli] gradio

# Criar pasta para o modelo
RUN mkdir -p /app/models

# Baixar o modelo Llama-3.1-8B-Instruct Q4_K_M durante o build
# Isso evita downloads demorados toda vez que o Space reiniciar
RUN huggingface-cli download bartowski/Meta-Llama-3.1-8B-Instruct-GGUF \
    --include "Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf" \
    --local-dir /app/models

# Copiar seu script de interface (app.py) para o container
COPY app.py .

# Hugging Face Spaces roda na porta 7860 por padrão
EXPOSE 7860

# Comando para rodar a aplicação
CMD ["python", "app.py"]