# Use uma imagem Python leve FROM python:3.10-slim # Instalar dependências de build necessárias para compilar o llama-cpp RUN apt-get update && apt-get install -y \ build-essential \ cmake \ python3-dev \ curl \ && rm -rf /var/lib/apt/lists/* # Definir diretório de trabalho WORKDIR /app # Instalar llama-cpp-python otimizado para CPU # Usamos flags para garantir que não tente usar CUDA (GPU) RUN CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" \ pip install llama-cpp-python huggingface_hub[cli] gradio # Criar pasta para o modelo RUN mkdir -p /app/models # Baixar o modelo Llama-3.1-8B-Instruct Q4_K_M durante o build # Isso evita downloads demorados toda vez que o Space reiniciar RUN huggingface-cli download bartowski/Meta-Llama-3.1-8B-Instruct-GGUF \ --include "Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf" \ --local-dir /app/models # Copiar seu script de interface (app.py) para o container COPY app.py . # Hugging Face Spaces roda na porta 7860 por padrão EXPOSE 7860 # Comando para rodar a aplicação CMD ["python", "app.py"]