Spaces:

TruVlad
/

flaskAPI

Paused

App Files Files Community

TruVlad commited on Feb 27

Commit

486a947

verified ·

1 Parent(s): d9a8893

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

Dockerfile +35 -15
Readme.md +12 -0
main.py +141 -0
pull.sh +16 -0
requirements.txt +16 -5
start.sh +12 -0

Dockerfile CHANGED Viewed

@@ -1,17 +1,37 @@
-# Выкачиваем из dockerhub образ с python версии 3.9
-FROM python:3.11
-# Устанавливаем рабочую директорию для проекта в контейнере
-WORKDIR /src
-RUN pip install --upgrade pip
-# Скачиваем/обновляем необходимые библиотеки для проекта
-COPY requirements.txt /src/requirements.txt
-RUN rm -rvf /.cache ; mkdir /.cache ; chmod -Rv 777 /.cache
-RUN pip install --upgrade pip -q -r /src/requirements.txt
-# |ВАЖНЫЙ МОМЕНТ| копируем содержимое папки, где находится Dockerfile,
-# в рабочую директорию контейнера
-COPY . /src
-# Устанавливаем порт, который будет использоваться для сервера
-EXPOSE 7860
-CMD ["python3", "app.py"]

+# FROM ollama/ollama:0.12.3
+FROM ollama/ollama:latest
+RUN apt update
+RUN apt upgrade -y
+# OLLAMA_DEBUG               Show additional debug information (e.g. OLLAMA_DEBUG=1)
+#       OLLAMA_HOST                IP Address for the ollama server (default 127.0.0.1:11434)
+#       OLLAMA_CONTEXT_LENGTH      Context length to use unless otherwise specified (default: 4096)
+#       OLLAMA_KEEP_ALIVE          The duration that models stay loaded in memory (default "5m")
+#       OLLAMA_MAX_LOADED_MODELS   Maximum number of loaded models per GPU
+#       OLLAMA_MAX_QUEUE           Maximum number of queued requests
+#       OLLAMA_MODELS              The path to the models directory
+#       OLLAMA_NUM_PARALLEL        Maximum number of parallel requests
+#       OLLAMA_NOPRUNE             Do not prune model blobs on startup
+#       OLLAMA_ORIGINS             A comma separated list of allowed origins
+#       OLLAMA_SCHED_SPREAD        Always schedule model across all GPUs
+#       OLLAMA_FLASH_ATTENTION     Enabled flash attention
+#       OLLAMA_KV_CACHE_TYPE       Quantization type for the K/V cache (default: f16)
+#       OLLAMA_LLM_LIBRARY         Set LLM library to bypass autodetection
+#       OLLAMA_GPU_OVERHEAD        Reserve a portion of VRAM per GPU (bytes)
+#       OLLAMA_LOAD_TIMEOUT
+ENV OLLAMA_KEEP_ALIVE="24h"
+ENV OLLAMA_HOST=0.0.0.0:7861
+ENV OLLAMA_LOAD_TIMEOUT="24h"
+RUN apt-get update && apt-get upgrade -y
+RUN apt-get install git g++ python3 python3-pip -y && apt-get clean
+COPY pull.sh pull.sh
+RUN /bin/bash -x pull.sh
+COPY requirements.txt requirements.txt
+RUN pip install --no-cache-dir -r requirements.txt --break-system-packages
+COPY main.py main.py
+COPY start.sh start.sh
+#ENTRYPOINT ["/usr/bin/ollama", "serve"]
+ENTRYPOINT ["/bin/bash", "-x", "start.sh"]

Readme.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Test Ol Qwen3
+emoji: 🐨
+colorFrom: indigo
+colorTo: yellow
+sdk: docker
+pinned: false
+license: afl-3.0
+short_description: docker with ollama server provide ol-qwen3-vl-235b-cloud
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

main.py ADDED Viewed

	@@ -0,0 +1,141 @@

+from flask import Flask
+import ollama
+app = Flask(__name__)
+@app.route('/')
+def hello_world():
+    return "<h1>Hello, World!<h1>"
+@app.route('/list')
+def test_world():
+    from ollama import ListResponse, list
+    response: ListResponse = list()
+    ansver = []
+    for model in response.models:
+      ansver.append(f'Name:{model.model}')
+      ansver.append(f'  Size (MB): {(model.size.real / 1024 / 1024):.2f}')
+      if model.details:
+        ansver.append(f'  Format: {model.details.format}')
+        ansver.append(f'  Family:  {model.details.family}')
+        ansver.append(f'  Parameter Size:  {model.details.parameter_size}')
+        ansver.append(f'  Quantization Level:{model.details.quantization_level}')
+    result = [f'<p>{answ}</p>' for answ in ansver ]
+    return '\n'.join(result)
+@app.route('/ps')
+def ps():
+    from ollama import ProcessResponse, chat, ps, pull
+    ansver = []
+    response: ProcessResponse = ps()
+      for model in response.models:
+          ansver.append(f'Model:  {model.model}')
+          ansver.append(f'  Digest:  {model.digest}')
+          ansver.append(f'  Expires at: {model.expires_at}')
+          ansver.append(f'  Size:  {model.size}')
+          ansver.append(f'  Size vram:  {model.size_vram}')
+          ansver.append(f'  Details: {model.details}')
+          ansver.append(f'  Context length:  {model.context_length}')
+          ansver.append(f'\n')
+    response: ListResponse = list()
+    for model in response.models:
+      ansver.append(f'Name:{model.model}')
+      ansver.append(f'  Size (MB): {(model.size.real / 1024 / 1024):.2f}')
+      if model.details:
+        ansver.append(f'  Format: {model.details.format}')
+        ansver.append(f'  Family:  {model.details.family}')
+        ansver.append(f'  Parameter Size:  {model.details.parameter_size}')
+        ansver.append(f'  Quantization Level:{model.details.quantization_level}')
+    result = [f'<p>{answ}</p>' for answ in ansver ]
+    return '\n'.join(result)
+@app.route('/time')
+def test_time():
+  from  datetime import datetime
+  from ollama import Client
+  from ollama import chat
+  t_start=datetime.now()
+  ansver = []
+  messages = [
+  {
+    'role': 'user',
+    'content': 'Расскажи о себе подробно',
+  },
+  ]
+  response = chat('qwen3:0.6b', messages=messages)
+  ansver.append(f' start {t_start} ')
+  response_time=datetime.now()-t_start
+  ansver.append(f' duration  {response_time} ')
+  #
+  response_len = len(response['message']['content'])
+  ansver.append(f" lehgth {response_len}")
+  response_speed=response_len/int(response_time.seconds)
+  ansver.append(f" token/sek {response_len}")
+  ansver.append(response['message']['content'])
+  result = [f'<p>{answ}</p>' for answ in ansver ]
+  return '\n'.join(result)
+@app.route('/time14')
+def test_time14():
+  from  datetime import datetime
+  from ollama import Client
+  from ollama import chat
+  t_start=datetime.now()
+  ansver = []
+  messages = [
+  {
+    'role': 'user',
+    'content': 'Расскажи о себе подробно',
+  },
+  ]
+  response = chat('qwen3:30b', messages=messages)
+  ansver.append(f' start {t_start} ')
+  response_time=datetime.now()-t_start
+  ansver.append(f' duration  {response_time} ')
+  #
+  response_len = len(response['message']['content'])
+  ansver.append(f" lehgth {response_len}")
+  response_speed=response_len/int(response_time.seconds)
+  ansver.append(f" token/sek {response_len}")
+  ansver.append(response['message']['content'])
+  result = [f'<p>{answ}</p>' for answ in ansver ]
+  return '\n'.join(result)
+@app.route('/time30')
+def test_time30():
+  from  datetime import datetime
+  from ollama import Client
+  from ollama import chat
+  t_start=datetime.now()
+  ansver = []
+  messages = [
+  {
+    'role': 'user',
+    'content': 'Расскажи о себе подробно',
+  },
+  ]
+  response = chat('qwen3:30b', messages=messages)
+  ansver.append(f' start {t_start} ')
+  response_time=datetime.now()-t_start
+  ansver.append(f' duration  {response_time} ')
+  #
+  response_len = len(response['message']['content'])
+  ansver.append(f" lehgth {response_len}")
+  response_speed=response_len/int(response_time.seconds)
+  ansver.append(f" token/sek {response_len}")
+  ansver.append(response['message']['content'])
+  result = [f'<p>{answ}</p>' for answ in ansver ]
+  return '\n'.join(result)
+if __name__ == '__main__':
+   app.run(host='0.0.0.0', port="7860")

pull.sh ADDED Viewed

	@@ -0,0 +1,16 @@

+#/bin/bash
+while true
+  do nohup ollama serve >/dev/null 2>&1
+  echo  sleep 9
+  sleep 9
+  done >/dev/null 2>&1 &
+echo  sleep 5
+sleep 5
+# /usr/bin/ollama pull qwen3-next:80b
+# /usr/bin/ollama pull qwen3-vl:235b
+/usr/bin/ollama pull qwen3:0.6b
+# /usr/bin/ollama pull qwen3:8b
+/usr/bin/ollama pull qwen3:14b
+/usr/bin/ollama pull qwen3:30b
+# /usr/bin/ollama pull qwen3.5:35b
+/usr/bin/ollama list

requirements.txt CHANGED Viewed

@@ -1,7 +1,18 @@
-Flask
-Flask-BasicAuth
-Flask-APScheduler
-transformers
 torch
-tensorflow
 accelerate

+flask
+fastapi
+uvicorn
 torch
+transformers
 accelerate
+sentencepiece
+#numpy
+protobuf
+safetensors
+sentencepiece
+dashscope
+torch
+torchvision
+peft
+python-telegram-bot
+ollama
+#ollama-python

start.sh ADDED Viewed

	@@ -0,0 +1,12 @@

+#/bin/bash
+while true
+  do nohup ollama serve >/dev/null 2>&1
+  echo  sleep 9
+  sleep 9
+  done >/dev/null 2>&1 &
+echo  sleep 30
+sleep 30
+echo   list
+/usr/bin/ollama list
+python3 main.py
+sleep 120000