Spaces:

OGOGOG
/

Bartender-AI

Sleeping

App Files Files Community

OGOGOG commited on Aug 13, 2025

Commit

233677c

verified ·

1 Parent(s): e9395e6

Update app.py

Browse files

Files changed (1) hide show

app.py +127 -27

app.py CHANGED Viewed

@@ -2,8 +2,19 @@ import os
 import re
 import numpy as np
 import gradio as gr
-from datasets import load_dataset
-from sentence_transformers import SentenceTransformer
 # ========================
 # Config
@@ -53,7 +64,7 @@ FLAVORS = {
 FLAVOR_OPTIONS = list(FLAVORS.keys())
 # ========================
-# Helpers
 # ========================
 def _clean(s):
     return s.strip() if isinstance(s, str) else ""
@@ -77,12 +88,7 @@ def _join_measure_name(measure, name):
 def _split_ingredient_blob(s):
     if not isinstance(s, str): return []
     parts = re.split(r"[,\n;•\-–]+", s)
-    out = []
-    for p in parts:
-        p = p.strip()
-        if p:
-            out.append(p)
-    return out
 def _ingredients_from_any(val):
     if isinstance(val, str):
@@ -105,8 +111,9 @@ def _get_title(row, cols):
     return "Untitled"
 def _get_ingredients_with_measures(row, cols):
-    for key in ["ingredients","ingredients_raw","raw_ingredients"]:
-        if key in cols and row.get(key):
             return _ingredients_from_any(row[key])
     return [], []
@@ -122,7 +129,7 @@ def tag_flavors(text):
     return [flv for flv, pats in FLAVORS.items() if any(re.search(p, t) for p in pats)]
 # ========================
-# Load dataset
 # ========================
 ds = load_dataset(DATASET_ID, split="train", **load_kwargs)
 cols = ds.column_names
@@ -144,14 +151,81 @@ for r in ds:
     })
 # ========================
-# Embeddings
 # ========================
-encoder = SentenceTransformer(EMBED_MODEL)
-doc_embs = encoder.encode(
-    [d["text"] for d in DOCS],
-    normalize_embeddings=True,
-    convert_to_numpy=True
-).astype("float32")
 # ========================
 # Recommendation
@@ -160,18 +234,38 @@ def recommend(base_alcohol_text, flavor, top_k=3):
     inferred_base = tag_base(base_alcohol_text or "")
     if flavor not in FLAVOR_OPTIONS:
         return "Please choose a flavor."
-    idxs = [i for i, d in enumerate(DOCS) if d["base"] == inferred_base] or list(range(len(DOCS)))
     q_text = f"Base spirit: {base_alcohol_text}. Flavor: {flavor}. Cocktail recipe."
-    q_emb = encoder.encode([q_text], normalize_embeddings=True, convert_to_numpy=True).astype("float32")[0]
-    sims = doc_embs[idxs].dot(q_emb)
-    scored = [(s + (FLAVOR_BOOST if flavor in DOCS[i]['flavors'] else 0), i) for s, i in zip(sims, idxs)]
     scored.sort(reverse=True)
-    picks = scored[:max(1, int(top_k))]
     blocks = []
     for sc, i in picks:
         d = DOCS[i]
-        meta = f"**Base:** {d['base']} | **Flavor tags:** {', '.join(d['flavors']) or '—'} | **Score:** {sc:.3f}"
-        blocks.append(f"### {d['title']}\n{meta}\n\n**Ingredients:**\n" + "\n".join(f"- {x}" for x in d["ingredients_display"]))
     return "\n\n---\n\n".join(blocks)
 # ========================
@@ -209,16 +303,22 @@ with gr.Blocks(css=CUSTOM_CSS) as demo:
     gr.HTML("<div id='app-bg'></div>")
     with gr.Column(elem_classes=["glass-card"]):
         gr.Markdown("# 🍹 AI Bartender — Type a Base + Flavor", elem_id="title_md")
         with gr.Row():
             base_text = gr.Textbox(value="gin", label="Base alcohol")
             flavor = gr.Dropdown(choices=FLAVOR_OPTIONS, value="citrus", label="Flavor")
             topk = gr.Slider(1, 10, value=3, step=1, label="Number of recommendations")
         with gr.Row():
             ex1 = gr.Button("Example: Gin + Citrus")
             ex2 = gr.Button("Example: Rum + Fruity")
             ex3 = gr.Button("Example: Mezcal + Smoky")
-        gr.Button("Recommend").click(recommend, [base_text, flavor, topk], gr.Markdown(elem_id="result_md"))
         out = gr.Markdown(elem_id="result_md")
         ex1.click(lambda: ("gin", "citrus", 3), outputs=[base_text, flavor, topk])
         ex2.click(lambda: ("white rum", "fruity", 3), outputs=[base_text, flavor, topk])
         ex3.click(lambda: ("mezcal", "smoky", 3), outputs=[base_text, flavor, topk])

 import re
 import numpy as np
 import gradio as gr
+# Optional offline fallback embeddings
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+# Try to import sentence-transformers, but we’ll fall back if it can’t download
+try:
+    from datasets import load_dataset
+    from sentence_transformers import SentenceTransformer
+    _HAS_SBERT = True
+except Exception:
+    _HAS_SBERT = False
+    from datasets import load_dataset  # datasets worked for you per logs
 # ========================
 # Config
 FLAVOR_OPTIONS = list(FLAVORS.keys())
 # ========================
+# Robust extraction helpers (with measures)
 # ========================
 def _clean(s):
     return s.strip() if isinstance(s, str) else ""
 def _split_ingredient_blob(s):
     if not isinstance(s, str): return []
     parts = re.split(r"[,\n;•\-–]+", s)
+    return [p.strip() for p in parts if p.strip()]
 def _ingredients_from_any(val):
     if isinstance(val, str):
     return "Untitled"
 def _get_ingredients_with_measures(row, cols):
+    for key in ["ingredients","ingredients_raw","raw_ingredients","Raw_Ingredients","Raw Ingredients",
+                "ingredient_list","ingredients_list"]:
+        if key in cols and row.get(key) not in (None, "", [], {}):
             return _ingredients_from_any(row[key])
     return [], []
     return [flv for flv, pats in FLAVORS.items() if any(re.search(p, t) for p in pats)]
 # ========================
+# Load dataset & build docs
 # ========================
 ds = load_dataset(DATASET_ID, split="train", **load_kwargs)
 cols = ds.column_names
     })
 # ========================
+# Embedding backends (SBERT -> TF-IDF fallback)
+# ========================
+class Embedder:
+    def __init__(self):
+        self.mode = "tfidf"
+        self.encoder = None
+        self.vectorizer = None
+        self.doc_matrix = None
+        # Try SBERT if available and downloadable
+        if _HAS_SBERT:
+            try:
+                self.encoder = SentenceTransformer(EMBED_MODEL)
+                self.mode = "sbert"
+            except Exception as e:
+                print(f"[WARN] SBERT model load failed, falling back to TF-IDF. Reason: {e}")
+        if self.mode == "tfidf":
+            self.vectorizer = TfidfVectorizer(ngram_range=(1,2), min_df=1)
+        print(f"[INFO] Embedding mode: {self.mode}")
+    def fit_docs(self, docs):
+        if self.mode == "sbert":
+            embs = self.encoder.encode(docs, normalize_embeddings=True, convert_to_numpy=True).astype("float32")
+            self.doc_matrix = embs
+        else:
+            self.doc_matrix = self.vectorizer.fit_transform(docs)
+    def embed_query(self, q):
+        if self.mode == "sbert":
+            v = self.encoder.encode([q], normalize_embeddings=True, convert_to_numpy=True).astype("float32")
+            return v
+        else:
+            return self.vectorizer.transform([q])
+    def scores(self, idxs, q_vec):
+        if self.mode == "sbert":
+            # cosine since normalized
+            return self.doc_matrix[idxs].dot(q_vec[0])
+        else:
+            sims = cosine_similarity(self.doc_matrix[idxs], q_vec)
+            return sims[:,0]
+embedder = Embedder()
+DOC_TEXTS = [d["text"] for d in DOCS]
+embedder.fit_docs(DOC_TEXTS)
+# ========================
+# Pretty ingredient formatting
 # ========================
+_MEASURE_RE = re.compile(
+    r"^\s*(?P<meas>(?:\d+(\.\d+)?|\d+\s*/\s*\d+|\d+\s*\d*/\d+)\s*(?:ml|oz|tsp|tbsp)?|\d+\s*(?:ml|oz|tsp|tbsp)|(?:dash|dashes|drop|drops|barspoon)s?)\b[\s\-–:]*",
+    flags=re.I
+)
+def _split_measure_name_line(line: str):
+    if not isinstance(line, str): return "", line
+    m = _MEASURE_RE.match(line.strip())
+    if m:
+        meas = _norm_measure(m.group("meas"))
+        name = line[m.end():].strip()
+        return meas, name or ""
+    return "", line.strip()
+def _format_ingredients_markdown(lines):
+    if not lines:
+        return "—"
+    formatted = []
+    for ln in lines:
+        meas, name = _split_measure_name_line(ln)
+        if meas and name:
+            formatted.append(f"- **{meas}** — {name}")
+        elif name:
+            formatted.append(f"- {name}")
+        else:
+            formatted.append(f"- {ln}")
+    return "\n".join(formatted)
 # ========================
 # Recommendation
     inferred_base = tag_base(base_alcohol_text or "")
     if flavor not in FLAVOR_OPTIONS:
         return "Please choose a flavor."
+    idxs = [i for i, d in enumerate(DOCS) if d["base"] == inferred_base]
+    if inferred_base == "other" or not idxs:
+        idxs = list(range(len(DOCS)))
     q_text = f"Base spirit: {base_alcohol_text}. Flavor: {flavor}. Cocktail recipe."
+    q_vec = embedder.embed_query(q_text)
+    sims = embedder.scores(idxs, q_vec)
+    scored = []
+    for pos, i in enumerate(idxs):
+        base_score = float(sims[pos])
+        score = base_score + (FLAVOR_BOOST if flavor in DOCS[i]['flavors'] else 0.0)
+        scored.append((score, i))
     scored.sort(reverse=True)
+    k = max(1, int(top_k))
+    picks = scored[:k]
+    if not picks:
+        return "No matches found."
     blocks = []
     for sc, i in picks:
         d = DOCS[i]
+        ing_lines = d["ingredients_display"] or d["ingredients_tokens"]
+        ing_md = _format_ingredients_markdown(ing_lines)
+        meta = f"**Base:** {d['base']}  |  **Flavor tags:** {', '.join(d['flavors']) or '—'}  |  **Score:** {sc:.3f}"
+        blocks.append(
+            f"### {d['title']}\n"
+            f"{meta}\n\n"
+            f"**Ingredients:**\n{ing_md}"
+        )
     return "\n\n---\n\n".join(blocks)
 # ========================
     gr.HTML("<div id='app-bg'></div>")
     with gr.Column(elem_classes=["glass-card"]):
         gr.Markdown("# 🍹 AI Bartender — Type a Base + Flavor", elem_id="title_md")
         with gr.Row():
             base_text = gr.Textbox(value="gin", label="Base alcohol")
             flavor = gr.Dropdown(choices=FLAVOR_OPTIONS, value="citrus", label="Flavor")
             topk = gr.Slider(1, 10, value=3, step=1, label="Number of recommendations")
         with gr.Row():
             ex1 = gr.Button("Example: Gin + Citrus")
             ex2 = gr.Button("Example: Rum + Fruity")
             ex3 = gr.Button("Example: Mezcal + Smoky")
+        # Recommend button UNDER the example buttons
         out = gr.Markdown(elem_id="result_md")
+        gr.Button("Recommend").click(recommend, [base_text, flavor, topk], out)
+        # Quick-fill examples
         ex1.click(lambda: ("gin", "citrus", 3), outputs=[base_text, flavor, topk])
         ex2.click(lambda: ("white rum", "fruity", 3), outputs=[base_text, flavor, topk])
         ex3.click(lambda: ("mezcal", "smoky", 3), outputs=[base_text, flavor, topk])