Spaces:

Benny-Tang
/

sure-win

Sleeping

App Files Files Community

Benny-Tang commited on Sep 22, 2025

Commit

790c045

verified ·

1 Parent(s): efe4f7e

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -37

app.py CHANGED Viewed

@@ -11,61 +11,81 @@ from utils import generate_features, pick_top15, generate_system15_csv
 def train_and_predict(file_obj):
     # Load dataset
     df = pd.read_csv(file_obj.name, header=None)
-    # Columns: [draw_id?, draw_date, n1..n6, bonus, ...]
-    df = df.iloc[:, :8]
     df.columns = ["draw_date", "n1", "n2", "n3", "n4", "n5", "n6", "bonus"]
-    # Generate features
-    features, labels = generate_features(df)
-    # Make sure we have at least 2 classes
-    if len(np.unique(labels)) < 2:
-        return "❌ Not enough class variety in labels to train the model.", None
-    # Train/test split with fallback
-    try:
-        X_train, X_test, y_train, y_test = train_test_split(
-            features, labels, test_size=0.2, random_state=42, stratify=labels
-        )
-    except ValueError:
-        X_train, y_train = features, labels
-        X_test, y_test = features, labels
-    # Train model
-    model = GradientBoostingClassifier(n_estimators=200, max_depth=3, random_state=42)
-    model.fit(X_train, y_train)
-    # Evaluate if possible
-    if len(np.unique(y_test)) > 1:
-        auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
     else:
-        auc = 0.5
-    # Score all numbers 1–50
-    all_numbers = pd.DataFrame({"number": range(1, 51)})
-    all_features, _ = generate_features(df, candidate_numbers=all_numbers["number"].tolist())
-    scores = model.predict_proba(all_features)[:, 1]
-    all_numbers["score"] = scores
-    # Pick top 15
-    top15 = pick_top15(all_numbers)
     # Generate System 15 CSV (5005 combos)
     csv_path = "system15.csv"
     generate_system15_csv(top15, csv_path)
-    return f"Model AUC: {auc:.3f}\nTop 15 Numbers: {top15}", csv_path
 demo = gr.Interface(
     fn=train_and_predict,
     inputs=gr.File(file_types=[".txt", ".csv"], label="Upload Toto650.txt"),
     outputs=[
-        gr.Textbox(label="Prediction Summary"),
         gr.File(label="Download System15 CSV")
     ],
     title="Sure Win Club - Star Toto 6/50 Predictor",
-    description="Upload the latest Toto650.txt dataset every Monday. The system will train a fresh model and output Top 15 numbers + System15 (5005 tickets)."
 )
 if __name__ == "__main__":
@@ -74,3 +94,4 @@ if __name__ == "__main__":

 def train_and_predict(file_obj):
     # Load dataset
     df = pd.read_csv(file_obj.name, header=None)
+    df = df.iloc[:, :8]  # Keep only date + 6 main numbers + bonus
     df.columns = ["draw_date", "n1", "n2", "n3", "n4", "n5", "n6", "bonus"]
+    debug_log = []
+    debug_log.append(f"✅ Loaded dataset with {len(df)} draws")
+    debug_log.append(f"First draw date: {df['draw_date'].iloc[0]}, Last draw date: {df['draw_date'].iloc[-1]}")
+    # Generate features and labels
+    features, labels = generate_features(df)
+    debug_log.append(f"Generated {len(features)} feature rows, Labels distribution: {np.bincount(labels)}")
+    top15 = None
+    auc = None
+    used_fallback = False
+    # --- Try ML model ---
+    if len(np.unique(labels)) >= 2:
+        try:
+            X_train, X_test, y_train, y_test = train_test_split(
+                features, labels, test_size=0.2, random_state=42, stratify=labels
+            )
+            debug_log.append(f"Train size: {len(X_train)}, Test size: {len(X_test)}")
+            model = GradientBoostingClassifier(n_estimators=200, max_depth=3, random_state=42)
+            model.fit(X_train, y_train)
+            if len(np.unique(y_test)) > 1:
+                auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
+            else:
+                auc = 0.5
+            # Score all numbers 1–50
+            all_numbers = pd.DataFrame({"number": range(1, 51)})
+            all_features, _ = generate_features(df, candidate_numbers=all_numbers["number"].tolist())
+            scores = model.predict_proba(all_features)[:, 1]
+            all_numbers["score"] = scores
+            top15 = pick_top15(all_numbers)
+            debug_log.append(f"🎯 ML Top 15 Numbers: {top15}")
+            debug_log.append(f"Model AUC: {auc:.3f}")
+        except Exception as e:
+            debug_log.append(f"⚠️ ML training failed: {str(e)}")
+            used_fallback = True
     else:
+        debug_log.append("⚠️ Only one class found in labels — skipping ML")
+        used_fallback = True
+    # --- Fallback: Frequency-based ---
+    if used_fallback or top15 is None:
+        debug_log.append("👉 Using fallback: frequency-based Top 15")
+        # Count occurrences of each number in all draws
+        nums = df[["n1", "n2", "n3", "n4", "n5", "n6"]].values.flatten()
+        freq = pd.Series(nums).value_counts().reset_index()
+        freq.columns = ["number", "count"]
+        top15 = sorted(freq.head(15)["number"].tolist())
+        debug_log.append(f"🎯 Frequency Top 15 Numbers: {top15}")
     # Generate System 15 CSV (5005 combos)
     csv_path = "system15.csv"
     generate_system15_csv(top15, csv_path)
+    debug_log.append("📂 system15.csv generated with 5005 combinations")
+    return "\n".join(debug_log), csv_path
 demo = gr.Interface(
     fn=train_and_predict,
     inputs=gr.File(file_types=[".txt", ".csv"], label="Upload Toto650.txt"),
     outputs=[
+        gr.Textbox(label="Training & Prediction Log", lines=20),
         gr.File(label="Download System15 CSV")
     ],
     title="Sure Win Club - Star Toto 6/50 Predictor",
+    description="Upload the latest Toto650.txt dataset every Monday. The system will train a fresh model (or fallback to frequency) and output Top 15 numbers + System15 (5005 tickets)."
 )
 if __name__ == "__main__":