zirobtc commited on Jan 26

Commit

9dd732c

1 Parent(s): 0e3516b

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
.ipynb_checkpoints/install-checkpoint.sh +26 -0
log.log +2 -2
metadata/INFORMATION_SCHEMA.sql +2 -0
metadata/default.sql +2 -0
metadata/information_schema.sql +2 -0
metadata/system.sql +2 -0
pre_cache.sh +0 -4
preprocessed_configs/config.xml +70 -0
scripts/analyze_data_distribution.py +207 -0
scripts/analyze_distribution.py +118 -0
scripts/cache_dataset.py +7 -4
scripts/download_epoch_artifacts.py +1 -1
status +3 -0
store/0e3/0e3eb1d8-7d84-4fb4-9205-69aed69777eb/format_version.txt +1 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount_decimal.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount_decimal.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/checksums.txt +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/columns.txt +13 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/columns_substreams.txt +29 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/count.txt +1 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/default_compression_codec.txt +1 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.null.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.null.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/metadata_version.txt +1 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.size.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.size.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/primary.cidx +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/priority_fee.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/priority_fee.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/serialization.json +1 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.size.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.size.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/slot.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/slot.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.size.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.size.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.sparse.idx.bin +3 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.sparse.idx.cmrk2 +0 -0
store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/success.bin +3 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 log.log filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 log.log filter=lfs diff=lfs merge=lfs -text
+store/74c/74c70007-cccd-4669-bfd4-e25f8348ad8c/all_1_35_2/primary.cidx filter=lfs diff=lfs merge=lfs -text

.ipynb_checkpoints/install-checkpoint.sh ADDED Viewed

	@@ -0,0 +1,26 @@

+sudo apt update
+sudo apt install -y curl wget gnupg apt-transport-https ca-certificates dirmngr
+sudo apt update
+sudo apt install -y pkg-config libudev-dev
+curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y
+source $HOME/.cargo/env
+# ClickHouse (add repo and install)
+sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 8919F6BD2B48D754
+echo "deb https://packages.clickhouse.com/deb stable main" | sudo tee /etc/apt/sources.list.d/clickhouse.list
+sudo apt update
+sudo apt install -y clickhouse-server clickhouse-client
+# Neo4j (add repo and install)
+sudo wget -O - https://debian.neo4j.com/neotechnology.gpg.key | sudo gpg --dearmor -o /usr/share/keyrings/neo4j.gpg
+echo "deb [signed-by=/usr/share/keyrings/neo4j.gpg] https://debian.neo4j.com stable latest" | sudo tee -a /etc/apt/sources.list.d/neo4j.list
+sudo apt update
+sudo apt install -y neo4j
+# Start Neo4j (Runs on bolt://localhost:7687)
+sudo neo4j-admin dbms set-initial-password neo4j123
+neo4j start
+clickhouse-server

log.log CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bfaace3cf2aadc0acf9e9714d8df00c44bc545db23c87e7497a7844ba3c98a9
-size 6115919

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce8d085fbecbf5108090a954e61db882a7ba0e7fddf4a57223d72e8ebf7713d
+size 1378

metadata/INFORMATION_SCHEMA.sql ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ATTACH DATABASE INFORMATION_SCHEMA
2	+ ENGINE = Memory

metadata/default.sql ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ATTACH DATABASE _ UUID '0f383396-21e2-451d-b7c5-287e41ad186e'
2	+ ENGINE = Atomic

metadata/information_schema.sql ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ATTACH DATABASE information_schema
2	+ ENGINE = Memory

metadata/system.sql ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ATTACH DATABASE _ UUID '248514d1-a5e3-431c-8452-15429f2d2c8c'
2	+ ENGINE = Atomic

pre_cache.sh CHANGED Viewed

@@ -1,12 +1,8 @@
 #!/bin/bash
 # Pre-caches the dataset for training
-# Usage: ./pre_cache.sh [max_samples]
-MAX_SAMPLES=${1:-100}
 echo "Starting dataset caching..."
 python3 scripts/cache_dataset.py \
-    --max_samples $MAX_SAMPLES \
     --ohlc_stats_path "/workspace/apollo/data/ohlc_stats.npz"
 echo "Done!"

 #!/bin/bash
 # Pre-caches the dataset for training
 echo "Starting dataset caching..."
 python3 scripts/cache_dataset.py \
     --ohlc_stats_path "/workspace/apollo/data/ohlc_stats.npz"
 echo "Done!"

preprocessed_configs/config.xml ADDED Viewed

	@@ -0,0 +1,70 @@

+<!-- This file was generated automatically.
+     Do not edit it: it is likely to be discarded and generated again before it's read next time.
+     Files used to generate this file:
+       config.xml      -->
+<!-- Config that is used when server is run without config file. -->
+<clickhouse>
+    <logger>
+        <level>trace</level>
+        <console>true</console>
+    </logger>
+    <http_port>8123</http_port>
+    <tcp_port>9000</tcp_port>
+    <mysql_port>9004</mysql_port>
+    <postgresql_port>9005</postgresql_port>
+    <path>./</path>
+    <mlock_executable>true</mlock_executable>
+    <send_crash_reports>
+        <enabled>true</enabled>
+        <send_logical_errors>true</send_logical_errors>
+        <endpoint>https://crash.clickhouse.com/</endpoint>
+    </send_crash_reports>
+    <http_options_response>
+        <header>
+            <name>Access-Control-Allow-Origin</name>
+            <value>*</value>
+        </header>
+        <header>
+            <name>Access-Control-Allow-Headers</name>
+            <value>origin, x-requested-with, x-clickhouse-format, x-clickhouse-user, x-clickhouse-key, Authorization</value>
+        </header>
+        <header>
+            <name>Access-Control-Allow-Methods</name>
+            <value>POST, GET, OPTIONS</value>
+        </header>
+        <header>
+            <name>Access-Control-Max-Age</name>
+            <value>86400</value>
+        </header>
+    </http_options_response>
+    <users>
+        <default>
+            <password/>
+            <networks>
+                <ip>::/0</ip>
+            </networks>
+            <profile>default</profile>
+            <quota>default</quota>
+            <access_management>1</access_management>
+            <named_collection_control>1</named_collection_control>
+        </default>
+    </users>
+    <profiles>
+        <default/>
+    </profiles>
+    <quotas>
+        <default/>
+    </quotas>
+</clickhouse>

scripts/analyze_data_distribution.py ADDED Viewed

	@@ -0,0 +1,207 @@

+import os
+import sys
+import datetime
+import math
+from collections import defaultdict
+import statistics
+# Add parent directory to path to import modules
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+from data.data_fetcher import DataFetcher
+from clickhouse_driver import Client as ClickHouseClient
+from neo4j import GraphDatabase
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# --- Configuration ---
+CLICKHOUSE_HOST = os.getenv("CLICKHOUSE_HOST", "localhost")
+CLICKHOUSE_PORT = int(os.getenv("CLICKHOUSE_PORT", 9000))
+CLICKHOUSE_USER = os.getenv("CLICKHOUSE_USER") or "default"
+CLICKHOUSE_PASSWORD = os.getenv("CLICKHOUSE_PASSWORD") or ""
+CLICKHOUSE_DATABASE = os.getenv("CLICKHOUSE_DATABASE", "default")
+NEO4J_URI = os.getenv("NEO4J_URI", "bolt://localhost:7687")
+NEO4J_USER = os.getenv("NEO4J_USER", "neo4j")
+NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD", "password")
+def get_percentile(data, p):
+    if not data:
+        return 0.0
+    data.sort()
+    k = (len(data) - 1) * p
+    f = math.floor(k)
+    c = math.ceil(k)
+    if f == c:
+        return data[int(k)]
+    d0 = data[int(f)]
+    d1 = data[int(c)]
+    return d0 + (d1 - d0) * (k - f)
+def main():
+    print("INFO: Connecting to Databases...")
+    try:
+        clickhouse_client = ClickHouseClient(host=CLICKHOUSE_HOST, port=CLICKHOUSE_PORT, user=CLICKHOUSE_USER, password=CLICKHOUSE_PASSWORD, database=CLICKHOUSE_DATABASE)
+        # We don't strictly need Neo4j for these aggregate stats, but initializing DataFetcher might require it
+        # Actually we can just run raw SQL queries on Clickhouse as that's where the metrics are.
+    except Exception as e:
+        print(f"ERROR: Failed to connect to Clickhouse: {e}")
+        sys.exit(1)
+    print("INFO: Fetching Aggregate Statistics from ClickHouse...")
+    print("      This may take a moment depending on dataset size...")
+    # 1. Migration Statistics
+    print("INFO: Counting Total Tokens (Mints table)...")
+    res_total = clickhouse_client.execute("SELECT count() FROM mints")
+    total_tokens = res_total[0][0]
+    print("INFO: Counting Migrated Tokens (Migrations table)...")
+    res_migrated = clickhouse_client.execute("SELECT count() FROM migrations")
+    migrated_count = res_migrated[0][0]
+    print(f"\n--- General Population ---")
+    print(f"Total Tokens: {total_tokens}")
+    if total_tokens > 0:
+        print(f"Migrated:     {migrated_count} ({migrated_count/total_tokens*100:.2f}%)")
+        print(f"Not Migrated: {total_tokens - migrated_count} ({(total_tokens - migrated_count)/total_tokens*100:.2f}%)")
+    else:
+        print("Migrated:     0 (0.00%)")
+    # 2. Volume & Market Cap Distribution (Peak)
+    # We'll fetch the ATH stats for all tokens to build histograms
+    print("\nINFO: Fetching metrics per token...")
+    query_metrics = """
+    SELECT
+        t.token_address,
+        max(tm.ath_price_usd) as peak_price,
+        max(tm.ath_price_usd * t.total_supply / pow(10, t.decimals)) as peak_mc_usd
+    FROM token_metrics tm
+    JOIN tokens t ON tm.token_address = t.token_address
+    GROUP BY t.token_address, t.total_supply, t.decimals
+    """
+    # Note: If token_metrics is huge, we might want to sample or do percentiles in SQL.
+    # For now, let's try SQL percentiles first to be efficient.
+    query_percentiles = """
+    SELECT
+        quantiles(0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99)(ath_price_usd * total_supply / pow(10, decimals)) as mc_quantiles
+    FROM (
+        SELECT
+            tm.token_address,
+            avg(tm.ath_price_usd) as ath_price_usd,
+            any(t.total_supply) as total_supply,
+            any(t.decimals) as decimals
+        FROM token_metrics tm
+        JOIN tokens t ON tm.token_address = t.token_address
+        GROUP BY tm.token_address
+    )
+    """
+    # Simplified query if the join is expensive or complex, but let's assume we can get Peak MC.
+    # Actually, simpler proxy: Let's look at `trades` to see volume per token.
+    print("INFO: Calculates Volume & ATH Distribution from token_metrics_latest...")
+    query_metrics = """
+    SELECT
+        total_volume_usd,
+        ath_price_usd
+    FROM token_metrics_latest
+    WHERE total_volume_usd > 0
+    """
+    rows = clickhouse_client.execute(query_metrics)
+    volumes = []
+    ath_prices = []
+    for r in rows:
+        volumes.append(float(r[0]))
+        ath_prices.append(float(r[1]))
+    if not volumes:
+        print("WARN: No metric data found in token_metrics_latest. Trying token_metrics...")
+        # Fallback to aggregation on token_metrics if latest is empty
+        query_fallback = """
+        SELECT
+            argMax(total_volume_usd, updated_at),
+            argMax(ath_price_usd, updated_at)
+        FROM token_metrics
+        GROUP BY token_address
+        """
+        rows = clickhouse_client.execute(query_fallback)
+        volumes = []
+        ath_prices = []
+        for r in rows:
+            volumes.append(float(r[0]))
+            ath_prices.append(float(r[1]))
+    if not volumes:
+        print("WARN: No metric data found. Exiting.")
+        return
+    volumes.sort()
+    ath_prices.sort()
+    n = len(volumes)
+    print("\n--- Volume USD Distribution (Per Token) ---")
+    print(f"Min:        ${volumes[0]:.2f}")
+    print(f"10th %ile:  ${get_percentile(volumes, 0.1):.2f}")
+    print(f"25th %ile:  ${get_percentile(volumes, 0.25):.2f}")
+    print(f"50th %ile:  ${get_percentile(volumes, 0.5):.2f} (Median)")
+    print(f"75th %ile:  ${get_percentile(volumes, 0.75):.2f}")
+    print(f"90th %ile:  ${get_percentile(volumes, 0.9):.2f}")
+    print(f"95th %ile:  ${get_percentile(volumes, 0.95):.2f}")
+    print(f"99th %ile:  ${get_percentile(volumes, 0.99):.2f}")
+    print(f"Max:        ${volumes[-1]:.2f}")
+    # --- 3. Fees Distribution (Priority + Bribe) ---
+    print("\nINFO: Calculating Aggregated Fees per Token (Priority + Bribe)...")
+    query_fees = """
+    SELECT
+        base_address,
+        sum(priority_fee) + sum(bribe_fee) as total_fees_sol
+    FROM trades
+    GROUP BY base_address
+    HAVING total_fees_sol > 0
+    """
+    rows_fees = clickhouse_client.execute(query_fees)
+    fees = []
+    for r in rows_fees:
+        fees.append(float(r[1]))
+    if fees:
+        fees.sort()
+        print(f"\n--- Total Fees Spent (SOL) Distribution (Per Token) ---")
+        print(f"Min:        {fees[0]:.4f} SOL")
+        print(f"50th %ile:  {get_percentile(fees, 0.5):.4f} SOL")
+        print(f"75th %ile:  {get_percentile(fees, 0.75):.4f} SOL")
+        print(f"90th %ile:  {get_percentile(fees, 0.9):.4f} SOL")
+        print(f"95th %ile:  {get_percentile(fees, 0.95):.4f} SOL")
+        print(f"Max:        {fees[-1]:.4f} SOL")
+        count_low_fees = sum(1 for f in fees if f < 0.1)
+        count_mid_fees = sum(1 for f in fees if f >= 0.1 and f < 1.0)
+        count_high_fees = sum(1 for f in fees if f >= 1.0)
+        print(f"\n--- Fee Thresholds Analysis ---")
+        print(f"Tokens < 0.1 SOL Fees: {count_low_fees} ({count_low_fees/len(fees)*100:.1f}%)")
+        print(f"Tokens 0.1 - 1.0 SOL:  {count_mid_fees} ({count_mid_fees/len(fees)*100:.1f}%)")
+        print(f"Tokens > 1.0 SOL Fees: {count_high_fees} ({count_high_fees/len(fees)*100:.1f}%)")
+    else:
+        print("WARN: No fee data found.")
+    print(f"\n--- Potential Thresholds Analysis ---")
+    count_under_1k = sum(1 for v in volumes if v < 1000)
+    count_over_20k = sum(1 for v in volumes if v > 20000)
+    count_over_500k = sum(1 for v in volumes if v > 500000)
+    print(f"Tokens < $1k Vol ('Instant Garbage'?): {count_under_1k} ({count_under_1k/n*100:.1f}%)")
+    print(f"Tokens > $20k Vol ('Contenders'?):     {count_over_20k} ({count_over_20k/n*100:.1f}%)")
+    print(f"Tokens > $500k Vol ('Alpha'?):         {count_over_500k} ({count_over_500k/n*100:.1f}%)")
+if __name__ == "__main__":
+    main()

scripts/analyze_distribution.py ADDED Viewed

	@@ -0,0 +1,118 @@

+import os
+import sys
+import datetime
+from dotenv import load_dotenv
+from clickhouse_driver import Client as ClickHouseClient
+# Add parent to path
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+load_dotenv()
+CLICKHOUSE_HOST = os.getenv("CLICKHOUSE_HOST", "localhost")
+CLICKHOUSE_PORT = int(os.getenv("CLICKHOUSE_PORT", 9000))
+CLICKHOUSE_USER = os.getenv("CLICKHOUSE_USER", "default")
+CLICKHOUSE_PASSWORD = os.getenv("CLICKHOUSE_PASSWORD", "")
+CLICKHOUSE_DATABASE = os.getenv("CLICKHOUSE_DATABASE", "default")
+def analyze():
+    try:
+        client = ClickHouseClient(
+            host=CLICKHOUSE_HOST,
+            port=CLICKHOUSE_PORT,
+            user=CLICKHOUSE_USER,
+            password=CLICKHOUSE_PASSWORD,
+            database=CLICKHOUSE_DATABASE
+        )
+        print("--- Database Stats Analysis ---")
+        # 1. Total Mints
+        total_mints = client.execute("SELECT count() FROM mints")[0][0]
+        print(f"Total Mints: {total_mints}")
+        if total_mints == 0:
+            print("No data found.")
+            return
+        # 2. Migrated Count (Proxy: launchpad != protocol OR check if in raydium pairs)
+        # Assuming we can infer success or use token_metrics
+        # Let's look at ATH Price distribution from token_metrics which is populated by the indexer
+        # Check coverage of token_metrics
+        total_metrics = client.execute("SELECT count() FROM token_metrics")[0][0]
+        print(f"Tokens with Metrics: {total_metrics} (Coverage: {total_metrics/total_mints*100:.1f}%)")
+        # 3. ATH Price Stats
+        # We need to know what a '5x' looks like.
+        # Since we don't have 'opening price' easily indexed for all, let's assume standard pump.fun open price ranges
+        # or just look at Market Cap distribution if available, or just raw ATH price.
+        # Pump.fun launch MC is usually ~$4-5k.
+        # 5x = $25k MC.
+        # 10x = $50k MC (Migration).
+        # Let's check distribution of ath_price_usd * total_supply (Approx ATH Market Cap)
+        # We need total_supply from tokens table.
+        print("\n--- ATH Market Cap Distribution (Approx) ---")
+        query_mc_buckets = """
+        SELECT
+            case
+                when mc < 5000 then '1. < $5k (Fail)'
+                when mc >= 5000 AND mc < 20000 then '2. $5k - $20k (2x-4x)'
+                when mc >= 20000 AND mc < 60000 then '3. $20k - $60k (4x-12x)'
+                when mc >= 60000 AND mc < 150000 then '4. $60k - $150k (12x-30x)'
+                when mc >= 150000 then '5. > $150k (Mooners)'
+                else 'Unknown'
+            end as bucket,
+            count() as cnt
+        FROM (
+            SELECT
+                tm.ath_price_usd * (t.total_supply / pow(10, t.decimals)) as mc
+            FROM token_metrics tm
+            JOIN tokens t ON tm.token_address = t.token_address
+        )
+        GROUP BY bucket
+        ORDER BY bucket
+        """
+        rows = client.execute(query_mc_buckets)
+        for r in rows:
+            print(f"{r[0]}: {r[1]} tokens")
+        # 4. Volume Distribution
+        # Helps define "High Volume Losers" vs "Garbage"
+        print("\n--- Volume Distribution (Total USD) ---")
+        # Aggregating all trades is heavy, let's do a sample or use token_metrics if it has volume (it doesn't seem to have volume sum in snippet)
+        # We'll use a subquery on trades for a subset or just a heavy query if local
+        query_vol_buckets = """
+        SELECT
+            case
+                when vol < 100 then '1. < $100 (Dead)'
+                when vol >= 100 AND vol < 1000 then '2. $100 - $1k (Tiny)'
+                when vol >= 1000 AND vol < 10000 then '3. $1k - $10k (Noise)'
+                when vol >= 10000 AND vol < 100000 then '4. $10k - $100k (Active)'
+                when vol >= 100000 then '5. > $100k (High)'
+                else 'Unknown'
+            end as bucket,
+            count() as cnt
+        FROM (
+            SELECT
+                base_address, sum(price_usd * amount_decimal) as vol
+            FROM trades
+            GROUP BY base_address
+        )
+        GROUP BY bucket
+        ORDER BY bucket
+        """
+        # This might be slow on huge datasets.
+        rows_vol = client.execute(query_vol_buckets)
+        for r in rows_vol:
+            print(f"{r[0]}: {r[1]} tokens")
+    except Exception as e:
+        print(f"Error: {e}")
+if __name__ == "__main__":
+    analyze()

scripts/cache_dataset.py CHANGED Viewed

@@ -35,13 +35,16 @@ CACHE_DIR = os.getenv("CACHE_DIR", "/workspace/apollo/data/cache")
 def main():
     parser = argparse.ArgumentParser(description="Pre-cache dataset samples.")
-    parser.add_argument("--max_samples", type=int, default=100, help="Number of samples to cache.")
-    parser.add_argument("--t_cutoff_seconds", type=int, default=60, help="Deprecated; cutoff is randomized at training time.")
     parser.add_argument("--start_date", type=str, default=None, help="Start date for filtering mints (YYYY-MM-DD).")
     parser.add_argument("--ohlc_stats_path", type=str, default=None, help="Path to OHLC stats JSON.")
     parser.add_argument("--min_trade_usd", type=float, default=0.0, help="Minimum trade USD value.")
     args = parser.parse_args()
     # Create cache directory if it doesn't exist
     output_dir = Path(CACHE_DIR)
@@ -66,9 +69,9 @@ def main():
     dataset = OracleDataset(
         data_fetcher=data_fetcher,
-        max_samples=args.max_samples,
         start_date=start_date_dt,
-        t_cutoff_seconds=args.t_cutoff_seconds,
         ohlc_stats_path=args.ohlc_stats_path,
         horizons_seconds=[60, 300, 900, 1800, 3600],
         quantiles=[0.5],

 def main():
     parser = argparse.ArgumentParser(description="Pre-cache dataset samples.")
+    parser.add_argument("--max_samples", type=int, default=-1, help="Number of samples to cache. Set to -1 to process all available.")
     parser.add_argument("--start_date", type=str, default=None, help="Start date for filtering mints (YYYY-MM-DD).")
     parser.add_argument("--ohlc_stats_path", type=str, default=None, help="Path to OHLC stats JSON.")
     parser.add_argument("--min_trade_usd", type=float, default=0.0, help="Minimum trade USD value.")
     args = parser.parse_args()
+    # Handle -1 as unlimited (None)
+    max_samples = args.max_samples if args.max_samples != -1 else None
     # Create cache directory if it doesn't exist
     output_dir = Path(CACHE_DIR)
     dataset = OracleDataset(
         data_fetcher=data_fetcher,
+        max_samples=max_samples,
         start_date=start_date_dt,
         ohlc_stats_path=args.ohlc_stats_path,
         horizons_seconds=[60, 300, 900, 1800, 3600],
         quantiles=[0.5],

scripts/download_epoch_artifacts.py CHANGED Viewed

@@ -54,7 +54,7 @@ def build_patterns(epoch: int, skip_clickhouse: bool = False) -> List[str]:
 def parse_args() -> argparse.Namespace:
     parser = argparse.ArgumentParser(description="Download epoch artifacts from Hugging Face.")
-    parser.add_argument("--epoch", type=int,  required=False, help="Epoch number to download (e.g., 851)", default=851)
     parser.add_argument("-c", "--skip-clickhouse", action="store_true", help="Download only the Neo4j dump")
     parser.add_argument(
         "--token",

 def parse_args() -> argparse.Namespace:
     parser = argparse.ArgumentParser(description="Download epoch artifacts from Hugging Face.")
+    parser.add_argument("--epoch", type=int,  required=False, help="Epoch number to download (e.g., 844)", default=844)
     parser.add_argument("-c", "--skip-clickhouse", action="store_true", help="Download only the Neo4j dump")
     parser.add_argument(
         "--token",

status ADDED Viewed

	@@ -0,0 +1,3 @@

+PID: 7085
+Started at: 2026-01-26 07:54:26
+Revision: 54508

store/0e3/0e3eb1d8-7d84-4fb4-9205-69aed69777eb/format_version.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78741c5d6f64855c8216af8f40e1c753e5164c9a8c641f083dbd715edb01c8fe
+size 7420410

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount.cmrk2 ADDED Viewed

Binary file (481 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount_decimal.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd99b3e6239e67cde4e32b2341f0ce61e08b8b3a29dfaa278cdf6b14b2f6478e
+size 8334598

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/amount_decimal.cmrk2 ADDED Viewed

Binary file (485 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/checksums.txt ADDED Viewed

Binary file (1.65 kB). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/columns.txt ADDED Viewed

	@@ -0,0 +1,13 @@

+columns format version: 1
+11 columns:
+`timestamp` DateTime('UTC')
+`signature` String
+`slot` UInt64
+`success` Bool
+`error` Nullable(String)
+`priority_fee` Float64
+`mint_address` String
+`source` String
+`amount` UInt64
+`amount_decimal` Float64
+`source_balance` Float64

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/columns_substreams.txt ADDED Viewed

	@@ -0,0 +1,29 @@

+columns substreams version: 1
+11 columns:
+1 substreams for column `timestamp`:
+	timestamp
+2 substreams for column `signature`:
+	signature.size
+	signature
+1 substreams for column `slot`:
+	slot
+1 substreams for column `success`:
+	success
+2 substreams for column `error`:
+	error.null
+	error
+1 substreams for column `priority_fee`:
+	priority_fee
+2 substreams for column `mint_address`:
+	mint_address.size
+	mint_address
+2 substreams for column `source`:
+	source.size
+	source
+1 substreams for column `amount`:
+	amount
+1 substreams for column `amount_decimal`:
+	amount_decimal
+2 substreams for column `source_balance`:
+	source_balance.sparse.idx
+	source_balance

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/count.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1100993

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/default_compression_codec.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ CODEC(LZ4)

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5a412041fb3275348b17f4629e30874227e064b7a99ee7f75443272cf57146b
+size 19714

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.cmrk2 ADDED Viewed

Binary file (404 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.null.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29b4b54b17151eab8c63c60abc03f6d36e4db9a99fb65adec928a44f5385a538
+size 12763

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/error.null.cmrk2 ADDED Viewed

Binary file (251 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/metadata_version.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 0

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3005ec831972d8b5735427bb3639961a32cdf98d653d99493498723f9bda84cf
+size 2541548

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.cmrk2 ADDED Viewed

Binary file (413 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.size.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ce10c4fce08c143dfc9dac8c83239708a415e01b451b773935ba3957b6949eb
+size 46913

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/mint_address.size.cmrk2 ADDED Viewed

Binary file (346 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/primary.cidx ADDED Viewed

Binary file (9.68 kB). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/priority_fee.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d254e8e5ef97247f7d542374e73cc0b94a8df3c949812ab6874cbb3a50875600
+size 472876

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/priority_fee.cmrk2 ADDED Viewed

Binary file (364 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/serialization.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"columns":[{"kind":"Default","name":"amount","num_defaults":12050,"num_rows":1100993},{"kind":"Default","name":"amount_decimal","num_defaults":12050,"num_rows":1100993},{"kind":"Default","name":"mint_address","num_defaults":0,"num_rows":1100993},{"kind":"Default","name":"priority_fee","num_defaults":603011,"num_rows":1100993},{"kind":"Default","name":"signature","num_defaults":0,"num_rows":1100993},{"kind":"Default","name":"slot","num_defaults":0,"num_rows":1100993},{"kind":"Default","name":"source","num_defaults":0,"num_rows":1100993},{"kind":"Sparse","name":"source_balance","num_defaults":1100972,"num_rows":1100993},{"kind":"Default","name":"success","num_defaults":2430,"num_rows":1100993},{"kind":"Default","name":"timestamp","num_defaults":0,"num_rows":1100993}],"types_serialization_versions":{"string":1},"version":1}

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.cmrk2 ADDED Viewed

Binary file (497 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.size.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c49e6bc87990c8c5ab96fd121d5ae48c81543e428bc5dc2279a46844c938730
+size 1139668

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/signature.size.cmrk2 ADDED Viewed

Binary file (382 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/slot.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae9876c194dc904c59decde7de4308e13a9ae3a5e9590c287051a2d1374b583d
+size 2918244

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/slot.cmrk2 ADDED Viewed

Binary file (420 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.cmrk2 ADDED Viewed

Binary file (492 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.size.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98f071e87f6c59312c867a8b715573fd7e5f3dc5ec1ff9afb30d6279f386421f
+size 235336

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source.size.cmrk2 ADDED Viewed

Binary file (357 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac17d2da6ced6aa0c59138dea492b9e46fafb8c3c91943f6e7133b4b2f6fdb43
+size 137

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.cmrk2 ADDED Viewed

Binary file (60 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.sparse.idx.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dc6efc4326db4329ea2ee99ff93188c17504ad8f8f9604f53ea859a96828e2c
+size 66

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/source_balance.sparse.idx.cmrk2 ADDED Viewed

Binary file (222 Bytes). View file

store/0ee/0ee2fde6-369e-4923-bdf9-fe7f0c901703/all_1_1_0/success.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29b4b54b17151eab8c63c60abc03f6d36e4db9a99fb65adec928a44f5385a538
+size 12763