Spaces:

facebook
/

sapiens2-pose

Running on Zero

App Files Files Community

Rawal Khirodkar commited on 13 days ago

Commit

c139808

1 Parent(s): 3ae907a

Initial sapiens2-pose Space (HF download at startup, all 4 sizes)

Browse files

Files changed (28) hide show

.gitattributes +1 -0
.gitignore +5 -0
README.md +14 -4
app.py +254 -0
assets/configs/_base_/keypoints308.py +0 -0
assets/configs/sapiens2_0.4b_keypoints308_shutterstock_goliath_3po-1024x768.py +325 -0
assets/configs/sapiens2_0.8b_keypoints308_shutterstock_goliath_3po-1024x768.py +325 -0
assets/configs/sapiens2_1b_keypoints308_shutterstock_goliath_3po-1024x768.py +328 -0
assets/configs/sapiens2_5b_keypoints308_shutterstock_goliath_3po-1024x768.py +326 -0
assets/images/68204.png +3 -0
assets/images/68210.png +3 -0
assets/images/68658.png +3 -0
assets/images/68666.png +3 -0
assets/images/68691.png +3 -0
assets/images/68956.png +3 -0
assets/images/pexels-amresh444-17315601.png +3 -0
assets/images/pexels-gabby-k-6311686.png +3 -0
assets/images/pexels-julia-m-cameron-4145040.png +3 -0
assets/images/pexels-marcus-aurelius-6787357.png +3 -0
assets/images/pexels-mo-saeed-3616599-5409085.png +3 -0
assets/images/pexels-riedelmax-27355495.png +3 -0
assets/images/pexels-sergeymakashin-5368660.png +3 -0
assets/images/pexels-vinicius-wiesehofer-289347-4219918.png +3 -0
assets/rtmdet_m_640-8xb32_coco-person_no_nms.py +20 -0
classes_and_palettes.py +1024 -0
detector_utils.py +196 -0
pose_render_utils.py +120 -0
requirements.txt +18 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,5 @@

+__pycache__
+*.pyc
+default.profraw
+.DS_Store
+*.log

README.md CHANGED Viewed

@@ -1,12 +1,22 @@
 ---
 title: Sapiens2 Pose
-emoji: 🐢
-colorFrom: indigo
 colorTo: indigo
 sdk: gradio
-sdk_version: 6.13.0
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Sapiens2 Pose
+emoji: 🧬
+colorFrom: blue
 colorTo: indigo
 sdk: gradio
+sdk_version: 4.42.0
 app_file: app.py
 pinned: false
+license: other
+license_name: sapiens2-license
+license_link: https://github.com/facebookresearch/sapiens2/blob/main/LICENSE.md
 ---
+# Sapiens2: Pose Estimation
+### ICLR 2026
+Top-down 308-keypoint human pose estimation. Detects people with RTMDet, then runs Sapiens2 on each crop.
+- **Code:** [github.com/facebookresearch/sapiens2](https://github.com/facebookresearch/sapiens2)
+- **Models:** [Sapiens2 collection](https://huggingface.co/facebook/sapiens2)
+- **Paper:** https://openreview.net/pdf?id=IVAlYCqdvW

app.py ADDED Viewed

	@@ -0,0 +1,254 @@

+"""Sapiens2 pose-estimation Gradio Space.
+Top-down 308-keypoint pose: RTMDet finds people, Sapiens2 estimates keypoints
+on each crop, and we draw skeleton + keypoints with the GOLIATH palette.
+All checkpoints are pulled from HuggingFace at startup so this Space repo
+stays small. The eager pre-load below warms the cache for the detector and
+all 4 pose sizes during boot, so user requests are instant.
+"""
+# Block mmpretrain: mmdet's reid modules try `import mmpretrain` inside
+# try/except ImportError, but mmpretrain's BLIP language_model.py raises
+# TypeError (transformers API drift) — escapes the except and kills the process.
+import sys
+sys.modules["mmpretrain"] = None
+import json
+import os
+import tempfile
+from typing import List, Tuple
+import cv2
+import gradio as gr
+import numpy as np
+import spaces
+import torch
+from huggingface_hub import hf_hub_download
+from PIL import Image
+from sapiens.pose.datasets import UDPHeatmap, parse_pose_metainfo
+from sapiens.pose.evaluators import nms
+from sapiens.pose.models import init_model
+from detector_utils import adapt_mmdet_pipeline
+from mmdet.apis import inference_detector, init_detector
+from pose_render_utils import visualize_keypoints
+# -----------------------------------------------------------------------------
+# Config
+ASSETS_DIR = os.path.join(os.path.dirname(os.path.abspath(__file__)), "assets")
+CONFIGS_DIR = os.path.join(ASSETS_DIR, "configs")
+# Sapiens2 pose checkpoints — fetched from HF model repos at startup.
+POSE_MODELS = {
+    "0.4B": {
+        "repo": "facebook/sapiens2-pose-0.4b",
+        "filename": "sapiens2_0.4b_pose.safetensors",
+        "config": os.path.join(CONFIGS_DIR, "sapiens2_0.4b_keypoints308_shutterstock_goliath_3po-1024x768.py"),
+    },
+    "0.8B": {
+        "repo": "facebook/sapiens2-pose-0.8b",
+        "filename": "sapiens2_0.8b_pose.safetensors",
+        "config": os.path.join(CONFIGS_DIR, "sapiens2_0.8b_keypoints308_shutterstock_goliath_3po-1024x768.py"),
+    },
+    "1B": {
+        "repo": "facebook/sapiens2-pose-1b",
+        "filename": "sapiens2_1b_pose.safetensors",
+        "config": os.path.join(CONFIGS_DIR, "sapiens2_1b_keypoints308_shutterstock_goliath_3po-1024x768.py"),
+    },
+    "5B": {
+        "repo": "facebook/sapiens2-pose-5b",
+        "filename": "sapiens2_5b_pose.safetensors",
+        "config": os.path.join(CONFIGS_DIR, "sapiens2_5b_keypoints308_shutterstock_goliath_3po-1024x768.py"),
+    },
+}
+DEFAULT_SIZE = "1B"
+DETECTOR_REPO = "facebook/sapiens-pose-bbox-detector"
+DETECTOR_CKPT_FILENAME = "rtmdet_m_8xb32-100e_coco-obj365-person-235e8209.pth"
+DETECTOR_CONFIG = os.path.join(ASSETS_DIR, "rtmdet_m_640-8xb32_coco-person_no_nms.py")
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+BBOX_THR = 0.3
+NMS_THR = 0.3
+# -----------------------------------------------------------------------------
+# Model cache (load once, reuse across requests)
+_pose_model_cache: dict = {}
+_detector_cache = None
+_metainfo_cache = None
+def _get_metainfo():
+    global _metainfo_cache
+    if _metainfo_cache is None:
+        meta_path = os.path.join(CONFIGS_DIR, "_base_", "keypoints308.py")
+        _metainfo_cache = parse_pose_metainfo(dict(from_file=meta_path))
+    return _metainfo_cache
+def _get_detector():
+    global _detector_cache
+    if _detector_cache is None:
+        ckpt = hf_hub_download(repo_id=DETECTOR_REPO, filename=DETECTOR_CKPT_FILENAME)
+        det = init_detector(DETECTOR_CONFIG, ckpt, device=DEVICE)
+        det.cfg = adapt_mmdet_pipeline(det.cfg)
+        _detector_cache = det
+    return _detector_cache
+def _get_pose_model(size: str):
+    if size not in _pose_model_cache:
+        spec = POSE_MODELS[size]
+        ckpt = hf_hub_download(repo_id=spec["repo"], filename=spec["filename"])
+        model = init_model(spec["config"], ckpt, device=DEVICE)
+        codec_cfg = dict(model.cfg.codec)
+        assert codec_cfg.pop("type") == "UDPHeatmap"
+        model.codec = UDPHeatmap(**codec_cfg)
+        model.pose_metainfo = _get_metainfo()
+        _pose_model_cache[size] = model
+    return _pose_model_cache[size]
+# -----------------------------------------------------------------------------
+# Eager pre-load: download + warm-load detector + all pose sizes at startup so
+# the first user (and every user thereafter) gets an instant response.
+print("[startup] pre-loading detector + all pose sizes ...")
+_get_detector()
+for _size in POSE_MODELS:
+    _get_pose_model(_size)
+print("[startup] ready.")
+# -----------------------------------------------------------------------------
+# Inference
+def _detect_persons(image_bgr: np.ndarray) -> np.ndarray:
+    detector = _get_detector()
+    det = inference_detector(detector, image_bgr)
+    inst = det.pred_instances.cpu().numpy()
+    bboxes = np.concatenate((inst.bboxes, inst.scores[:, None]), axis=1)
+    bboxes = bboxes[(inst.labels == 0) & (inst.scores > BBOX_THR)]
+    bboxes = bboxes[nms(bboxes, NMS_THR), :4]  # x1,y1,x2,y2
+    if len(bboxes) == 0:
+        h, w = image_bgr.shape[:2]
+        bboxes = np.array([[0, 0, w - 1, h - 1]], dtype=np.float32)
+    return bboxes
+def _estimate_pose(image_bgr: np.ndarray, bboxes: np.ndarray, model) -> Tuple[List[np.ndarray], List[np.ndarray]]:
+    inputs_list, samples_list = [], []
+    for bbox in bboxes:
+        data_info = dict(img=image_bgr, bbox=bbox[None], bbox_score=np.ones(1, dtype=np.float32))
+        data = model.pipeline(data_info)
+        data = model.data_preprocessor(data)
+        inputs_list.append(data["inputs"])
+        samples_list.append(data["data_samples"])
+    inputs = torch.cat(inputs_list, dim=0)
+    with torch.no_grad():
+        pred = model(inputs)  # (B, K, h, w) heatmaps
+    pred = pred.cpu().numpy()
+    keypoints, scores = [], []
+    for i, sample in enumerate(samples_list):
+        kpts_i, scr_i = model.codec.decode(pred[i])  # (1, K, 2), (1, K)
+        meta = sample["meta"]
+        kpts_i = kpts_i / meta["input_size"] * meta["bbox_scale"] + meta["bbox_center"] - 0.5 * meta["bbox_scale"]
+        keypoints.append(kpts_i[0])
+        scores.append(scr_i[0])
+    return keypoints, scores
+# -----------------------------------------------------------------------------
+# Gradio handler
+@spaces.GPU(duration=120)
+def predict(image: Image.Image, size: str, kpt_thr: float):
+    if image is None:
+        return None, None
+    image_rgb = np.array(image.convert("RGB"))
+    image_bgr = cv2.cvtColor(image_rgb, cv2.COLOR_RGB2BGR)
+    bboxes = _detect_persons(image_bgr)
+    model = _get_pose_model(size)
+    keypoints, scores = _estimate_pose(image_bgr, bboxes, model)
+    meta = model.pose_metainfo
+    vis_rgb = visualize_keypoints(
+        image=image_rgb,
+        keypoints=keypoints,
+        keypoints_visible=[np.ones(len(s), dtype=bool) for s in scores],
+        keypoint_scores=scores,
+        radius=3,
+        thickness=1,
+        kpt_thr=kpt_thr,
+        skeleton=meta["skeleton_links"],
+        kpt_color=meta["keypoint_colors"],
+        link_color=meta["skeleton_link_colors"],
+    )
+    instances = [
+        {
+            "bbox": [float(v) for v in np.asarray(bbox).reshape(-1)[:4]],
+            "keypoints": np.asarray(kpts, dtype=float).tolist(),
+            "keypoint_scores": np.asarray(s, dtype=float).reshape(-1).tolist(),
+        }
+        for bbox, kpts, s in zip(bboxes, keypoints, scores)
+    ]
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".json", mode="w") as f:
+        json.dump({"instances": instances}, f)
+        json_path = f.name
+    return Image.fromarray(vis_rgb), json_path
+# -----------------------------------------------------------------------------
+# UI
+EXAMPLES = sorted(
+    os.path.join(ASSETS_DIR, "images", n)
+    for n in os.listdir(os.path.join(ASSETS_DIR, "images"))
+    if n.lower().endswith((".jpg", ".jpeg", ".png"))
+)
+with gr.Blocks(title="Sapiens2 Pose", theme=gr.themes.Default()) as demo:
+    gr.Markdown(
+        "# Sapiens2: Pose Estimation\n"
+        "### ICLR 2026\n"
+        "Top-down 308-keypoint human pose. RTMDet finds people; Sapiens2 estimates keypoints.\n\n"
+        "[Code](https://github.com/facebookresearch/sapiens2) · "
+        "[Models](https://huggingface.co/facebook/sapiens2) · "
+        "[Paper](https://openreview.net/pdf?id=IVAlYCqdvW)"
+    )
+    with gr.Row():
+        with gr.Column():
+            inp = gr.Image(label="Input", type="pil")
+            with gr.Row():
+                size = gr.Radio(
+                    choices=list(POSE_MODELS.keys()),
+                    value=DEFAULT_SIZE,
+                    label="Model size",
+                )
+                thr = gr.Slider(0.0, 1.0, value=0.3, step=0.05, label="Keypoint threshold")
+            run = gr.Button("Run", variant="primary")
+            gr.Examples(examples=EXAMPLES, inputs=inp, examples_per_page=14)
+        with gr.Column():
+            out_img = gr.Image(label="Pose-308 result", type="pil")
+            out_json = gr.File(label="Keypoints (.json)")
+    run.click(predict, inputs=[inp, size, thr], outputs=[out_img, out_json])
+if __name__ == "__main__":
+    if torch.cuda.is_available():
+        torch.backends.cuda.matmul.allow_tf32 = True
+        torch.backends.cudnn.allow_tf32 = True
+    demo.launch(share=False)

assets/configs/_base_/keypoints308.py ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/configs/sapiens2_0.4b_keypoints308_shutterstock_goliath_3po-1024x768.py ADDED Viewed

	@@ -0,0 +1,325 @@

+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import os
+_CHECKPOINT_ROOT = os.path.expanduser(
+    os.environ.get("SAPIENS_CHECKPOINT_ROOT", "~/sapiens2_host")
+)
+_DATA_ROOT = os.path.expanduser(os.environ.get("DATA_ROOT", "~/sapiens_data"))
+warmup_iters = 500
+# num_iters = 2e4
+num_iters = 1e4
+# ------------------------------------------------------------------------------
+vis_every_iters = 100
+log_every_iters = 10
+save_every_iters = 1000
+val_every_iters = 1000
+# # # # debug
+# vis_every_iters = 1
+# log_every_iters = 1
+# val_every_iters = 2
+# save_every_iters = 1000
+load_from = None
+resume = False
+# ------------------------------------------------------------------
+model_name = "sapiens2_0.4b"
+embed_dim = 1024
+num_layers = 24
+num_heads = 16
+layer_decay_rate = 0.8
+pretrained_checkpoint = f"{_CHECKPOINT_ROOT}/pretrain/sapiens2_0.4b_pretrain.safetensors"
+##-----------------------------------------------------------------
+image_size = (1024, 768)  ## height x width
+patch_size = 16
+sigma = 6  ## sigma is 2 for 256
+scale = 4
+num_keypoints = 308
+# ------------------------------------------------------------------
+use_fsdp = True
+# use_fsdp = False
+use_compile = True
+# use_compile = False
+## DDP config
+if use_fsdp is False:
+    accelerator_cfg = dict(
+        type="DDP",
+        log_with="tensorboard",
+        # find_unused_parameters=True,
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        # mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,  ## schedule independent of n_gpus
+    )
+else:
+    accelerator_cfg = dict(
+        type="FSDP",
+        log_with="tensorboard",
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,
+        fsdp_cfg=dict(
+            fsdp_version=2,  # DTensor-based engine
+            state_dict_type="SHARDED_STATE_DICT",  # SHARDED_STATE_DICT | FULL_STATE_DICT
+            mixed_precision=dict(
+                param_dtype="bf16",
+                reduce_dtype="bf16",
+            ),
+            cpu_ram_efficient_loading=False,
+        ),
+    )
+if use_compile:
+    accelerator_cfg["compile_cfg"] = dict(
+        backend="inductor",
+        mode="default",  # Options: "default", "reduce-overhead", "max-autotune"
+        fullgraph=False,
+        dynamic=False,
+    )
+# ------------------------------------------------------------------
+randomness = dict(seed=0, deterministic=False, diff_rank_seed=True)
+logger = dict(
+    type="Logger",
+    log_interval=log_every_iters,
+)
+checkpoint = dict(
+    type="Checkpointer",
+    save_interval=save_every_iters,
+)
+visualizer = dict(
+    type="PoseVisualizer",
+    vis_interval=vis_every_iters,
+    vis_max_samples=4,
+    vis_image_width=384,
+    vis_image_height=512,
+    num_keypoints=num_keypoints,
+)
+##-----------------------------------------------------------------
+codec = dict(
+    type="UDPHeatmap",
+    input_size=(image_size[1], image_size[0]),  ## width x height
+    heatmap_size=(int(image_size[1] / scale), int(image_size[0] / scale)),
+    sigma=sigma,
+)  ## sigma is 2 for 256
+train_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseRandomFlip", direction="horizontal"),  ## default prob is 0.5
+    dict(type="PoseRandomHalfBody"),
+    dict(type="PoseRandomBBoxTransform"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="RandomPhotoMetricDistortion", prob=0.8),
+    dict(
+        type="PoseAlbumentation",
+        transforms=[
+            dict(type="Blur", p=0.1),
+            dict(type="MedianBlur", p=0.1),
+            dict(
+                type="CoarseDropout",
+                max_holes=1,
+                max_height=0.4,
+                max_width=0.4,
+                min_holes=1,
+                min_height=0.2,
+                min_width=0.2,
+                p=1.0,
+            ),
+        ],
+    ),
+    dict(type="PoseGenerateTarget", encoder=codec),
+    dict(type="PosePackInputs"),
+]
+val_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+test_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+##------------------------------------------------------------------------
+dataset_shutterstock_train = dict(
+    type="Keypoints308ShutterstockDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_102866/itw_shutterstock_body_keypoint_344_train:2025070300.json",
+)
+dataset_goliath_train = dict(
+    type="Keypoints308GoliathDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_90942/sociopticon_body_keypoint_344_train:2024093001.json",
+    subsample_factor=8,
+)
+dataset_3po_train = dict(
+    type="Keypoints308_3PODataset",
+    ann_file=f"{_DATA_ROOT}/indices/3po/train.json",
+    subsample_factor=2,
+)
+# train_datasets = [dataset_shutterstock_train]
+# train_datasets = [dataset_goliath_train]
+# train_datasets = [dataset_3po_train]
+train_datasets = (
+    [dataset_goliath_train] + 2 * [dataset_shutterstock_train] + [dataset_3po_train]
+)
+train_dataloader = dict(
+    batch_size=1,
+    num_workers=4,
+    persistent_workers=True,
+    shuffle=True,
+    dataset=dict(
+        type="CombinedDataset", datasets=train_datasets, pipeline=train_pipeline
+    ),
+)
+# ------------------------------------------------------------------------------
+dataset_shutterstock_val = dict(
+    type="Keypoints308ShutterstockEvalDataset",
+    data_root=f"{_DATA_ROOT}/pose/data/shutterstock/test/images",
+    ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    test_mode=True,
+    pipeline=val_pipeline,
+)
+val_dataloader = dict(
+    batch_size=4,
+    num_workers=4,
+    persistent_workers=True,
+    multiprocessing_context="spawn",  ## avoids fork error with airstore
+    shuffle=False,
+    dataset=dataset_shutterstock_val,
+    collate_fn=dict(type="eval_collate"),
+)
+val_cfg = dict(
+    val_interval=val_every_iters,
+    flip_test=True,  ## left right flip
+    evaluator=dict(
+        type="Keypoints308Evaluator",
+        decoder=codec,
+        ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    ),
+)
+# dataset_goliath_val = dict(
+#     type="Keypoints308GoliathEvalDataset",
+#     data_root=f"{_DATA_ROOT}/pose/data/goliath/test_10000/images",
+#     ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     test_mode=True,
+#     # num_samples=10,  ## debug
+#     pipeline=val_pipeline,
+# )
+# val_dataloader = dict(
+#     batch_size=4,
+#     num_workers=4,
+#     persistent_workers=True,
+#     multiprocessing_context="spawn",  ## avoids fork error with airstore
+#     # num_workers=0,  # debug
+#     # persistent_workers=False,  # debug
+#     shuffle=False,
+#     dataset=dataset_goliath_val,
+#     collate_fn=dict(type="eval_collate"),
+# )
+# val_cfg = dict(
+#     val_interval=val_every_iters,
+#     flip_test=True,  ## left right flip
+#     evaluator=dict(
+#         type="Keypoints308Evaluator",
+#         decoder=codec,
+#         ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     ),
+# )
+data_preprocessor = dict(
+    type="ImagePreprocessor",
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    bgr_to_rgb=True,  ## convert from bgr to rgb for pretrained models
+)
+##-----------------------------------------------------------------
+model = dict(
+    type="PoseTopdownEstimator",
+    backbone=dict(
+        type="Sapiens2",
+        arch=model_name,
+        img_size=image_size,
+        patch_size=patch_size,
+        final_norm=True,
+        use_tokenizer=False,
+        with_cls_token=True,
+        out_type="featmap",
+        init_cfg=dict(type="Pretrained", checkpoint=pretrained_checkpoint),
+    ),
+    decode_head=dict(
+        type="PoseHeatmapHead",
+        in_channels=embed_dim,
+        out_channels=num_keypoints,
+        deconv_out_channels=(1024, 768),  ## this will 2x at each step. so total is 4x
+        deconv_kernel_sizes=(4, 4),
+        conv_out_channels=(512, 512, 256),
+        conv_kernel_sizes=(1, 1, 1),
+        loss_decode=dict(
+            type="KeypointMSELoss", use_target_weight=True, loss_weight=10.0
+        ),
+        # loss_decode=dict(type='KeypointOHKMMSELoss', use_target_weight=True, topk=128), ## loss only for top 128 keypoints. for finetuning later.
+    ),
+)
+##-----------------------------------------------------------------
+optimizer = dict(
+    type="AdamW",
+    lr=5e-4,
+    betas=(0.9, 0.999),
+    weight_decay=0.1,
+    paramwise_cfg=dict(
+        num_layers=num_layers,
+        layer_decay_rate=layer_decay_rate,
+    ),
+    fused=True,
+)
+scheduler = dict(
+    type="SequentialLR",
+    milestones=[warmup_iters],
+    schedulers=[
+        dict(type="LinearLR", start_factor=1e-3, total_iters=warmup_iters),
+        dict(
+            type="PolynomialLR",
+            total_iters=num_iters - warmup_iters,
+            power=1.0,
+        ),
+    ],
+)
+clip_grad = dict(mode="norm", max_norm=2.0, norm_type=2.0)
+runner_type = "PoseRunner"

assets/configs/sapiens2_0.8b_keypoints308_shutterstock_goliath_3po-1024x768.py ADDED Viewed

	@@ -0,0 +1,325 @@

+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import os
+_CHECKPOINT_ROOT = os.path.expanduser(
+    os.environ.get("SAPIENS_CHECKPOINT_ROOT", "~/sapiens2_host")
+)
+_DATA_ROOT = os.path.expanduser(os.environ.get("DATA_ROOT", "~/sapiens_data"))
+warmup_iters = 500
+# num_iters = 2e4
+num_iters = 1e4
+# ------------------------------------------------------------------------------
+vis_every_iters = 100
+log_every_iters = 10
+save_every_iters = 1000
+val_every_iters = 1000
+# # # # debug
+# vis_every_iters = 1
+# log_every_iters = 1
+# val_every_iters = 2
+# save_every_iters = 1000
+load_from = None
+resume = False
+# ------------------------------------------------------------------
+model_name = "sapiens2_0.8b"
+embed_dim = 1280
+num_layers = 32
+num_heads = 16
+layer_decay_rate = 0.85
+pretrained_checkpoint = f"{_CHECKPOINT_ROOT}/pretrain/sapiens2_0.8b_pretrain.safetensors"
+##-----------------------------------------------------------------
+image_size = (1024, 768)  ## height x width
+patch_size = 16
+sigma = 6  ## sigma is 2 for 256
+scale = 4
+num_keypoints = 308
+# ------------------------------------------------------------------
+use_fsdp = True
+# use_fsdp = False
+use_compile = True
+# use_compile = False
+## DDP config
+if use_fsdp is False:
+    accelerator_cfg = dict(
+        type="DDP",
+        log_with="tensorboard",
+        # find_unused_parameters=True,
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        # mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,  ## schedule independent of n_gpus
+    )
+else:
+    accelerator_cfg = dict(
+        type="FSDP",
+        log_with="tensorboard",
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,
+        fsdp_cfg=dict(
+            fsdp_version=2,  # DTensor-based engine
+            state_dict_type="SHARDED_STATE_DICT",  # SHARDED_STATE_DICT | FULL_STATE_DICT
+            mixed_precision=dict(
+                param_dtype="bf16",
+                reduce_dtype="bf16",
+            ),
+            cpu_ram_efficient_loading=False,
+        ),
+    )
+if use_compile:
+    accelerator_cfg["compile_cfg"] = dict(
+        backend="inductor",
+        mode="default",  # Options: "default", "reduce-overhead", "max-autotune"
+        fullgraph=False,
+        dynamic=False,
+    )
+# ------------------------------------------------------------------
+randomness = dict(seed=0, deterministic=False, diff_rank_seed=True)
+logger = dict(
+    type="Logger",
+    log_interval=log_every_iters,
+)
+checkpoint = dict(
+    type="Checkpointer",
+    save_interval=save_every_iters,
+)
+visualizer = dict(
+    type="PoseVisualizer",
+    vis_interval=vis_every_iters,
+    vis_max_samples=4,
+    vis_image_width=384,
+    vis_image_height=512,
+    num_keypoints=num_keypoints,
+)
+##-----------------------------------------------------------------
+codec = dict(
+    type="UDPHeatmap",
+    input_size=(image_size[1], image_size[0]),  ## width x height
+    heatmap_size=(int(image_size[1] / scale), int(image_size[0] / scale)),
+    sigma=sigma,
+)  ## sigma is 2 for 256
+train_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseRandomFlip", direction="horizontal"),  ## default prob is 0.5
+    dict(type="PoseRandomHalfBody"),
+    dict(type="PoseRandomBBoxTransform"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="RandomPhotoMetricDistortion", prob=0.8),
+    dict(
+        type="PoseAlbumentation",
+        transforms=[
+            dict(type="Blur", p=0.1),
+            dict(type="MedianBlur", p=0.1),
+            dict(
+                type="CoarseDropout",
+                max_holes=1,
+                max_height=0.4,
+                max_width=0.4,
+                min_holes=1,
+                min_height=0.2,
+                min_width=0.2,
+                p=1.0,
+            ),
+        ],
+    ),
+    dict(type="PoseGenerateTarget", encoder=codec),
+    dict(type="PosePackInputs"),
+]
+val_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+test_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+##------------------------------------------------------------------------
+dataset_shutterstock_train = dict(
+    type="Keypoints308ShutterstockDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_102866/itw_shutterstock_body_keypoint_344_train:2025070300.json",
+)
+dataset_goliath_train = dict(
+    type="Keypoints308GoliathDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_90942/sociopticon_body_keypoint_344_train:2024093001.json",
+    subsample_factor=8,
+)
+dataset_3po_train = dict(
+    type="Keypoints308_3PODataset",
+    ann_file=f"{_DATA_ROOT}/indices/3po/train.json",
+    subsample_factor=2,
+)
+# train_datasets = [dataset_shutterstock_train]
+# train_datasets = [dataset_goliath_train]
+# train_datasets = [dataset_3po_train]
+train_datasets = (
+    [dataset_goliath_train] + 2 * [dataset_shutterstock_train] + [dataset_3po_train]
+)
+train_dataloader = dict(
+    batch_size=1,
+    num_workers=4,
+    persistent_workers=True,
+    shuffle=True,
+    dataset=dict(
+        type="CombinedDataset", datasets=train_datasets, pipeline=train_pipeline
+    ),
+)
+# ------------------------------------------------------------------------------
+dataset_shutterstock_val = dict(
+    type="Keypoints308ShutterstockEvalDataset",
+    data_root=f"{_DATA_ROOT}/pose/data/shutterstock/test/images",
+    ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    test_mode=True,
+    pipeline=val_pipeline,
+)
+val_dataloader = dict(
+    batch_size=4,
+    num_workers=4,
+    persistent_workers=True,
+    multiprocessing_context="spawn",  ## avoids fork error with airstore
+    shuffle=False,
+    dataset=dataset_shutterstock_val,
+    collate_fn=dict(type="eval_collate"),
+)
+val_cfg = dict(
+    val_interval=val_every_iters,
+    flip_test=True,  ## left right flip
+    evaluator=dict(
+        type="Keypoints308Evaluator",
+        decoder=codec,
+        ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    ),
+)
+# dataset_goliath_val = dict(
+#     type="Keypoints308GoliathEvalDataset",
+#     data_root=f"{_DATA_ROOT}/pose/data/goliath/test_10000/images",
+#     ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     test_mode=True,
+#     # num_samples=10,  ## debug
+#     pipeline=val_pipeline,
+# )
+# val_dataloader = dict(
+#     batch_size=4,
+#     num_workers=4,
+#     persistent_workers=True,
+#     multiprocessing_context="spawn",  ## avoids fork error with airstore
+#     # num_workers=0,  # debug
+#     # persistent_workers=False,  # debug
+#     shuffle=False,
+#     dataset=dataset_goliath_val,
+#     collate_fn=dict(type="eval_collate"),
+# )
+# val_cfg = dict(
+#     val_interval=val_every_iters,
+#     flip_test=True,  ## left right flip
+#     evaluator=dict(
+#         type="Keypoints308Evaluator",
+#         decoder=codec,
+#         ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     ),
+# )
+data_preprocessor = dict(
+    type="ImagePreprocessor",
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    bgr_to_rgb=True,  ## convert from bgr to rgb for pretrained models
+)
+##-----------------------------------------------------------------
+model = dict(
+    type="PoseTopdownEstimator",
+    backbone=dict(
+        type="Sapiens2",
+        arch=model_name,
+        img_size=image_size,
+        patch_size=patch_size,
+        final_norm=True,
+        use_tokenizer=False,
+        with_cls_token=True,
+        out_type="featmap",
+        init_cfg=dict(type="Pretrained", checkpoint=pretrained_checkpoint),
+    ),
+    decode_head=dict(
+        type="PoseHeatmapHead",
+        in_channels=embed_dim,
+        out_channels=num_keypoints,
+        deconv_out_channels=(1024, 768),  ## this will 2x at each step. so total is 4x
+        deconv_kernel_sizes=(4, 4),
+        conv_out_channels=(512, 512, 256),
+        conv_kernel_sizes=(1, 1, 1),
+        loss_decode=dict(
+            type="KeypointMSELoss", use_target_weight=True, loss_weight=10.0
+        ),
+        # loss_decode=dict(type='KeypointOHKMMSELoss', use_target_weight=True, topk=128), ## loss only for top 128 keypoints. for finetuning later.
+    ),
+)
+##-----------------------------------------------------------------
+optimizer = dict(
+    type="AdamW",
+    lr=5e-4,
+    betas=(0.9, 0.999),
+    weight_decay=0.1,
+    paramwise_cfg=dict(
+        num_layers=num_layers,
+        layer_decay_rate=layer_decay_rate,
+    ),
+    fused=True,
+)
+scheduler = dict(
+    type="SequentialLR",
+    milestones=[warmup_iters],
+    schedulers=[
+        dict(type="LinearLR", start_factor=1e-3, total_iters=warmup_iters),
+        dict(
+            type="PolynomialLR",
+            total_iters=num_iters - warmup_iters,
+            power=1.0,
+        ),
+    ],
+)
+clip_grad = dict(mode="norm", max_norm=4.0, norm_type=2.0)
+runner_type = "PoseRunner"

assets/configs/sapiens2_1b_keypoints308_shutterstock_goliath_3po-1024x768.py ADDED Viewed

	@@ -0,0 +1,328 @@

+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import os
+_CHECKPOINT_ROOT = os.path.expanduser(
+    os.environ.get("SAPIENS_CHECKPOINT_ROOT", "~/sapiens2_host")
+)
+_DATA_ROOT = os.path.expanduser(os.environ.get("DATA_ROOT", "~/sapiens_data"))
+warmup_iters = 500
+# num_iters = 4e4
+num_iters = 2e4
+# ------------------------------------------------------------------------------
+vis_every_iters = 100
+log_every_iters = 10
+save_every_iters = 1000
+val_every_iters = 1000
+# # # # debug
+# vis_every_iters = 1
+# log_every_iters = 1
+# val_every_iters = 2
+# save_every_iters = 1000
+load_from = None
+resume = False
+# ------------------------------------------------------------------
+model_name = "sapiens2_1b"
+embed_dim = 1536
+num_layers = 40
+num_heads = 24
+layer_decay_rate = 0.9
+pretrained_checkpoint = f"{_CHECKPOINT_ROOT}/pretrain/sapiens2_1b_pretrain.safetensors"
+##-----------------------------------------------------------------
+image_size = (1024, 768)  ## height x width
+patch_size = 16
+sigma = 6  ## sigma is 2 for 256
+scale = 4
+num_keypoints = 308
+# ------------------------------------------------------------------
+use_fsdp = True
+# use_fsdp = False
+use_compile = True
+# use_compile = False
+## DDP config
+if use_fsdp is False:
+    accelerator_cfg = dict(
+        type="DDP",
+        log_with="tensorboard",
+        # find_unused_parameters=True,
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,  ## schedule independent of n_gpus
+    )
+else:
+    accelerator_cfg = dict(
+        type="FSDP",
+        log_with="tensorboard",
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,
+        fsdp_cfg=dict(
+            fsdp_version=2,  # DTensor-based engine
+            state_dict_type="SHARDED_STATE_DICT",  # SHARDED_STATE_DICT | FULL_STATE_DICT
+            mixed_precision=dict(
+                param_dtype="bf16",
+                reduce_dtype="bf16",
+            ),
+            cpu_ram_efficient_loading=False,
+        ),
+    )
+if use_compile:
+    accelerator_cfg["compile_cfg"] = dict(
+        backend="inductor",
+        mode="default",  # Options: "default", "reduce-overhead", "max-autotune"
+        fullgraph=False,
+        dynamic=False,
+    )
+# ------------------------------------------------------------------
+randomness = dict(seed=0, deterministic=False, diff_rank_seed=True)
+logger = dict(
+    type="Logger",
+    log_interval=log_every_iters,
+)
+checkpoint = dict(
+    type="Checkpointer",
+    save_interval=save_every_iters,
+)
+visualizer = dict(
+    type="PoseVisualizer",
+    vis_interval=vis_every_iters,
+    vis_max_samples=4,
+    vis_image_width=384,
+    vis_image_height=512,
+    num_keypoints=num_keypoints,
+)
+##-----------------------------------------------------------------
+codec = dict(
+    type="UDPHeatmap",
+    input_size=(image_size[1], image_size[0]),  ## width x height
+    heatmap_size=(int(image_size[1] / scale), int(image_size[0] / scale)),
+    sigma=sigma,
+)  ## sigma is 2 for 256
+train_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseRandomFlip", direction="horizontal"),  ## default prob is 0.5
+    dict(type="PoseRandomHalfBody"),
+    dict(type="PoseRandomBBoxTransform"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="RandomPhotoMetricDistortion", prob=0.8),
+    dict(
+        type="PoseAlbumentation",
+        transforms=[
+            dict(type="Blur", p=0.1),
+            dict(type="MedianBlur", p=0.1),
+            dict(
+                type="CoarseDropout",
+                max_holes=1,
+                max_height=0.4,
+                max_width=0.4,
+                min_holes=1,
+                min_height=0.2,
+                min_width=0.2,
+                p=1.0,
+            ),
+        ],
+    ),
+    dict(type="PoseGenerateTarget", encoder=codec),
+    dict(type="PosePackInputs"),
+]
+val_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+test_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+##------------------------------------------------------------------------
+dataset_shutterstock_train = dict(
+    type="Keypoints308ShutterstockDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_102866/itw_shutterstock_body_keypoint_344_train:2025070300.json",
+)
+dataset_goliath_train = dict(
+    type="Keypoints308GoliathDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_90942/sociopticon_body_keypoint_344_train:2024093001.json",
+    subsample_factor=8,
+)
+dataset_3po_train = dict(
+    type="Keypoints308_3PODataset",
+    ann_file=f"{_DATA_ROOT}/indices/3po/train.json",
+    subsample_factor=2,
+)
+# train_datasets = [dataset_shutterstock_train]
+# train_datasets = [dataset_goliath_train]
+# train_datasets = [dataset_3po_train]
+train_datasets = (
+    [dataset_goliath_train] + 2 * [dataset_shutterstock_train] + [dataset_3po_train]
+)
+train_dataloader = dict(
+    batch_size=1,
+    num_workers=4,
+    persistent_workers=True,
+    shuffle=True,
+    dataset=dict(
+        type="CombinedDataset", datasets=train_datasets, pipeline=train_pipeline
+    ),
+)
+# ------------------------------------------------------------------------------
+dataset_shutterstock_val = dict(
+    type="Keypoints308ShutterstockEvalDataset",
+    data_root=f"{_DATA_ROOT}/pose/data/shutterstock/test/images",
+    ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    test_mode=True,
+    # num_samples=10,  ## debug
+    pipeline=val_pipeline,
+)
+val_dataloader = dict(
+    batch_size=4,
+    num_workers=4,
+    persistent_workers=True,
+    multiprocessing_context="spawn",  ## avoids fork error with airstore
+    # num_workers=0,  # debug
+    # persistent_workers=False,  # debug
+    shuffle=False,
+    dataset=dataset_shutterstock_val,
+    collate_fn=dict(type="eval_collate"),
+)
+val_cfg = dict(
+    val_interval=val_every_iters,
+    flip_test=True,  ## left right flip
+    evaluator=dict(
+        type="Keypoints308Evaluator",
+        decoder=codec,
+        ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    ),
+)
+# dataset_goliath_val = dict(
+#     type="Keypoints308GoliathEvalDataset",
+#     data_root=f"{_DATA_ROOT}/pose/data/goliath/test_10000/images",
+#     ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     test_mode=True,
+#     # num_samples=10,  ## debug
+#     pipeline=val_pipeline,
+# )
+# val_dataloader = dict(
+#     batch_size=4,
+#     num_workers=4,
+#     persistent_workers=True,
+#     multiprocessing_context="spawn",  ## avoids fork error with airstore
+#     # num_workers=0,  # debug
+#     # persistent_workers=False,  # debug
+#     shuffle=False,
+#     dataset=dataset_goliath_val,
+#     collate_fn=dict(type="eval_collate"),
+# )
+# val_cfg = dict(
+#     val_interval=val_every_iters,
+#     flip_test=True,  ## left right flip
+#     evaluator=dict(
+#         type="Keypoints308Evaluator",
+#         decoder=codec,
+#         ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     ),
+# )
+data_preprocessor = dict(
+    type="ImagePreprocessor",
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    bgr_to_rgb=True,  ## convert from bgr to rgb for pretrained models
+)
+##-----------------------------------------------------------------
+model = dict(
+    type="PoseTopdownEstimator",
+    backbone=dict(
+        type="Sapiens2",
+        arch=model_name,
+        img_size=image_size,
+        patch_size=patch_size,
+        final_norm=True,
+        use_tokenizer=False,
+        with_cls_token=True,
+        out_type="featmap",
+        init_cfg=dict(type="Pretrained", checkpoint=pretrained_checkpoint),
+    ),
+    decode_head=dict(
+        type="PoseHeatmapHead",
+        in_channels=embed_dim,
+        out_channels=num_keypoints,
+        deconv_out_channels=(1536, 1024),  ## this will 2x at each step. so total is 4x
+        deconv_kernel_sizes=(4, 4),
+        conv_out_channels=(768, 512, 256),
+        conv_kernel_sizes=(1, 1, 1),
+        loss_decode=dict(
+            type="KeypointMSELoss", use_target_weight=True, loss_weight=10.0
+        ),
+        # loss_decode=dict(type='KeypointOHKMMSELoss', use_target_weight=True, topk=128), ## loss only for top 128 keypoints. for finetuning later.
+    ),
+)
+##-----------------------------------------------------------------
+optimizer = dict(
+    type="AdamW",
+    lr=5e-4,
+    betas=(0.9, 0.999),
+    weight_decay=0.1,
+    paramwise_cfg=dict(
+        num_layers=num_layers,
+        layer_decay_rate=layer_decay_rate,
+    ),
+    fused=True,
+)
+scheduler = dict(
+    type="SequentialLR",
+    milestones=[warmup_iters],
+    schedulers=[
+        dict(type="LinearLR", start_factor=1e-3, total_iters=warmup_iters),
+        dict(
+            type="PolynomialLR",
+            total_iters=num_iters - warmup_iters,
+            power=1.0,
+        ),
+    ],
+)
+clip_grad = dict(mode="norm", max_norm=4.0, norm_type=2.0)
+runner_type = "PoseRunner"

assets/configs/sapiens2_5b_keypoints308_shutterstock_goliath_3po-1024x768.py ADDED Viewed

	@@ -0,0 +1,326 @@

+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import os
+_CHECKPOINT_ROOT = os.path.expanduser(
+    os.environ.get("SAPIENS_CHECKPOINT_ROOT", "~/sapiens2_host")
+)
+_DATA_ROOT = os.path.expanduser(os.environ.get("DATA_ROOT", "~/sapiens_data"))
+warmup_iters = 500
+# num_iters = 4e4
+num_iters = 2e4  ## light finetune
+# ------------------------------------------------------------------------------
+vis_every_iters = 100
+log_every_iters = 10
+save_every_iters = 1000
+val_every_iters = 1000
+# # # # debug
+# vis_every_iters = 1
+# log_every_iters = 1
+# val_every_iters = 2
+# save_every_iters = 1000
+load_from = None
+resume = False
+# ------------------------------------------------------------------
+model_name = "sapiens2_5b"
+embed_dim = 2432
+num_layers = 56
+num_heads = 32
+layer_decay_rate = 0.94
+pretrained_checkpoint = f"{_CHECKPOINT_ROOT}/pretrain/sapiens2_5b_pretrain.safetensors"
+##-----------------------------------------------------------------
+image_size = (1024, 768)  ## height x width
+patch_size = 16
+sigma = 6  ## sigma is 2 for 256
+scale = 4
+num_keypoints = 308
+# ------------------------------------------------------------------
+use_fsdp = True
+# use_fsdp = False
+use_compile = True
+# use_compile = False
+## DDP config
+if use_fsdp is False:
+    accelerator_cfg = dict(
+        type="DDP",
+        log_with="tensorboard",
+        # find_unused_parameters=True,
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        # mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,  ## schedule independent of n_gpus
+    )
+else:
+    accelerator_cfg = dict(
+        type="FSDP",
+        log_with="tensorboard",
+        gradient_accumulation_steps=1,  # only accumulation=1 is supported. Otherwise, the LR scheduler will be off.
+        max_interval=num_iters,
+        mixed_precision="bf16",  # Options: ‘no’,‘fp16’,‘bf16’ or ‘fp8’.
+        step_scheduler_with_optimizer=False,
+        fsdp_cfg=dict(
+            fsdp_version=2,  # DTensor-based engine
+            state_dict_type="SHARDED_STATE_DICT",  # SHARDED_STATE_DICT | FULL_STATE_DICT
+            mixed_precision=dict(
+                param_dtype="bf16",
+                reduce_dtype="bf16",
+            ),
+            cpu_ram_efficient_loading=False,
+        ),
+    )
+if use_compile:
+    accelerator_cfg["compile_cfg"] = dict(
+        backend="inductor",
+        mode="default",  # Options: "default", "reduce-overhead", "max-autotune"
+        fullgraph=False,
+        dynamic=False,
+    )
+# ------------------------------------------------------------------
+randomness = dict(seed=0, deterministic=False, diff_rank_seed=True)
+logger = dict(
+    type="Logger",
+    log_interval=log_every_iters,
+)
+checkpoint = dict(
+    type="Checkpointer",
+    save_interval=save_every_iters,
+)
+visualizer = dict(
+    type="PoseVisualizer",
+    vis_interval=vis_every_iters,
+    vis_max_samples=4,
+    vis_image_width=384,
+    vis_image_height=512,
+    num_keypoints=num_keypoints,
+)
+##-----------------------------------------------------------------
+codec = dict(
+    type="UDPHeatmap",
+    input_size=(image_size[1], image_size[0]),  ## width x height
+    heatmap_size=(int(image_size[1] / scale), int(image_size[0] / scale)),
+    sigma=sigma,
+)  ## sigma is 2 for 256
+train_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseRandomFlip", direction="horizontal"),  ## default prob is 0.5
+    dict(type="PoseRandomHalfBody"),
+    dict(type="PoseRandomBBoxTransform"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="RandomPhotoMetricDistortion", prob=0.8),
+    dict(
+        type="PoseAlbumentation",
+        transforms=[
+            dict(type="Blur", p=0.1),
+            dict(type="MedianBlur", p=0.1),
+            dict(
+                type="CoarseDropout",
+                max_holes=1,
+                max_height=0.4,
+                max_width=0.4,
+                min_holes=1,
+                min_height=0.2,
+                min_width=0.2,
+                p=1.0,
+            ),
+        ],
+    ),
+    dict(type="PoseGenerateTarget", encoder=codec),
+    dict(type="PosePackInputs"),
+]
+val_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+test_pipeline = [
+    dict(type="PoseGetBBoxCenterScale"),
+    dict(type="PoseTopdownAffine", input_size=codec["input_size"], use_udp=True),
+    dict(type="PosePackInputs"),
+]
+##------------------------------------------------------------------------
+dataset_shutterstock_train = dict(
+    type="Keypoints308ShutterstockDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_102866/itw_shutterstock_body_keypoint_344_train:2025070300.json",
+)
+dataset_goliath_train = dict(
+    type="Keypoints308GoliathDataset",
+    ann_file=f"{_DATA_ROOT}/annotations/ingestion_90942/sociopticon_body_keypoint_344_train:2024093001.json",
+    subsample_factor=8,
+)
+dataset_3po_train = dict(
+    type="Keypoints308_3PODataset",
+    ann_file=f"{_DATA_ROOT}/indices/3po/train.json",
+    subsample_factor=2,
+)
+# train_datasets = [dataset_shutterstock_train]
+# train_datasets = [dataset_goliath_train]
+# train_datasets = [dataset_3po_train]
+train_datasets = (
+    [dataset_goliath_train] + 2 * [dataset_shutterstock_train] + [dataset_3po_train]
+)
+train_dataloader = dict(
+    batch_size=1,
+    num_workers=4,
+    persistent_workers=True,
+    shuffle=True,
+    dataset=dict(
+        type="CombinedDataset", datasets=train_datasets, pipeline=train_pipeline
+    ),
+)
+# ------------------------------------------------------------------------------
+dataset_shutterstock_val = dict(
+    type="Keypoints308ShutterstockEvalDataset",
+    data_root=f"{_DATA_ROOT}/pose/data/shutterstock/test/images",
+    ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    test_mode=True,
+    pipeline=val_pipeline,
+)
+val_dataloader = dict(
+    batch_size=4,
+    num_workers=4,
+    persistent_workers=True,
+    multiprocessing_context="spawn",  ## avoids fork error with airstore
+    shuffle=False,
+    dataset=dataset_shutterstock_val,
+    collate_fn=dict(type="eval_collate"),
+)
+val_cfg = dict(
+    val_interval=val_every_iters,
+    flip_test=True,  ## left right flip
+    evaluator=dict(
+        type="Keypoints308Evaluator",
+        decoder=codec,
+        ann_file=f"{_DATA_ROOT}/pose/data/shutterstock/test/annotations/person_keypoints_test2025_1k.json",
+    ),
+)
+# dataset_goliath_val = dict(
+#     type="Keypoints308GoliathEvalDataset",
+#     data_root=f"{_DATA_ROOT}/pose/data/goliath/test_10000/images",
+#     ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     test_mode=True,
+#     # num_samples=10,  ## debug
+#     pipeline=val_pipeline,
+# )
+# val_dataloader = dict(
+#     batch_size=4,
+#     num_workers=4,
+#     persistent_workers=True,
+#     multiprocessing_context="spawn",  ## avoids fork error with airstore
+#     # num_workers=0,  # debug
+#     # persistent_workers=False,  # debug
+#     shuffle=False,
+#     dataset=dataset_goliath_val,
+#     collate_fn=dict(type="eval_collate"),
+# )
+# val_cfg = dict(
+#     val_interval=val_every_iters,
+#     flip_test=True,  ## left right flip
+#     evaluator=dict(
+#         type="Keypoints308Evaluator",
+#         decoder=codec,
+#         ann_file=f"{_DATA_ROOT}/pose/data/goliath/test_10000/annotations/person_keypoints_test2023.json",
+#     ),
+# )
+data_preprocessor = dict(
+    type="ImagePreprocessor",
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    bgr_to_rgb=True,  ## convert from bgr to rgb for pretrained models
+)
+##-----------------------------------------------------------------
+model = dict(
+    type="PoseTopdownEstimator",
+    backbone=dict(
+        type="Sapiens2",
+        arch=model_name,
+        img_size=image_size,
+        patch_size=patch_size,
+        final_norm=True,
+        use_tokenizer=False,
+        with_cls_token=True,
+        out_type="featmap",
+        init_cfg=dict(type="Pretrained", checkpoint=pretrained_checkpoint),
+    ),
+    decode_head=dict(
+        type="PoseHeatmapHead",
+        in_channels=embed_dim,
+        out_channels=num_keypoints,
+        deconv_out_channels=(1024, 768),  ## this will 2x at each step. so total is 4x
+        deconv_kernel_sizes=(4, 4),
+        conv_out_channels=(512, 512, 256),
+        conv_kernel_sizes=(1, 1, 1),
+        loss_decode=dict(
+            type="KeypointMSELoss", use_target_weight=True, loss_weight=10.0
+        ),
+        # loss_decode=dict(type='KeypointOHKMMSELoss', use_target_weight=True, topk=128), ## loss only for top 128 keypoints. for finetuning later.
+    ),
+)
+##-----------------------------------------------------------------
+optimizer = dict(
+    type="AdamW",
+    # lr=5e-4,
+    lr=1e-4,
+    betas=(0.9, 0.999),
+    weight_decay=0.1,
+    paramwise_cfg=dict(
+        num_layers=num_layers,
+        layer_decay_rate=layer_decay_rate,
+    ),
+    fused=True,
+)
+scheduler = dict(
+    type="SequentialLR",
+    milestones=[warmup_iters],
+    schedulers=[
+        dict(type="LinearLR", start_factor=1e-3, total_iters=warmup_iters),
+        dict(
+            type="PolynomialLR",
+            total_iters=num_iters - warmup_iters,
+            power=1.0,
+        ),
+    ],
+)
+clip_grad = dict(mode="norm", max_norm=4.0, norm_type=2.0)
+runner_type = "PoseRunner"

assets/images/68204.png ADDED Viewed

Git LFS Details

SHA256: 9b0268cb801ed164864a4b5f6d131e0ac5cc2fbd149a6467d5d0c97da47122c2
Pointer size: 132 Bytes
Size of remote file: 4.29 MB

assets/images/68210.png ADDED Viewed

Git LFS Details

SHA256: dbe5f80498af4ebd1ff09ae4184f37c20ba981e53bd554c3cc78d39ae0ee7fd7
Pointer size: 132 Bytes
Size of remote file: 3.93 MB

assets/images/68658.png ADDED Viewed

Git LFS Details

SHA256: 61a68b619bd17235e683324f2826ce0693322e45ab8c86f1c057851ecb333ac7
Pointer size: 132 Bytes
Size of remote file: 5.1 MB

assets/images/68666.png ADDED Viewed

Git LFS Details

SHA256: ea3047e6c2ccb485fdb3966aa2325e803cbf49c27c0bff00287b44bc16f18914
Pointer size: 132 Bytes
Size of remote file: 4.56 MB

assets/images/68691.png ADDED Viewed

Git LFS Details

SHA256: fae39e4055c1b297af7068cdddfeeba8d685363281b839d8c5afac1980204b57
Pointer size: 132 Bytes
Size of remote file: 3.74 MB

assets/images/68956.png ADDED Viewed

Git LFS Details

SHA256: eee1f27082b10999d0fa848121ecb06cda3386b1a864b9aa0f59ae78261f8908
Pointer size: 132 Bytes
Size of remote file: 4.15 MB

assets/images/pexels-amresh444-17315601.png ADDED Viewed

Git LFS Details

SHA256: 4e17ee1b229147e4b52e8348a6ef426bc9e9a2f90738e776e15b26b325abb9b3
Pointer size: 132 Bytes
Size of remote file: 3.5 MB

assets/images/pexels-gabby-k-6311686.png ADDED Viewed

Git LFS Details

SHA256: 3f10eded3fb05ab04b963f7b9fd2e183d8d4e81b20569b1c6b0653549639421f
Pointer size: 132 Bytes
Size of remote file: 3.65 MB

assets/images/pexels-julia-m-cameron-4145040.png ADDED Viewed

Git LFS Details

SHA256: 459cf0280667b028ffbca16aa11188780d7a0205c0defec02916ff3cbaeecb72
Pointer size: 132 Bytes
Size of remote file: 2.92 MB

assets/images/pexels-marcus-aurelius-6787357.png ADDED Viewed

Git LFS Details

SHA256: 7d35452f76492125eaf7d5783aa9fd6b0d5990ebe0579fe9dfd58a9d634f4955
Pointer size: 132 Bytes
Size of remote file: 3.3 MB

assets/images/pexels-mo-saeed-3616599-5409085.png ADDED Viewed

Git LFS Details

SHA256: 7c1ca7afd6c2a654e94ef59d5fb56fca4f3cde5fb5216f6b218c34a7b8c143dc
Pointer size: 132 Bytes
Size of remote file: 3.13 MB

assets/images/pexels-riedelmax-27355495.png ADDED Viewed

Git LFS Details

SHA256: 4141d2f5f718f162ea1f6710c06b28b5cb51fd69598fde35948f8f3491228164
Pointer size: 132 Bytes
Size of remote file: 3.73 MB

assets/images/pexels-sergeymakashin-5368660.png ADDED Viewed

Git LFS Details

SHA256: af8f5a8f26dd102d87d94c1be36ec903791fe8e6d951c68ebb9ebcfc6d7397bb
Pointer size: 132 Bytes
Size of remote file: 4.08 MB

assets/images/pexels-vinicius-wiesehofer-289347-4219918.png ADDED Viewed

Git LFS Details

SHA256: a6eef5eee15b81fe65ea95627e9a46040b9889466689b3c1ca6ed273e02fe84f
Pointer size: 132 Bytes
Size of remote file: 3.63 MB

assets/rtmdet_m_640-8xb32_coco-person_no_nms.py ADDED Viewed

	@@ -0,0 +1,20 @@

+_base_ = 'mmdet::rtmdet/rtmdet_m_8xb32-300e_coco.py'
+checkpoint = 'https://download.openmmlab.com/mmdetection/v3.0/rtmdet/cspnext_rsb_pretrain/cspnext-m_8xb256-rsb-a1-600e_in1k-ecb3bbd9.pth'  # noqa
+model = dict(
+    backbone=dict(
+        init_cfg=dict(
+            type='Pretrained', prefix='backbone.', checkpoint=checkpoint)),
+    bbox_head=dict(num_classes=1),
+    test_cfg=dict(
+        nms_pre=1000,
+        min_bbox_size=0,
+        score_thr=0.05,
+        nms=None,
+        max_per_img=100))
+train_dataloader = dict(dataset=dict(metainfo=dict(classes=('person', ))))
+val_dataloader = dict(dataset=dict(metainfo=dict(classes=('person', ))))
+test_dataloader = val_dataloader

classes_and_palettes.py ADDED Viewed

	@@ -0,0 +1,1024 @@

+COCO_KPTS_COLORS = [
+    [51, 153, 255],   # 0: nose
+    [51, 153, 255],   # 1: left_eye
+    [51, 153, 255],   # 2: right_eye
+    [51, 153, 255],   # 3: left_ear
+    [51, 153, 255],   # 4: right_ear
+    [0, 255, 0],      # 5: left_shoulder
+    [255, 128, 0],    # 6: right_shoulder
+    [0, 255, 0],      # 7: left_elbow
+    [255, 128, 0],    # 8: right_elbow
+    [0, 255, 0],      # 9: left_wrist
+    [255, 128, 0],    # 10: right_wrist
+    [0, 255, 0],      # 11: left_hip
+    [255, 128, 0],    # 12: right_hip
+    [0, 255, 0],      # 13: left_knee
+    [255, 128, 0],    # 14: right_knee
+    [0, 255, 0],      # 15: left_ankle
+    [255, 128, 0],    # 16: right_ankle
+]
+COCO_WHOLEBODY_KPTS_COLORS = [
+    [51, 153, 255],   # 0: nose
+    [51, 153, 255],   # 1: left_eye
+    [51, 153, 255],   # 2: right_eye
+    [51, 153, 255],   # 3: left_ear
+    [51, 153, 255],   # 4: right_ear
+    [0, 255, 0],      # 5: left_shoulder
+    [255, 128, 0],    # 6: right_shoulder
+    [0, 255, 0],      # 7: left_elbow
+    [255, 128, 0],    # 8: right_elbow
+    [0, 255, 0],      # 9: left_wrist
+    [255, 128, 0],    # 10: right_wrist
+    [0, 255, 0],      # 11: left_hip
+    [255, 128, 0],    # 12: right_hip
+    [0, 255, 0],      # 13: left_knee
+    [255, 128, 0],    # 14: right_knee
+    [0, 255, 0],      # 15: left_ankle
+    [255, 128, 0],    # 16: right_ankle
+    [255, 128, 0],    # 17: left_big_toe
+    [255, 128, 0],    # 18: left_small_toe
+    [255, 128, 0],    # 19: left_heel
+    [255, 128, 0],    # 20: right_big_toe
+    [255, 128, 0],    # 21: right_small_toe
+    [255, 128, 0],    # 22: right_heel
+    [255, 255, 255],  # 23: face-0
+    [255, 255, 255],  # 24: face-1
+    [255, 255, 255],  # 25: face-2
+    [255, 255, 255],  # 26: face-3
+    [255, 255, 255],  # 27: face-4
+    [255, 255, 255],  # 28: face-5
+    [255, 255, 255],  # 29: face-6
+    [255, 255, 255],  # 30: face-7
+    [255, 255, 255],  # 31: face-8
+    [255, 255, 255],  # 32: face-9
+    [255, 255, 255],  # 33: face-10
+    [255, 255, 255],  # 34: face-11
+    [255, 255, 255],  # 35: face-12
+    [255, 255, 255],  # 36: face-13
+    [255, 255, 255],  # 37: face-14
+    [255, 255, 255],  # 38: face-15
+    [255, 255, 255],  # 39: face-16
+    [255, 255, 255],  # 40: face-17
+    [255, 255, 255],  # 41: face-18
+    [255, 255, 255],  # 42: face-19
+    [255, 255, 255],  # 43: face-20
+    [255, 255, 255],  # 44: face-21
+    [255, 255, 255],  # 45: face-22
+    [255, 255, 255],  # 46: face-23
+    [255, 255, 255],  # 47: face-24
+    [255, 255, 255],  # 48: face-25
+    [255, 255, 255],  # 49: face-26
+    [255, 255, 255],  # 50: face-27
+    [255, 255, 255],  # 51: face-28
+    [255, 255, 255],  # 52: face-29
+    [255, 255, 255],  # 53: face-30
+    [255, 255, 255],  # 54: face-31
+    [255, 255, 255],  # 55: face-32
+    [255, 255, 255],  # 56: face-33
+    [255, 255, 255],  # 57: face-34
+    [255, 255, 255],  # 58: face-35
+    [255, 255, 255],  # 59: face-36
+    [255, 255, 255],  # 60: face-37
+    [255, 255, 255],  # 61: face-38
+    [255, 255, 255],  # 62: face-39
+    [255, 255, 255],  # 63: face-40
+    [255, 255, 255],  # 64: face-41
+    [255, 255, 255],  # 65: face-42
+    [255, 255, 255],  # 66: face-43
+    [255, 255, 255],  # 67: face-44
+    [255, 255, 255],  # 68: face-45
+    [255, 255, 255],  # 69: face-46
+    [255, 255, 255],  # 70: face-47
+    [255, 255, 255],  # 71: face-48
+    [255, 255, 255],  # 72: face-49
+    [255, 255, 255],  # 73: face-50
+    [255, 255, 255],  # 74: face-51
+    [255, 255, 255],  # 75: face-52
+    [255, 255, 255],  # 76: face-53
+    [255, 255, 255],  # 77: face-54
+    [255, 255, 255],  # 78: face-55
+    [255, 255, 255],  # 79: face-56
+    [255, 255, 255],  # 80: face-57
+    [255, 255, 255],  # 81: face-58
+    [255, 255, 255],  # 82: face-59
+    [255, 255, 255],  # 83: face-60
+    [255, 255, 255],  # 84: face-61
+    [255, 255, 255],  # 85: face-62
+    [255, 255, 255],  # 86: face-63
+    [255, 255, 255],  # 87: face-64
+    [255, 255, 255],  # 88: face-65
+    [255, 255, 255],  # 89: face-66
+    [255, 255, 255],  # 90: face-67
+    [255, 255, 255],  # 91: left_hand_root
+    [255, 128, 0],    # 92: left_thumb1
+    [255, 128, 0],    # 93: left_thumb2
+    [255, 128, 0],    # 94: left_thumb3
+    [255, 128, 0],    # 95: left_thumb4
+    [255, 153, 255],  # 96: left_forefinger1
+    [255, 153, 255],  # 97: left_forefinger2
+    [255, 153, 255],  # 98: left_forefinger3
+    [255, 153, 255],  # 99: left_forefinger4
+    [102, 178, 255],  # 100: left_middle_finger1
+    [102, 178, 255],  # 101: left_middle_finger2
+    [102, 178, 255],  # 102: left_middle_finger3
+    [102, 178, 255],  # 103: left_middle_finger4
+    [255, 51, 51],    # 104: left_ring_finger1
+    [255, 51, 51],    # 105: left_ring_finger2
+    [255, 51, 51],    # 106: left_ring_finger3
+    [255, 51, 51],    # 107: left_ring_finger4
+    [0, 255, 0],      # 108: left_pinky_finger1
+    [0, 255, 0],      # 109: left_pinky_finger2
+    [0, 255, 0],      # 110: left_pinky_finger3
+    [0, 255, 0],      # 111: left_pinky_finger4
+    [255, 255, 255],  # 112: right_hand_root
+    [255, 128, 0],    # 113: right_thumb1
+    [255, 128, 0],    # 114: right_thumb2
+    [255, 128, 0],    # 115: right_thumb3
+    [255, 128, 0],    # 116: right_thumb4
+    [255, 153, 255],  # 117: right_forefinger1
+    [255, 153, 255],  # 118: right_forefinger2
+    [255, 153, 255],  # 119: right_forefinger3
+    [255, 153, 255],  # 120: right_forefinger4
+    [102, 178, 255],  # 121: right_middle_finger1
+    [102, 178, 255],  # 122: right_middle_finger2
+    [102, 178, 255],  # 123: right_middle_finger3
+    [102, 178, 255],  # 124: right_middle_finger4
+    [255, 51, 51],    # 125: right_ring_finger1
+    [255, 51, 51],    # 126: right_ring_finger2
+    [255, 51, 51],    # 127: right_ring_finger3
+    [255, 51, 51],    # 128: right_ring_finger4
+    [0, 255, 0],      # 129: right_pinky_finger1
+    [0, 255, 0],      # 130: right_pinky_finger2
+    [0, 255, 0],      # 131: right_pinky_finger3
+    [0, 255, 0],      # 132: right_pinky_finger4
+]
+GOLIATH_KPTS_COLORS = [
+    [51, 153, 255],   # 0: nose
+    [51, 153, 255],   # 1: left_eye
+    [51, 153, 255],   # 2: right_eye
+    [51, 153, 255],   # 3: left_ear
+    [51, 153, 255],   # 4: right_ear
+    [51, 153, 255],   # 5: left_shoulder
+    [51, 153, 255],   # 6: right_shoulder
+    [51, 153, 255],   # 7: left_elbow
+    [51, 153, 255],   # 8: right_elbow
+    [51, 153, 255],   # 9: left_hip
+    [51, 153, 255],   # 10: right_hip
+    [51, 153, 255],   # 11: left_knee
+    [51, 153, 255],   # 12: right_knee
+    [51, 153, 255],   # 13: left_ankle
+    [51, 153, 255],   # 14: right_ankle
+    [51, 153, 255],   # 15: left_big_toe
+    [51, 153, 255],   # 16: left_small_toe
+    [51, 153, 255],   # 17: left_heel
+    [51, 153, 255],   # 18: right_big_toe
+    [51, 153, 255],   # 19: right_small_toe
+    [51, 153, 255],   # 20: right_heel
+    [51, 153, 255],   # 21: right_thumb4
+    [51, 153, 255],   # 22: right_thumb3
+    [51, 153, 255],   # 23: right_thumb2
+    [51, 153, 255],   # 24: right_thumb_third_joint
+    [51, 153, 255],   # 25: right_forefinger4
+    [51, 153, 255],   # 26: right_forefinger3
+    [51, 153, 255],   # 27: right_forefinger2
+    [51, 153, 255],   # 28: right_forefinger_third_joint
+    [51, 153, 255],   # 29: right_middle_finger4
+    [51, 153, 255],   # 30: right_middle_finger3
+    [51, 153, 255],   # 31: right_middle_finger2
+    [51, 153, 255],   # 32: right_middle_finger_third_joint
+    [51, 153, 255],   # 33: right_ring_finger4
+    [51, 153, 255],   # 34: right_ring_finger3
+    [51, 153, 255],   # 35: right_ring_finger2
+    [51, 153, 255],   # 36: right_ring_finger_third_joint
+    [51, 153, 255],   # 37: right_pinky_finger4
+    [51, 153, 255],   # 38: right_pinky_finger3
+    [51, 153, 255],   # 39: right_pinky_finger2
+    [51, 153, 255],   # 40: right_pinky_finger_third_joint
+    [51, 153, 255],   # 41: right_wrist
+    [51, 153, 255],   # 42: left_thumb4
+    [51, 153, 255],   # 43: left_thumb3
+    [51, 153, 255],   # 44: left_thumb2
+    [51, 153, 255],   # 45: left_thumb_third_joint
+    [51, 153, 255],   # 46: left_forefinger4
+    [51, 153, 255],   # 47: left_forefinger3
+    [51, 153, 255],   # 48: left_forefinger2
+    [51, 153, 255],   # 49: left_forefinger_third_joint
+    [51, 153, 255],   # 50: left_middle_finger4
+    [51, 153, 255],   # 51: left_middle_finger3
+    [51, 153, 255],   # 52: left_middle_finger2
+    [51, 153, 255],   # 53: left_middle_finger_third_joint
+    [51, 153, 255],   # 54: left_ring_finger4
+    [51, 153, 255],   # 55: left_ring_finger3
+    [51, 153, 255],   # 56: left_ring_finger2
+    [51, 153, 255],   # 57: left_ring_finger_third_joint
+    [51, 153, 255],   # 58: left_pinky_finger4
+    [51, 153, 255],   # 59: left_pinky_finger3
+    [51, 153, 255],   # 60: left_pinky_finger2
+    [51, 153, 255],   # 61: left_pinky_finger_third_joint
+    [51, 153, 255],   # 62: left_wrist
+    [51, 153, 255],   # 63: left_olecranon
+    [51, 153, 255],   # 64: right_olecranon
+    [51, 153, 255],   # 65: left_cubital_fossa
+    [51, 153, 255],   # 66: right_cubital_fossa
+    [51, 153, 255],   # 67: left_acromion
+    [51, 153, 255],   # 68: right_acromion
+    [51, 153, 255],   # 69: neck
+    [255, 255, 255],  # 70: center_of_glabella
+    [255, 255, 255],  # 71: center_of_nose_root
+    [255, 255, 255],  # 72: tip_of_nose_bridge
+    [255, 255, 255],  # 73: midpoint_1_of_nose_bridge
+    [255, 255, 255],  # 74: midpoint_2_of_nose_bridge
+    [255, 255, 255],  # 75: midpoint_3_of_nose_bridge
+    [255, 255, 255],  # 76: center_of_labiomental_groove
+    [255, 255, 255],  # 77: tip_of_chin
+    [255, 255, 255],  # 78: upper_startpoint_of_r_eyebrow
+    [255, 255, 255],  # 79: lower_startpoint_of_r_eyebrow
+    [255, 255, 255],  # 80: end_of_r_eyebrow
+    [255, 255, 255],  # 81: upper_midpoint_1_of_r_eyebrow
+    [255, 255, 255],  # 82: lower_midpoint_1_of_r_eyebrow
+    [255, 255, 255],  # 83: upper_midpoint_2_of_r_eyebrow
+    [255, 255, 255],  # 84: upper_midpoint_3_of_r_eyebrow
+    [255, 255, 255],  # 85: lower_midpoint_2_of_r_eyebrow
+    [255, 255, 255],  # 86: lower_midpoint_3_of_r_eyebrow
+    [255, 255, 255],  # 87: upper_startpoint_of_l_eyebrow
+    [255, 255, 255],  # 88: lower_startpoint_of_l_eyebrow
+    [255, 255, 255],  # 89: end_of_l_eyebrow
+    [255, 255, 255],  # 90: upper_midpoint_1_of_l_eyebrow
+    [255, 255, 255],  # 91: lower_midpoint_1_of_l_eyebrow
+    [255, 255, 255],  # 92: upper_midpoint_2_of_l_eyebrow
+    [255, 255, 255],  # 93: upper_midpoint_3_of_l_eyebrow
+    [255, 255, 255],  # 94: lower_midpoint_2_of_l_eyebrow
+    [255, 255, 255],  # 95: lower_midpoint_3_of_l_eyebrow
+    [192, 64, 128],   # 96: l_inner_end_of_upper_lash_line
+    [192, 64, 128],   # 97: l_outer_end_of_upper_lash_line
+    [192, 64, 128],   # 98: l_centerpoint_of_upper_lash_line
+    [192, 64, 128],   # 99: l_midpoint_2_of_upper_lash_line
+    [192, 64, 128],   # 100: l_midpoint_1_of_upper_lash_line
+    [192, 64, 128],   # 101: l_midpoint_6_of_upper_lash_line
+    [192, 64, 128],   # 102: l_midpoint_5_of_upper_lash_line
+    [192, 64, 128],   # 103: l_midpoint_4_of_upper_lash_line
+    [192, 64, 128],   # 104: l_midpoint_3_of_upper_lash_line
+    [192, 64, 128],   # 105: l_outer_end_of_upper_eyelid_line
+    [192, 64, 128],   # 106: l_midpoint_6_of_upper_eyelid_line
+    [192, 64, 128],   # 107: l_midpoint_2_of_upper_eyelid_line
+    [192, 64, 128],   # 108: l_midpoint_5_of_upper_eyelid_line
+    [192, 64, 128],   # 109: l_centerpoint_of_upper_eyelid_line
+    [192, 64, 128],   # 110: l_midpoint_4_of_upper_eyelid_line
+    [192, 64, 128],   # 111: l_midpoint_1_of_upper_eyelid_line
+    [192, 64, 128],   # 112: l_midpoint_3_of_upper_eyelid_line
+    [192, 64, 128],   # 113: l_midpoint_6_of_upper_crease_line
+    [192, 64, 128],   # 114: l_midpoint_2_of_upper_crease_line
+    [192, 64, 128],   # 115: l_midpoint_5_of_upper_crease_line
+    [192, 64, 128],   # 116: l_centerpoint_of_upper_crease_line
+    [192, 64, 128],   # 117: l_midpoint_4_of_upper_crease_line
+    [192, 64, 128],   # 118: l_midpoint_1_of_upper_crease_line
+    [192, 64, 128],   # 119: l_midpoint_3_of_upper_crease_line
+    [64, 32, 192],    # 120: r_inner_end_of_upper_lash_line
+    [64, 32, 192],    # 121: r_outer_end_of_upper_lash_line
+    [64, 32, 192],    # 122: r_centerpoint_of_upper_lash_line
+    [64, 32, 192],    # 123: r_midpoint_1_of_upper_lash_line
+    [64, 32, 192],    # 124: r_midpoint_2_of_upper_lash_line
+    [64, 32, 192],    # 125: r_midpoint_3_of_upper_lash_line
+    [64, 32, 192],    # 126: r_midpoint_4_of_upper_lash_line
+    [64, 32, 192],    # 127: r_midpoint_5_of_upper_lash_line
+    [64, 32, 192],    # 128: r_midpoint_6_of_upper_lash_line
+    [64, 32, 192],    # 129: r_outer_end_of_upper_eyelid_line
+    [64, 32, 192],    # 130: r_midpoint_3_of_upper_eyelid_line
+    [64, 32, 192],    # 131: r_midpoint_1_of_upper_eyelid_line
+    [64, 32, 192],    # 132: r_midpoint_4_of_upper_eyelid_line
+    [64, 32, 192],    # 133: r_centerpoint_of_upper_eyelid_line
+    [64, 32, 192],    # 134: r_midpoint_5_of_upper_eyelid_line
+    [64, 32, 192],    # 135: r_midpoint_2_of_upper_eyelid_line
+    [64, 32, 192],    # 136: r_midpoint_6_of_upper_eyelid_line
+    [64, 32, 192],    # 137: r_midpoint_3_of_upper_crease_line
+    [64, 32, 192],    # 138: r_midpoint_1_of_upper_crease_line
+    [64, 32, 192],    # 139: r_midpoint_4_of_upper_crease_line
+    [64, 32, 192],    # 140: r_centerpoint_of_upper_crease_line
+    [64, 32, 192],    # 141: r_midpoint_5_of_upper_crease_line
+    [64, 32, 192],    # 142: r_midpoint_2_of_upper_crease_line
+    [64, 32, 192],    # 143: r_midpoint_6_of_upper_crease_line
+    [64, 192, 128],   # 144: l_inner_end_of_lower_lash_line
+    [64, 192, 128],   # 145: l_outer_end_of_lower_lash_line
+    [64, 192, 128],   # 146: l_centerpoint_of_lower_lash_line
+    [64, 192, 128],   # 147: l_midpoint_2_of_lower_lash_line
+    [64, 192, 128],   # 148: l_midpoint_1_of_lower_lash_line
+    [64, 192, 128],   # 149: l_midpoint_6_of_lower_lash_line
+    [64, 192, 128],   # 150: l_midpoint_5_of_lower_lash_line
+    [64, 192, 128],   # 151: l_midpoint_4_of_lower_lash_line
+    [64, 192, 128],   # 152: l_midpoint_3_of_lower_lash_line
+    [64, 192, 128],   # 153: l_outer_end_of_lower_eyelid_line
+    [64, 192, 128],   # 154: l_midpoint_6_of_lower_eyelid_line
+    [64, 192, 128],   # 155: l_midpoint_2_of_lower_eyelid_line
+    [64, 192, 128],   # 156: l_midpoint_5_of_lower_eyelid_line
+    [64, 192, 128],   # 157: l_centerpoint_of_lower_eyelid_line
+    [64, 192, 128],   # 158: l_midpoint_4_of_lower_eyelid_line
+    [64, 192, 128],   # 159: l_midpoint_1_of_lower_eyelid_line
+    [64, 192, 128],   # 160: l_midpoint_3_of_lower_eyelid_line
+    [64, 192, 32],    # 161: r_inner_end_of_lower_lash_line
+    [64, 192, 32],    # 162: r_outer_end_of_lower_lash_line
+    [64, 192, 32],    # 163: r_centerpoint_of_lower_lash_line
+    [64, 192, 32],    # 164: r_midpoint_1_of_lower_lash_line
+    [64, 192, 32],    # 165: r_midpoint_2_of_lower_lash_line
+    [64, 192, 32],    # 166: r_midpoint_3_of_lower_lash_line
+    [64, 192, 32],    # 167: r_midpoint_4_of_lower_lash_line
+    [64, 192, 32],    # 168: r_midpoint_5_of_lower_lash_line
+    [64, 192, 32],    # 169: r_midpoint_6_of_lower_lash_line
+    [64, 192, 32],    # 170: r_outer_end_of_lower_eyelid_line
+    [64, 192, 32],    # 171: r_midpoint_3_of_lower_eyelid_line
+    [64, 192, 32],    # 172: r_midpoint_1_of_lower_eyelid_line
+    [64, 192, 32],    # 173: r_midpoint_4_of_lower_eyelid_line
+    [64, 192, 32],    # 174: r_centerpoint_of_lower_eyelid_line
+    [64, 192, 32],    # 175: r_midpoint_5_of_lower_eyelid_line
+    [64, 192, 32],    # 176: r_midpoint_2_of_lower_eyelid_line
+    [64, 192, 32],    # 177: r_midpoint_6_of_lower_eyelid_line
+    [0, 192, 0],      # 178: tip_of_nose
+    [0, 192, 0],      # 179: bottom_center_of_nose
+    [0, 192, 0],      # 180: r_outer_corner_of_nose
+    [0, 192, 0],      # 181: l_outer_corner_of_nose
+    [0, 192, 0],      # 182: inner_corner_of_r_nostril
+    [0, 192, 0],      # 183: outer_corner_of_r_nostril
+    [0, 192, 0],      # 184: upper_corner_of_r_nostril
+    [0, 192, 0],      # 185: inner_corner_of_l_nostril
+    [0, 192, 0],      # 186: outer_corner_of_l_nostril
+    [0, 192, 0],      # 187: upper_corner_of_l_nostril
+    [192, 0, 0],      # 188: r_outer_corner_of_mouth
+    [192, 0, 0],      # 189: l_outer_corner_of_mouth
+    [192, 0, 0],      # 190: center_of_cupid_bow
+    [192, 0, 0],      # 191: center_of_lower_outer_lip
+    [192, 0, 0],      # 192: midpoint_1_of_upper_outer_lip
+    [192, 0, 0],      # 193: midpoint_2_of_upper_outer_lip
+    [192, 0, 0],      # 194: midpoint_1_of_lower_outer_lip
+    [192, 0, 0],      # 195: midpoint_2_of_lower_outer_lip
+    [192, 0, 0],      # 196: midpoint_3_of_upper_outer_lip
+    [192, 0, 0],      # 197: midpoint_4_of_upper_outer_lip
+    [192, 0, 0],      # 198: midpoint_5_of_upper_outer_lip
+    [192, 0, 0],      # 199: midpoint_6_of_upper_outer_lip
+    [192, 0, 0],      # 200: midpoint_3_of_lower_outer_lip
+    [192, 0, 0],      # 201: midpoint_4_of_lower_outer_lip
+    [192, 0, 0],      # 202: midpoint_5_of_lower_outer_lip
+    [192, 0, 0],      # 203: midpoint_6_of_lower_outer_lip
+    [0, 192, 192],    # 204: r_inner_corner_of_mouth
+    [0, 192, 192],    # 205: l_inner_corner_of_mouth
+    [0, 192, 192],    # 206: center_of_upper_inner_lip
+    [0, 192, 192],    # 207: center_of_lower_inner_lip
+    [0, 192, 192],    # 208: midpoint_1_of_upper_inner_lip
+    [0, 192, 192],    # 209: midpoint_2_of_upper_inner_lip
+    [0, 192, 192],    # 210: midpoint_1_of_lower_inner_lip
+    [0, 192, 192],    # 211: midpoint_2_of_lower_inner_lip
+    [0, 192, 192],    # 212: midpoint_3_of_upper_inner_lip
+    [0, 192, 192],    # 213: midpoint_4_of_upper_inner_lip
+    [0, 192, 192],    # 214: midpoint_5_of_upper_inner_lip
+    [0, 192, 192],    # 215: midpoint_6_of_upper_inner_lip
+    [0, 192, 192],    # 216: midpoint_3_of_lower_inner_lip
+    [0, 192, 192],    # 217: midpoint_4_of_lower_inner_lip
+    [0, 192, 192],    # 218: midpoint_5_of_lower_inner_lip
+    [0, 192, 192],    # 219: midpoint_6_of_lower_inner_lip. teeths removed
+    [200, 200, 0],    # 256: l_top_end_of_inferior_crus
+    [200, 200, 0],    # 257: l_top_end_of_superior_crus
+    [200, 200, 0],    # 258: l_start_of_antihelix
+    [200, 200, 0],    # 259: l_end_of_antihelix
+    [200, 200, 0],    # 260: l_midpoint_1_of_antihelix
+    [200, 200, 0],    # 261: l_midpoint_1_of_inferior_crus
+    [200, 200, 0],    # 262: l_midpoint_2_of_antihelix
+    [200, 200, 0],    # 263: l_midpoint_3_of_antihelix
+    [200, 200, 0],    # 264: l_point_1_of_inner_helix
+    [200, 200, 0],    # 265: l_point_2_of_inner_helix
+    [200, 200, 0],    # 266: l_point_3_of_inner_helix
+    [200, 200, 0],    # 267: l_point_4_of_inner_helix
+    [200, 200, 0],    # 268: l_point_5_of_inner_helix
+    [200, 200, 0],    # 269: l_point_6_of_inner_helix
+    [200, 200, 0],    # 270: l_point_7_of_inner_helix
+    [200, 200, 0],    # 271: l_highest_point_of_antitragus
+    [200, 200, 0],    # 272: l_bottom_point_of_tragus
+    [200, 200, 0],    # 273: l_protruding_point_of_tragus
+    [200, 200, 0],    # 274: l_top_point_of_tragus
+    [200, 200, 0],    # 275: l_start_point_of_crus_of_helix
+    [200, 200, 0],    # 276: l_deepest_point_of_concha
+    [200, 200, 0],    # 277: l_tip_of_ear_lobe
+    [200, 200, 0],    # 278: l_midpoint_between_22_15
+    [200, 200, 0],    # 279: l_bottom_connecting_point_of_ear_lobe
+    [200, 200, 0],    # 280: l_top_connecting_point_of_helix
+    [200, 200, 0],    # 281: l_point_8_of_inner_helix
+    [0, 200, 200],    # 282: r_top_end_of_inferior_crus
+    [0, 200, 200],    # 283: r_top_end_of_superior_crus
+    [0, 200, 200],    # 284: r_start_of_antihelix
+    [0, 200, 200],    # 285: r_end_of_antihelix
+    [0, 200, 200],    # 286: r_midpoint_1_of_antihelix
+    [0, 200, 200],    # 287: r_midpoint_1_of_inferior_crus
+    [0, 200, 200],    # 288: r_midpoint_2_of_antihelix
+    [0, 200, 200],    # 289: r_midpoint_3_of_antihelix
+    [0, 200, 200],    # 290: r_point_1_of_inner_helix
+    [0, 200, 200],    # 291: r_point_8_of_inner_helix
+    [0, 200, 200],    # 292: r_point_3_of_inner_helix
+    [0, 200, 200],    # 293: r_point_4_of_inner_helix
+    [0, 200, 200],    # 294: r_point_5_of_inner_helix
+    [0, 200, 200],    # 295: r_point_6_of_inner_helix
+    [0, 200, 200],    # 296: r_point_7_of_inner_helix
+    [0, 200, 200],    # 297: r_highest_point_of_antitragus
+    [0, 200, 200],    # 298: r_bottom_point_of_tragus
+    [0, 200, 200],    # 299: r_protruding_point_of_tragus
+    [0, 200, 200],    # 300: r_top_point_of_tragus
+    [0, 200, 200],    # 301: r_start_point_of_crus_of_helix
+    [0, 200, 200],    # 302: r_deepest_point_of_concha
+    [0, 200, 200],    # 303: r_tip_of_ear_lobe
+    [0, 200, 200],    # 304: r_midpoint_between_22_15
+    [0, 200, 200],    # 305: r_bottom_connecting_point_of_ear_lobe
+    [0, 200, 200],    # 306: r_top_connecting_point_of_helix
+    [0, 200, 200],    # 307: r_point_2_of_inner_helix
+    [128, 192, 64],   # 308: l_center_of_iris
+    [128, 192, 64],   # 309: l_border_of_iris_3
+    [128, 192, 64],   # 310: l_border_of_iris_midpoint_1
+    [128, 192, 64],   # 311: l_border_of_iris_12
+    [128, 192, 64],   # 312: l_border_of_iris_midpoint_4
+    [128, 192, 64],   # 313: l_border_of_iris_9
+    [128, 192, 64],   # 314: l_border_of_iris_midpoint_3
+    [128, 192, 64],   # 315: l_border_of_iris_6
+    [128, 192, 64],   # 316: l_border_of_iris_midpoint_2
+    [192, 32, 64],    # 317: r_center_of_iris
+    [192, 32, 64],    # 318: r_border_of_iris_3
+    [192, 32, 64],    # 319: r_border_of_iris_midpoint_1
+    [192, 32, 64],    # 320: r_border_of_iris_12
+    [192, 32, 64],    # 321: r_border_of_iris_midpoint_4
+    [192, 32, 64],    # 322: r_border_of_iris_9
+    [192, 32, 64],    # 323: r_border_of_iris_midpoint_3
+    [192, 32, 64],    # 324: r_border_of_iris_6
+    [192, 32, 64],    # 325: r_border_of_iris_midpoint_2
+    [192, 128, 64],   # 326: l_center_of_pupil
+    [192, 128, 64],   # 327: l_border_of_pupil_3
+    [192, 128, 64],   # 328: l_border_of_pupil_midpoint_1
+    [192, 128, 64],   # 329: l_border_of_pupil_12
+    [192, 128, 64],   # 330: l_border_of_pupil_midpoint_4
+    [192, 128, 64],   # 331: l_border_of_pupil_9
+    [192, 128, 64],   # 332: l_border_of_pupil_midpoint_3
+    [192, 128, 64],   # 333: l_border_of_pupil_6
+    [192, 128, 64],   # 334: l_border_of_pupil_midpoint_2
+    [32, 192, 192],   # 335: r_center_of_pupil
+    [32, 192, 192],   # 336: r_border_of_pupil_3
+    [32, 192, 192],   # 337: r_border_of_pupil_midpoint_1
+    [32, 192, 192],   # 338: r_border_of_pupil_12
+    [32, 192, 192],   # 339: r_border_of_pupil_midpoint_4
+    [32, 192, 192],   # 340: r_border_of_pupil_9
+    [32, 192, 192],   # 341: r_border_of_pupil_midpoint_3
+    [32, 192, 192],   # 342: r_border_of_pupil_6
+    [32, 192, 192],   # 343: r_border_of_pupil_midpoint_2
+]
+GOLIATH_KEYPOINTS = [
+    "nose",
+    "left_eye",
+    "right_eye",
+    "left_ear",
+    "right_ear",
+    "left_shoulder",
+    "right_shoulder",
+    "left_elbow",
+    "right_elbow",
+    "left_hip",
+    "right_hip",
+    "left_knee",
+    "right_knee",
+    "left_ankle",
+    "right_ankle",
+    "left_big_toe",
+    "left_small_toe",
+    "left_heel",
+    "right_big_toe",
+    "right_small_toe",
+    "right_heel",
+    "right_thumb4",
+    "right_thumb3",
+    "right_thumb2",
+    "right_thumb_third_joint",
+    "right_forefinger4",
+    "right_forefinger3",
+    "right_forefinger2",
+    "right_forefinger_third_joint",
+    "right_middle_finger4",
+    "right_middle_finger3",
+    "right_middle_finger2",
+    "right_middle_finger_third_joint",
+    "right_ring_finger4",
+    "right_ring_finger3",
+    "right_ring_finger2",
+    "right_ring_finger_third_joint",
+    "right_pinky_finger4",
+    "right_pinky_finger3",
+    "right_pinky_finger2",
+    "right_pinky_finger_third_joint",
+    "right_wrist",
+    "left_thumb4",
+    "left_thumb3",
+    "left_thumb2",
+    "left_thumb_third_joint",
+    "left_forefinger4",
+    "left_forefinger3",
+    "left_forefinger2",
+    "left_forefinger_third_joint",
+    "left_middle_finger4",
+    "left_middle_finger3",
+    "left_middle_finger2",
+    "left_middle_finger_third_joint",
+    "left_ring_finger4",
+    "left_ring_finger3",
+    "left_ring_finger2",
+    "left_ring_finger_third_joint",
+    "left_pinky_finger4",
+    "left_pinky_finger3",
+    "left_pinky_finger2",
+    "left_pinky_finger_third_joint",
+    "left_wrist",
+    "left_olecranon",
+    "right_olecranon",
+    "left_cubital_fossa",
+    "right_cubital_fossa",
+    "left_acromion",
+    "right_acromion",
+    "neck",
+    "center_of_glabella",
+    "center_of_nose_root",
+    "tip_of_nose_bridge",
+    "midpoint_1_of_nose_bridge",
+    "midpoint_2_of_nose_bridge",
+    "midpoint_3_of_nose_bridge",
+    "center_of_labiomental_groove",
+    "tip_of_chin",
+    "upper_startpoint_of_r_eyebrow",
+    "lower_startpoint_of_r_eyebrow",
+    "end_of_r_eyebrow",
+    "upper_midpoint_1_of_r_eyebrow",
+    "lower_midpoint_1_of_r_eyebrow",
+    "upper_midpoint_2_of_r_eyebrow",
+    "upper_midpoint_3_of_r_eyebrow",
+    "lower_midpoint_2_of_r_eyebrow",
+    "lower_midpoint_3_of_r_eyebrow",
+    "upper_startpoint_of_l_eyebrow",
+    "lower_startpoint_of_l_eyebrow",
+    "end_of_l_eyebrow",
+    "upper_midpoint_1_of_l_eyebrow",
+    "lower_midpoint_1_of_l_eyebrow",
+    "upper_midpoint_2_of_l_eyebrow",
+    "upper_midpoint_3_of_l_eyebrow",
+    "lower_midpoint_2_of_l_eyebrow",
+    "lower_midpoint_3_of_l_eyebrow",
+    "l_inner_end_of_upper_lash_line",
+    "l_outer_end_of_upper_lash_line",
+    "l_centerpoint_of_upper_lash_line",
+    "l_midpoint_2_of_upper_lash_line",
+    "l_midpoint_1_of_upper_lash_line",
+    "l_midpoint_6_of_upper_lash_line",
+    "l_midpoint_5_of_upper_lash_line",
+    "l_midpoint_4_of_upper_lash_line",
+    "l_midpoint_3_of_upper_lash_line",
+    "l_outer_end_of_upper_eyelid_line",
+    "l_midpoint_6_of_upper_eyelid_line",
+    "l_midpoint_2_of_upper_eyelid_line",
+    "l_midpoint_5_of_upper_eyelid_line",
+    "l_centerpoint_of_upper_eyelid_line",
+    "l_midpoint_4_of_upper_eyelid_line",
+    "l_midpoint_1_of_upper_eyelid_line",
+    "l_midpoint_3_of_upper_eyelid_line",
+    "l_midpoint_6_of_upper_crease_line",
+    "l_midpoint_2_of_upper_crease_line",
+    "l_midpoint_5_of_upper_crease_line",
+    "l_centerpoint_of_upper_crease_line",
+    "l_midpoint_4_of_upper_crease_line",
+    "l_midpoint_1_of_upper_crease_line",
+    "l_midpoint_3_of_upper_crease_line",
+    "r_inner_end_of_upper_lash_line",
+    "r_outer_end_of_upper_lash_line",
+    "r_centerpoint_of_upper_lash_line",
+    "r_midpoint_1_of_upper_lash_line",
+    "r_midpoint_2_of_upper_lash_line",
+    "r_midpoint_3_of_upper_lash_line",
+    "r_midpoint_4_of_upper_lash_line",
+    "r_midpoint_5_of_upper_lash_line",
+    "r_midpoint_6_of_upper_lash_line",
+    "r_outer_end_of_upper_eyelid_line",
+    "r_midpoint_3_of_upper_eyelid_line",
+    "r_midpoint_1_of_upper_eyelid_line",
+    "r_midpoint_4_of_upper_eyelid_line",
+    "r_centerpoint_of_upper_eyelid_line",
+    "r_midpoint_5_of_upper_eyelid_line",
+    "r_midpoint_2_of_upper_eyelid_line",
+    "r_midpoint_6_of_upper_eyelid_line",
+    "r_midpoint_3_of_upper_crease_line",
+    "r_midpoint_1_of_upper_crease_line",
+    "r_midpoint_4_of_upper_crease_line",
+    "r_centerpoint_of_upper_crease_line",
+    "r_midpoint_5_of_upper_crease_line",
+    "r_midpoint_2_of_upper_crease_line",
+    "r_midpoint_6_of_upper_crease_line",
+    "l_inner_end_of_lower_lash_line",
+    "l_outer_end_of_lower_lash_line",
+    "l_centerpoint_of_lower_lash_line",
+    "l_midpoint_2_of_lower_lash_line",
+    "l_midpoint_1_of_lower_lash_line",
+    "l_midpoint_6_of_lower_lash_line",
+    "l_midpoint_5_of_lower_lash_line",
+    "l_midpoint_4_of_lower_lash_line",
+    "l_midpoint_3_of_lower_lash_line",
+    "l_outer_end_of_lower_eyelid_line",
+    "l_midpoint_6_of_lower_eyelid_line",
+    "l_midpoint_2_of_lower_eyelid_line",
+    "l_midpoint_5_of_lower_eyelid_line",
+    "l_centerpoint_of_lower_eyelid_line",
+    "l_midpoint_4_of_lower_eyelid_line",
+    "l_midpoint_1_of_lower_eyelid_line",
+    "l_midpoint_3_of_lower_eyelid_line",
+    "r_inner_end_of_lower_lash_line",
+    "r_outer_end_of_lower_lash_line",
+    "r_centerpoint_of_lower_lash_line",
+    "r_midpoint_1_of_lower_lash_line",
+    "r_midpoint_2_of_lower_lash_line",
+    "r_midpoint_3_of_lower_lash_line",
+    "r_midpoint_4_of_lower_lash_line",
+    "r_midpoint_5_of_lower_lash_line",
+    "r_midpoint_6_of_lower_lash_line",
+    "r_outer_end_of_lower_eyelid_line",
+    "r_midpoint_3_of_lower_eyelid_line",
+    "r_midpoint_1_of_lower_eyelid_line",
+    "r_midpoint_4_of_lower_eyelid_line",
+    "r_centerpoint_of_lower_eyelid_line",
+    "r_midpoint_5_of_lower_eyelid_line",
+    "r_midpoint_2_of_lower_eyelid_line",
+    "r_midpoint_6_of_lower_eyelid_line",
+    "tip_of_nose",
+    "bottom_center_of_nose",
+    "r_outer_corner_of_nose",
+    "l_outer_corner_of_nose",
+    "inner_corner_of_r_nostril",
+    "outer_corner_of_r_nostril",
+    "upper_corner_of_r_nostril",
+    "inner_corner_of_l_nostril",
+    "outer_corner_of_l_nostril",
+    "upper_corner_of_l_nostril",
+    "r_outer_corner_of_mouth",
+    "l_outer_corner_of_mouth",
+    "center_of_cupid_bow",
+    "center_of_lower_outer_lip",
+    "midpoint_1_of_upper_outer_lip",
+    "midpoint_2_of_upper_outer_lip",
+    "midpoint_1_of_lower_outer_lip",
+    "midpoint_2_of_lower_outer_lip",
+    "midpoint_3_of_upper_outer_lip",
+    "midpoint_4_of_upper_outer_lip",
+    "midpoint_5_of_upper_outer_lip",
+    "midpoint_6_of_upper_outer_lip",
+    "midpoint_3_of_lower_outer_lip",
+    "midpoint_4_of_lower_outer_lip",
+    "midpoint_5_of_lower_outer_lip",
+    "midpoint_6_of_lower_outer_lip",
+    "r_inner_corner_of_mouth",
+    "l_inner_corner_of_mouth",
+    "center_of_upper_inner_lip",
+    "center_of_lower_inner_lip",
+    "midpoint_1_of_upper_inner_lip",
+    "midpoint_2_of_upper_inner_lip",
+    "midpoint_1_of_lower_inner_lip",
+    "midpoint_2_of_lower_inner_lip",
+    "midpoint_3_of_upper_inner_lip",
+    "midpoint_4_of_upper_inner_lip",
+    "midpoint_5_of_upper_inner_lip",
+    "midpoint_6_of_upper_inner_lip",
+    "midpoint_3_of_lower_inner_lip",
+    "midpoint_4_of_lower_inner_lip",
+    "midpoint_5_of_lower_inner_lip",
+    "midpoint_6_of_lower_inner_lip",
+    "l_top_end_of_inferior_crus",
+    "l_top_end_of_superior_crus",
+    "l_start_of_antihelix",
+    "l_end_of_antihelix",
+    "l_midpoint_1_of_antihelix",
+    "l_midpoint_1_of_inferior_crus",
+    "l_midpoint_2_of_antihelix",
+    "l_midpoint_3_of_antihelix",
+    "l_point_1_of_inner_helix",
+    "l_point_2_of_inner_helix",
+    "l_point_3_of_inner_helix",
+    "l_point_4_of_inner_helix",
+    "l_point_5_of_inner_helix",
+    "l_point_6_of_inner_helix",
+    "l_point_7_of_inner_helix",
+    "l_highest_point_of_antitragus",
+    "l_bottom_point_of_tragus",
+    "l_protruding_point_of_tragus",
+    "l_top_point_of_tragus",
+    "l_start_point_of_crus_of_helix",
+    "l_deepest_point_of_concha",
+    "l_tip_of_ear_lobe",
+    "l_midpoint_between_22_15",
+    "l_bottom_connecting_point_of_ear_lobe",
+    "l_top_connecting_point_of_helix",
+    "l_point_8_of_inner_helix",
+    "r_top_end_of_inferior_crus",
+    "r_top_end_of_superior_crus",
+    "r_start_of_antihelix",
+    "r_end_of_antihelix",
+    "r_midpoint_1_of_antihelix",
+    "r_midpoint_1_of_inferior_crus",
+    "r_midpoint_2_of_antihelix",
+    "r_midpoint_3_of_antihelix",
+    "r_point_1_of_inner_helix",
+    "r_point_8_of_inner_helix",
+    "r_point_3_of_inner_helix",
+    "r_point_4_of_inner_helix",
+    "r_point_5_of_inner_helix",
+    "r_point_6_of_inner_helix",
+    "r_point_7_of_inner_helix",
+    "r_highest_point_of_antitragus",
+    "r_bottom_point_of_tragus",
+    "r_protruding_point_of_tragus",
+    "r_top_point_of_tragus",
+    "r_start_point_of_crus_of_helix",
+    "r_deepest_point_of_concha",
+    "r_tip_of_ear_lobe",
+    "r_midpoint_between_22_15",
+    "r_bottom_connecting_point_of_ear_lobe",
+    "r_top_connecting_point_of_helix",
+    "r_point_2_of_inner_helix",
+    "l_center_of_iris",
+    "l_border_of_iris_3",
+    "l_border_of_iris_midpoint_1",
+    "l_border_of_iris_12",
+    "l_border_of_iris_midpoint_4",
+    "l_border_of_iris_9",
+    "l_border_of_iris_midpoint_3",
+    "l_border_of_iris_6",
+    "l_border_of_iris_midpoint_2",
+    "r_center_of_iris",
+    "r_border_of_iris_3",
+    "r_border_of_iris_midpoint_1",
+    "r_border_of_iris_12",
+    "r_border_of_iris_midpoint_4",
+    "r_border_of_iris_9",
+    "r_border_of_iris_midpoint_3",
+    "r_border_of_iris_6",
+    "r_border_of_iris_midpoint_2",
+    "l_center_of_pupil",
+    "l_border_of_pupil_3",
+    "l_border_of_pupil_midpoint_1",
+    "l_border_of_pupil_12",
+    "l_border_of_pupil_midpoint_4",
+    "l_border_of_pupil_9",
+    "l_border_of_pupil_midpoint_3",
+    "l_border_of_pupil_6",
+    "l_border_of_pupil_midpoint_2",
+    "r_center_of_pupil",
+    "r_border_of_pupil_3",
+    "r_border_of_pupil_midpoint_1",
+    "r_border_of_pupil_12",
+    "r_border_of_pupil_midpoint_4",
+    "r_border_of_pupil_9",
+    "r_border_of_pupil_midpoint_3",
+    "r_border_of_pupil_6",
+    "r_border_of_pupil_midpoint_2"
+]
+GOLIATH_SKELETON_INFO = {
+        0:
+        dict(link=('left_ankle', 'left_knee'), id=0, color=[0, 255, 0]),
+        1:
+        dict(link=('left_knee', 'left_hip'), id=1, color=[0, 255, 0]),
+        2:
+        dict(link=('right_ankle', 'right_knee'), id=2, color=[255, 128, 0]),
+        3:
+        dict(link=('right_knee', 'right_hip'), id=3, color=[255, 128, 0]),
+        4:
+        dict(link=('left_hip', 'right_hip'), id=4, color=[51, 153, 255]),
+        5:
+        dict(link=('left_shoulder', 'left_hip'), id=5, color=[51, 153, 255]),
+        6:
+        dict(link=('right_shoulder', 'right_hip'), id=6, color=[51, 153, 255]),
+        7:
+        dict(
+            link=('left_shoulder', 'right_shoulder'),
+            id=7,
+            color=[51, 153, 255]),
+        8:
+        dict(link=('left_shoulder', 'left_elbow'), id=8, color=[0, 255, 0]),
+        9:
+        dict(
+            link=('right_shoulder', 'right_elbow'), id=9, color=[255, 128, 0]),
+        10:
+        dict(link=('left_elbow', 'left_wrist'), id=10, color=[0, 255, 0]),
+        11:
+        dict(link=('right_elbow', 'right_wrist'), id=11, color=[255, 128, 0]),
+        12:
+        dict(link=('left_eye', 'right_eye'), id=12, color=[51, 153, 255]),
+        13:
+        dict(link=('nose', 'left_eye'), id=13, color=[51, 153, 255]),
+        14:
+        dict(link=('nose', 'right_eye'), id=14, color=[51, 153, 255]),
+        15:
+        dict(link=('left_eye', 'left_ear'), id=15, color=[51, 153, 255]),
+        16:
+        dict(link=('right_eye', 'right_ear'), id=16, color=[51, 153, 255]),
+        17:
+        dict(link=('left_ear', 'left_shoulder'), id=17, color=[51, 153, 255]),
+        18:
+        dict(
+            link=('right_ear', 'right_shoulder'), id=18, color=[51, 153, 255]),
+        19:
+        dict(link=('left_ankle', 'left_big_toe'), id=19, color=[0, 255, 0]),
+        20:
+        dict(link=('left_ankle', 'left_small_toe'), id=20, color=[0, 255, 0]),
+        21:
+        dict(link=('left_ankle', 'left_heel'), id=21, color=[0, 255, 0]),
+        22:
+        dict(
+            link=('right_ankle', 'right_big_toe'), id=22, color=[255, 128, 0]),
+        23:
+        dict(
+            link=('right_ankle', 'right_small_toe'),
+            id=23,
+            color=[255, 128, 0]),
+        24:
+        dict(link=('right_ankle', 'right_heel'), id=24, color=[255, 128, 0]),
+        25:
+        dict(
+            link=('left_wrist', 'left_thumb_third_joint'), id=25, color=[255, 128,
+                                                                  0]),
+        26:
+        dict(link=('left_thumb_third_joint', 'left_thumb2'), id=26, color=[255, 128, 0]),
+        27:
+        dict(link=('left_thumb2', 'left_thumb3'), id=27, color=[255, 128, 0]),
+        28:
+        dict(link=('left_thumb3', 'left_thumb4'), id=28, color=[255, 128, 0]),
+        29:
+        dict(
+            link=('left_wrist', 'left_forefinger_third_joint'),
+            id=29,
+            color=[255, 153, 255]),
+        30:
+        dict(
+            link=('left_forefinger_third_joint', 'left_forefinger2'),
+            id=30,
+            color=[255, 153, 255]),
+        31:
+        dict(
+            link=('left_forefinger2', 'left_forefinger3'),
+            id=31,
+            color=[255, 153, 255]),
+        32:
+        dict(
+            link=('left_forefinger3', 'left_forefinger4'),
+            id=32,
+            color=[255, 153, 255]),
+        33:
+        dict(
+            link=('left_wrist', 'left_middle_finger_third_joint'),
+            id=33,
+            color=[102, 178, 255]),
+        34:
+        dict(
+            link=('left_middle_finger_third_joint', 'left_middle_finger2'),
+            id=34,
+            color=[102, 178, 255]),
+        35:
+        dict(
+            link=('left_middle_finger2', 'left_middle_finger3'),
+            id=35,
+            color=[102, 178, 255]),
+        36:
+        dict(
+            link=('left_middle_finger3', 'left_middle_finger4'),
+            id=36,
+            color=[102, 178, 255]),
+        37:
+        dict(
+            link=('left_wrist', 'left_ring_finger_third_joint'),
+            id=37,
+            color=[255, 51, 51]),
+        38:
+        dict(
+            link=('left_ring_finger_third_joint', 'left_ring_finger2'),
+            id=38,
+            color=[255, 51, 51]),
+        39:
+        dict(
+            link=('left_ring_finger2', 'left_ring_finger3'),
+            id=39,
+            color=[255, 51, 51]),
+        40:
+        dict(
+            link=('left_ring_finger3', 'left_ring_finger4'),
+            id=40,
+            color=[255, 51, 51]),
+        41:
+        dict(
+            link=('left_wrist', 'left_pinky_finger_third_joint'),
+            id=41,
+            color=[0, 255, 0]),
+        42:
+        dict(
+            link=('left_pinky_finger_third_joint', 'left_pinky_finger2'),
+            id=42,
+            color=[0, 255, 0]),
+        43:
+        dict(
+            link=('left_pinky_finger2', 'left_pinky_finger3'),
+            id=43,
+            color=[0, 255, 0]),
+        44:
+        dict(
+            link=('left_pinky_finger3', 'left_pinky_finger4'),
+            id=44,
+            color=[0, 255, 0]),
+        45:
+        dict(
+            link=('right_wrist', 'right_thumb_third_joint'),
+            id=45,
+            color=[255, 128, 0]),
+        46:
+        dict(
+            link=('right_thumb_third_joint', 'right_thumb2'), id=46, color=[255, 128, 0]),
+        47:
+        dict(
+            link=('right_thumb2', 'right_thumb3'), id=47, color=[255, 128, 0]),
+        48:
+        dict(
+            link=('right_thumb3', 'right_thumb4'), id=48, color=[255, 128, 0]),
+        49:
+        dict(
+            link=('right_wrist', 'right_forefinger_third_joint'),
+            id=49,
+            color=[255, 153, 255]),
+        50:
+        dict(
+            link=('right_forefinger_third_joint', 'right_forefinger2'),
+            id=50,
+            color=[255, 153, 255]),
+        51:
+        dict(
+            link=('right_forefinger2', 'right_forefinger3'),
+            id=51,
+            color=[255, 153, 255]),
+        52:
+        dict(
+            link=('right_forefinger3', 'right_forefinger4'),
+            id=52,
+            color=[255, 153, 255]),
+        53:
+        dict(
+            link=('right_wrist', 'right_middle_finger_third_joint'),
+            id=53,
+            color=[102, 178, 255]),
+        54:
+        dict(
+            link=('right_middle_finger_third_joint', 'right_middle_finger2'),
+            id=54,
+            color=[102, 178, 255]),
+        55:
+        dict(
+            link=('right_middle_finger2', 'right_middle_finger3'),
+            id=55,
+            color=[102, 178, 255]),
+        56:
+        dict(
+            link=('right_middle_finger3', 'right_middle_finger4'),
+            id=56,
+            color=[102, 178, 255]),
+        57:
+        dict(
+            link=('right_wrist', 'right_ring_finger_third_joint'),
+            id=57,
+            color=[255, 51, 51]),
+        58:
+        dict(
+            link=('right_ring_finger_third_joint', 'right_ring_finger2'),
+            id=58,
+            color=[255, 51, 51]),
+        59:
+        dict(
+            link=('right_ring_finger2', 'right_ring_finger3'),
+            id=59,
+            color=[255, 51, 51]),
+        60:
+        dict(
+            link=('right_ring_finger3', 'right_ring_finger4'),
+            id=60,
+            color=[255, 51, 51]),
+        61:
+        dict(
+            link=('right_wrist', 'right_pinky_finger_third_joint'),
+            id=61,
+            color=[0, 255, 0]),
+        62:
+        dict(
+            link=('right_pinky_finger_third_joint', 'right_pinky_finger2'),
+            id=62,
+            color=[0, 255, 0]),
+        63:
+        dict(
+            link=('right_pinky_finger2', 'right_pinky_finger3'),
+            id=63,
+            color=[0, 255, 0]),
+        64:
+        dict(
+            link=('right_pinky_finger3', 'right_pinky_finger4'),
+            id=64,
+            color=[0, 255, 0])
+    }

detector_utils.py ADDED Viewed

	@@ -0,0 +1,196 @@

+from typing import List, Optional, Sequence, Union
+import torch
+import cv2
+import numpy as np
+from mmcv.ops import RoIPool
+from mmengine.dataset import Compose, pseudo_collate
+from mmengine.device import get_device
+from mmengine.registry import init_default_scope
+from mmdet.apis import inference_detector, init_detector
+from mmdet.structures import DetDataSample, SampleList
+from mmdet.utils import get_test_pipeline_cfg
+ImagesType = Union[str, np.ndarray, Sequence[str], Sequence[np.ndarray]]
+def nms(dets: np.ndarray, thr: float):
+    """Greedily select boxes with high confidence and overlap <= thr.
+    Args:
+        dets (np.ndarray): [[x1, y1, x2, y2, score]].
+        thr (float): Retain overlap < thr.
+    Returns:
+        list: Indexes to keep.
+    """
+    if len(dets) == 0:
+        return []
+    x1 = dets[:, 0]
+    y1 = dets[:, 1]
+    x2 = dets[:, 2]
+    y2 = dets[:, 3]
+    scores = dets[:, 4]
+    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
+    order = scores.argsort()[::-1]
+    keep = []
+    while len(order) > 0:
+        i = order[0]
+        keep.append(i)
+        xx1 = np.maximum(x1[i], x1[order[1:]])
+        yy1 = np.maximum(y1[i], y1[order[1:]])
+        xx2 = np.minimum(x2[i], x2[order[1:]])
+        yy2 = np.minimum(y2[i], y2[order[1:]])
+        w = np.maximum(0.0, xx2 - xx1 + 1)
+        h = np.maximum(0.0, yy2 - yy1 + 1)
+        inter = w * h
+        ovr = inter / (areas[i] + areas[order[1:]] - inter)
+        inds = np.where(ovr <= thr)[0]
+        order = order[inds + 1]
+    return keep
+def adapt_mmdet_pipeline(cfg):
+    """Converts pipeline types in MMDetection's test dataloader to use the
+    'mmdet' namespace.
+    Args:
+        cfg (ConfigDict): Configuration dictionary for MMDetection.
+    Returns:
+        ConfigDict: Configuration dictionary with updated pipeline types.
+    """
+    # use lazy import to avoid hard dependence on mmdet
+    from mmdet.datasets import transforms
+    if 'test_dataloader' not in cfg:
+        return cfg
+    pipeline = cfg.test_dataloader.dataset.pipeline
+    for trans in pipeline:
+        if trans['type'] in dir(transforms):
+            trans['type'] = 'mmdet.' + trans['type']
+    return cfg
+def inference_detector(
+    model: torch.nn.Module,
+    imgs: ImagesType,
+    test_pipeline: Optional[Compose] = None,
+    text_prompt: Optional[str] = None,
+    custom_entities: bool = False,
+) -> Union[DetDataSample, SampleList]:
+    """Inference image(s) with the detector.
+    Args:
+        model (nn.Module): The loaded detector.
+        imgs (str, ndarray, Sequence[str/ndarray]):
+           Either image files or loaded images.
+        test_pipeline (:obj:`Compose`): Test pipeline.
+    Returns:
+        :obj:`DetDataSample` or list[:obj:`DetDataSample`]:
+        If imgs is a list or tuple, the same length list type results
+        will be returned, otherwise return the detection results directly.
+    """
+    if isinstance(imgs, torch.Tensor):
+        if imgs.is_cuda:
+            imgs = imgs.cpu()
+        # Remove batch dimension and transpose
+        imgs = imgs.squeeze(0).permute(1, 2, 0).numpy()
+        # Ensure the data type is appropriate (uint8 for most image processing functions)
+        imgs = (imgs * 255).astype(np.uint8)
+    if isinstance(imgs, (list, tuple)) or (isinstance(imgs, np.ndarray) and len(imgs.shape) == 4):
+        is_batch = True
+    else:
+        imgs = [imgs]
+        is_batch = False
+    cfg = model.cfg
+    if test_pipeline is None:
+        cfg = cfg.copy()
+        test_pipeline = get_test_pipeline_cfg(cfg)
+        if isinstance(imgs[0], np.ndarray):
+            # Calling this method across libraries will result
+            # in module unregistered error if not prefixed with mmdet.
+            test_pipeline[0].type = "mmdet.LoadImageFromNDArray"
+        test_pipeline = Compose(test_pipeline)
+    if model.data_preprocessor.device.type == "cpu":
+        for m in model.modules():
+            assert not isinstance(
+                m, RoIPool
+            ), "CPU inference with RoIPool is not supported currently."
+    result_list = []
+    for i, img in enumerate(imgs):
+        # prepare data
+        if isinstance(img, np.ndarray):
+            # TODO: remove img_id.
+            data_ = dict(img=img, img_id=0)
+        else:
+            # TODO: remove img_id.
+            data_ = dict(img_path=img, img_id=0)
+        if text_prompt:
+            data_["text"] = text_prompt
+            data_["custom_entities"] = custom_entities
+        # build the data pipeline
+        data_ = test_pipeline(data_)
+        data_["inputs"] = [data_["inputs"]]
+        data_["data_samples"] = [data_["data_samples"]]
+        # forward the model
+        with torch.no_grad(), torch.autocast(device_type=get_device(), dtype=torch.bfloat16):
+            results = model.test_step(data_)[0]
+        result_list.append(results)
+    if not is_batch:
+        return result_list[0]
+    else:
+        return result_list
+def process_one_image_bbox(pred_instance, det_cat_id, bbox_thr, nms_thr):
+    bboxes = np.concatenate(
+        (pred_instance.bboxes, pred_instance.scores[:, None]), axis=1
+    )
+    bboxes = bboxes[
+        np.logical_and(
+            pred_instance.labels == det_cat_id,
+            pred_instance.scores > bbox_thr,
+        )
+    ]
+    bboxes = bboxes[nms(bboxes, nms_thr), :4]
+    return bboxes
+def process_images_detector(imgs, detector):
+    """Visualize predicted keypoints (and heatmaps) of one image."""
+    # predict bbox
+    det_results = inference_detector(detector, imgs)
+    pred_instances = list(
+        map(lambda det_result: det_result.pred_instances.numpy(), det_results)
+    )
+    bboxes_batch = list(
+        map(
+            lambda pred_instance: process_one_image_bbox(
+                pred_instance, 0, 0.3, 0.3 ## argparse.Namespace(det_cat_id=0, bbox_thr=0.3, nms_thr=0.3),
+            ),
+            pred_instances,
+        )
+    )
+    return bboxes_batch

pose_render_utils.py ADDED Viewed

	@@ -0,0 +1,120 @@

+# Copyright (c) Meta Platforms, Inc. and affiliates.
+# All rights reserved.
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+import cv2
+import numpy as np
+def visualize_keypoints(
+    image: np.ndarray,  # RGB uint8 H,W,3
+    keypoints,  # list[(J,2)]
+    keypoints_visible,  # list[(J,), {0/1}]
+    keypoint_scores,  # list[(J,)]
+    *,
+    radius: int = 4,
+    thickness: int = -1,
+    color=(255, 0, 0),
+    kpt_thr: float = 0.3,
+    skeleton: list | None = None,  # [(i,j)]
+    kpt_color: list | tuple | np.ndarray | None = None,
+    link_color: list | tuple | np.ndarray | None = None,
+    show_kpt_idx: bool = False,
+) -> np.ndarray:
+    img = image.copy()
+    H, W = img.shape[:2]
+    # defaults
+    if skeleton is None:
+        skeleton = []  # points only
+    if kpt_color is None:
+        kpt_color = color
+    if link_color is None:
+        link_color = (0, 255, 0)
+    # robust color normalization: supports tuple, list-of-tuples, np.ndarray (N,3) or (3,)
+    def _as_color_list(c, n):
+        # torch -> numpy
+        if hasattr(c, "detach"):
+            c = c.detach().cpu().numpy()
+        # numpy -> array
+        if isinstance(c, np.ndarray):
+            if c.ndim == 2 and c.shape[1] == 3:  # (N,3) palette
+                return [tuple(int(v) for v in row) for row in c.tolist()]
+            if c.size == 3:  # single (3,)
+                return [tuple(int(v) for v in c.tolist())] * max(1, n)
+        # python containers
+        if isinstance(c, (list, tuple)):
+            if n and len(c) == n and isinstance(c[0], (list, tuple, np.ndarray)):
+                out = []
+                for cc in c:
+                    cc = np.asarray(cc).reshape(-1)
+                    assert cc.size == 3, "Each color must be length-3"
+                    out.append(tuple(int(v) for v in cc.tolist()))
+                return out
+            # single triplet
+            c_arr = np.asarray(c).reshape(-1)
+            if c_arr.size == 3:
+                return [tuple(int(v) for v in c_arr.tolist())] * max(1, n)
+        # fallback: red
+        return [(255, 0, 0)] * max(1, n)
+    J = keypoints[0].shape[0] if keypoints else 0
+    kpt_colors = _as_color_list(kpt_color, J)
+    link_colors = _as_color_list(link_color, len(skeleton))
+    def in_bounds(x, y):
+        return 0 <= x < W and 0 <= y < H
+    for kpts, vis, score in zip(keypoints, keypoints_visible, keypoint_scores):
+        kpts = np.asarray(kpts, float)
+        vis = np.asarray(vis).reshape(-1).astype(bool)
+        score = np.asarray(score).reshape(-1)
+        # links (draw in RGB; NO channel flip)
+        for lk, (i, j) in enumerate(skeleton):
+            if i >= len(kpts) or j >= len(kpts):
+                continue
+            if not (vis[i] and vis[j]):
+                continue
+            if score[i] < kpt_thr or score[j] < kpt_thr:
+                continue
+            x1, y1 = map(int, np.round(kpts[i]))
+            x2, y2 = map(int, np.round(kpts[j]))
+            if not (in_bounds(x1, y1) and in_bounds(x2, y2)):
+                continue
+            cv2.line(
+                img,
+                (x1, y1),
+                (x2, y2),
+                link_colors[lk % len(link_colors)],
+                thickness=max(1, thickness),
+                lineType=cv2.LINE_AA,
+            )
+        # points
+        for j_idx, (xy, v, s) in enumerate(zip(kpts, vis, score)):
+            if not v or s < kpt_thr:
+                continue
+            x, y = map(int, np.round(xy))
+            if not in_bounds(x, y):
+                continue
+            c = kpt_colors[min(j_idx, len(kpt_colors) - 1)]
+            cv2.circle(img, (x, y), radius, c, thickness=-1, lineType=cv2.LINE_AA)
+            if show_kpt_idx:
+                cv2.putText(
+                    img,
+                    str(j_idx),
+                    (x + radius, y - radius),
+                    cv2.FONT_HERSHEY_SIMPLEX,
+                    0.4,
+                    c,
+                    1,
+                    cv2.LINE_AA,
+                )
+    return img

requirements.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+gradio==4.42.0
+spaces
+numpy
+torch
+torchvision
+opencv-python
+pillow
+matplotlib
+safetensors
+huggingface_hub
+# mmdet stack — needed for the RTMDet person detector
+mmengine
+mmcv==2.1.0
+mmdet==3.2.0
+# Sapiens2 itself (provides PoseTopdownEstimator + init_model + 308-keypoint configs)
+sapiens @ git+https://github.com/facebookresearch/sapiens2.git