Upload folder using huggingface_hub

bd95c9c verified 1 day ago

11.6 kB

	# SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
	# SPDX-License-Identifier: Apache-2.0

	import os
	import sys
	import unittest
	from pathlib import Path

	import torch

	from soma import SomaLayer

	ASSETS_DIR = Path("assets")


	class TestNovaDevice(unittest.TestCase):
	def setUp(self):
	self.data_root = "assets"
	if not ASSETS_DIR.is_dir():
	self.skipTest("Assets not found, skipping device test")
	if not (ASSETS_DIR / "SOMA_neutral.npz").is_file():
	self.skipTest("Core asset SOMA_neutral.npz not found")

	# Dummy inputs (identity/scale shapes are set in _make_inputs after layer creation)
	self.batch_size = 1
	self.num_joints = 77 # Nova skeleton
	self.pose = torch.zeros(self.batch_size, self.num_joints, 3)
	self.transl = torch.zeros(self.batch_size, 3)

	def _make_inputs(self, layer):
	"""Build identity_coeffs and scale_params from the layer's identity model."""
	im = layer.identity_model
	identity_coeffs = torch.zeros(self.batch_size, im.num_identity_coeffs)
	scale_params = None
	if im.num_scale_params is not None:
	scale_params = torch.zeros(self.batch_size, im.num_scale_params)
	return identity_coeffs, scale_params

	def test_cpu_initialization(self):
	"""Test initializing on CPU."""
	device = "cpu"
	model = SomaLayer(data_root=self.data_root, device=device, identity_model_type="mhr")
	identity_coeffs, scale_params = self._make_inputs(model)

	# Check if parameters are on CPU
	for param in model.parameters():
	self.assertEqual(param.device.type, "cpu")

	# Check if buffers are on CPU
	for buffer in model.buffers():
	self.assertEqual(buffer.device.type, "cpu")

	# Run forward pass
	out = model(
	self.pose.to(device),
	identity_coeffs.to(device),
	scale_params.to(device),
	self.transl.to(device),
	)
	self.assertTrue("vertices" in out)

	def test_cuda0_only(self):
	target_device = "cuda:0"
	print(f"Initializing on {target_device}...")
	model = SomaLayer(data_root=self.data_root, device=target_device, identity_model_type="mhr")
	identity_coeffs, scale_params = self._make_inputs(model)

	out = model(
	self.pose.to(target_device),
	identity_coeffs.to(target_device),
	scale_params.to(target_device),
	self.transl.to(target_device),
	)
	self.assertTrue("vertices" in out)

	def test_cuda1_only(self):
	if torch.cuda.device_count() < 2:
	self.skipTest("Need 2 GPUs")

	target_device = "cuda:1"
	print(f"Initializing on {target_device}...")
	model = SomaLayer(data_root=self.data_root, device=target_device, identity_model_type="mhr")
	identity_coeffs, scale_params = self._make_inputs(model)

	out = model(
	self.pose.to(target_device),
	identity_coeffs.to(target_device),
	scale_params.to(target_device),
	self.transl.to(target_device),
	)
	self.assertTrue("vertices" in out)

	def test_move_to_gpu(self):
	"""Test moving model from CPU to GPU."""
	if not torch.cuda.is_available():
	self.skipTest("CUDA not available")

	device = "cpu"
	if torch.cuda.is_available():
	target_device = "cuda:0"

	if torch.cuda.device_count() > 1:
	target_device2 = "cuda:1"

	print(f"\nInitializing on {device}...")
	model = SomaLayer(data_root=self.data_root, device=device, identity_model_type="mhr")
	identity_coeffs, scale_params = self._make_inputs(model)

	print(f"Moving to {target_device}...")
	model.to(target_device)

	# Check if parameters moved
	print("Checking parameters...")
	for name, param in model.named_parameters():
	self.assertEqual(param.device.type, "cuda", f"Parameter {name} is not on CUDA")

	# Check if buffers moved
	print("Checking buffers...")
	for name, buffer in model.named_buffers():
	self.assertEqual(buffer.device.type, "cuda", f"Buffer {name} is not on CUDA")

	# CRITICAL: Check if the internal device attribute matches
	# This is where we expect bad design to fail or be inconsistent
	print(f"Model internal device attribute: {model.device}")

	# Run forward pass on GPU
	print("Running forward pass on GPU...")
	try:
	out = model(
	self.pose.to(target_device),
	identity_coeffs.to(target_device),
	scale_params.to(target_device),
	self.transl.to(target_device),
	)
	self.assertTrue("vertices" in out)
	self.assertEqual(out["vertices"].device.type, "cuda")
	except RuntimeError as e:
	self.fail(f"Forward pass failed after moving to GPU: {e}")

	if torch.cuda.device_count() > 1:
	print(f"Moving to {target_device2}...")
	model.to(target_device2)
	out = model(
	self.pose.to(target_device2),
	identity_coeffs.to(target_device2),
	scale_params.to(target_device2),
	self.transl.to(target_device2),
	)

	def test_gpu_to_cpu_roundtrip(self):
	"""Simulate DDP teardown: model moved from GPU back to CPU."""
	if not torch.cuda.is_available():
	self.skipTest("CUDA not available")
	model = SomaLayer(data_root=self.data_root, device="cpu", identity_model_type="mhr")
	identity_coeffs, scale_params = self._make_inputs(model)
	model.to("cuda:0")
	try:
	model.cpu()
	except RuntimeError as e:
	self.fail(f"Moving SomaLayer from GPU to CPU failed (DDP teardown): {e}")
	# Verify forward pass on CPU still works
	out = model(self.pose, identity_coeffs, scale_params, self.transl)
	self.assertTrue("vertices" in out)


	class TestSkeletonTransferDevice(unittest.TestCase):
	"""Unit tests for SkeletonTransfer device transfer — no assets required."""

	def _make_skeleton_transfer(self, device="cpu"):
	from soma.geometry.skeleton_transfer import SkeletonTransfer

	J, V = 5, 20
	# Pass joint_parent_ids as a tensor to exercise the device-mismatch bug.
	joint_parent_ids = torch.tensor([0, 0, 1, 2, 3])
	bind_world_transforms = torch.eye(4).unsqueeze(0).repeat(J, 1, 1)
	bind_shape = torch.randn(V, 3)
	skinning_weights = torch.rand(V, J)
	skinning_weights /= skinning_weights.sum(dim=1, keepdim=True)
	return SkeletonTransfer(
	joint_parent_ids.to(device),
	bind_world_transforms.to(device),
	bind_shape.to(device),
	skinning_weights.to(device),
	use_warp_for_rotations=False,
	use_sparse_rbf_matrix=False,
	)

	def test_init_with_tensor_joint_parent_ids(self):
	"""joint_parent_ids passed as a CPU tensor must not cause device errors."""
	st = self._make_skeleton_transfer("cpu")
	self.assertIsNotNone(st.regressor_mask)

	def test_gpu_to_cpu_roundtrip(self):
	"""Simulates DDP teardown: SkeletonTransfer on GPU moved back to CPU."""
	if not torch.cuda.is_available():
	self.skipTest("CUDA not available")
	st = self._make_skeleton_transfer("cpu")
	st.to("cuda")
	try:
	st.cpu()
	except RuntimeError as e:
	self.fail(f"Moving SkeletonTransfer from GPU to CPU failed: {e}")

	def test_cpu_to_gpu_roundtrip(self):
	"""Moving from CPU to GPU and back must leave all buffers on CPU."""
	if not torch.cuda.is_available():
	self.skipTest("CUDA not available")
	st = self._make_skeleton_transfer("cpu")
	st.cuda()
	st.cpu()
	for name, buf in st.named_buffers():
	if buf is not None:
	self.assertEqual(
	buf.device.type, "cpu", f"Buffer {name} not on CPU after round-trip"
	)


	def _ddp_worker(rank, world_size, data_root, broadcast_buffers):
	"""Worker run in each DDP subprocess via mp.spawn."""
	# Must be set before CUDA / Warp initialize in the child process
	os.environ["PYTORCH_NO_CUDA_MEMORY_CACHING"] = "1"
	import warp as wp

	wp.config.enable_mempools_at_init = False

	import torch
	import torch.distributed as dist
	from torch.nn.parallel import DistributedDataParallel as DDP

	from soma import SomaLayer

	os.environ.setdefault("MASTER_ADDR", "127.0.0.1")
	os.environ.setdefault("MASTER_PORT", "29501")
	dist.init_process_group("nccl", rank=rank, world_size=world_size)
	try:
	device = torch.device(f"cuda:{rank}")
	soma = SomaLayer(data_root=data_root, device=device, identity_model_type="mhr")

	# Wrap in a model that has learnable params (more realistic DDP use-case)
	class _HeadModel(torch.nn.Module):
	def __init__(self, soma_layer):
	super().__init__()
	self.soma = soma_layer
	# Tiny learnable head so DDP has gradients to synchronize
	self.head = torch.nn.Linear(3, 1)

	def forward(self, pose, id_coeffs, scale_params, transl):
	out = self.soma(pose, id_coeffs, scale_params=scale_params, transl=transl)
	return self.head(out["vertices"].mean(dim=1)) # (B, 1)

	model = _HeadModel(soma).to(device)
	ddp_model = DDP(model, device_ids=[rank], broadcast_buffers=broadcast_buffers)

	batch_size = 1
	num_joints = 77
	im = soma.identity_model
	pose = torch.zeros(batch_size, num_joints, 3, device=device)
	id_coeffs = torch.zeros(batch_size, im.num_identity_coeffs, device=device)
	scale_params = torch.zeros(batch_size, im.num_scale_params, device=device)
	transl = torch.zeros(batch_size, 3, device=device)

	out = ddp_model(pose, id_coeffs, scale_params, transl)
	loss = out.sum()
	loss.backward() # syncs head gradients via DDP
	finally:
	dist.destroy_process_group()


	class TestDDPCompatibility(unittest.TestCase):
	"""Verify SomaLayer wrapped in DDP does not crash due to sparse tensor buffers."""

	@classmethod
	def setUpClass(cls):
	if sys.platform != "linux":
	raise unittest.SkipTest("DDP/NCCL tests require Linux")
	if not ASSETS_DIR.is_dir():
	raise unittest.SkipTest("Assets not found")
	if not torch.cuda.is_available():
	raise unittest.SkipTest("CUDA not available")
	cls.data_root = "assets"
	cls.world_size = min(2, torch.cuda.device_count())

	def _run_ddp(self, broadcast_buffers):
	import torch.multiprocessing as mp

	mp.spawn(
	_ddp_worker,
	args=(self.world_size, self.data_root, broadcast_buffers),
	nprocs=self.world_size,
	join=True,
	)

	def test_ddp_broadcast_buffers_false(self):
	"""DDP with broadcast_buffers=False: sparse tensor buffers not broadcast → should pass."""
	self._run_ddp(broadcast_buffers=False)

	def test_ddp_broadcast_buffers_true(self):
	"""DDP with broadcast_buffers=True (default): sparse buffers are plain attrs → should pass."""
	self._run_ddp(broadcast_buffers=True)


	if __name__ == "__main__":
	unittest.main()