1.2 / final1_2.py

Upload 2 files

7db50ad verified 9 months ago

34.3 kB

	# -- coding: utf-8 --
	"""final1.2.ipynb

	Automatically generated by Colab.

	Original file is located at
	https://colab.research.google.com/drive/1v6-6x7lqt6gr9VIauNVHIwjvIkewk8eT
	"""



	"""## FINAL 1.2"""



	pip install torchmetrics lpips

	# PyTorch, Torchvision
	import torch
	from torch import nn
	from torchvision.transforms import ToPILImage, ToTensor
	from torchvision.utils import make_grid
	from torchvision.io import write_video

	# Common
	from pathlib import Path
	from PIL import Image
	import numpy as np
	import matplotlib.pyplot as plt
	import random
	import json
	from IPython.display import Video

	# Utils from Torchvision
	tensor_to_image = ToPILImage()
	image_to_tensor = ToTensor()

	def get_img_dict(img_dir):
	img_files = [x for x in img_dir.iterdir() if x.name.endswith('.png') or x.name.endswith('.tiff')]
	img_files.sort()

	img_dict = {}
	for img_file in img_files:
	img_type = img_file.name.split('_')[0]
	if img_type not in img_dict:
	img_dict[img_type] = []
	img_dict[img_type].append(img_file)
	return img_dict


	def get_sample_dict(sample_dir):

	camera_dirs = [x for x in sample_dir.iterdir() if 'camera' in x.name]
	camera_dirs.sort()

	sample_dict = {}

	for cam_dir in camera_dirs:
	cam_dict = {}
	cam_dict['scene'] = get_img_dict(cam_dir)

	obj_dirs = [x for x in cam_dir.iterdir() if 'obj_' in x.name]
	obj_dirs.sort()

	for obj_dir in obj_dirs:
	cam_dict[obj_dir.name] = get_img_dict(obj_dir)

	sample_dict[cam_dir.name] = cam_dict

	return sample_dict

	!wget https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/test_obj_descriptors.json
	#Download Descriptors, Readme, etc.
	!wget https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/train_obj_descriptors.json
	!wget https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/ex_vis.mp4
	!wget https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/README.md
	!wget "https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/Notice%201%20-%20Unlimited_datasets.pdf"
	!wget https://huggingface.co/datasets/Amar-S/MOVi-MC-AC/resolve/main/.gitattributes
	#Test to see if you are on the right huggingface repo
	from huggingface_hub import HfApi, hf_hub_download
	import random, os
	api = HfApi()
	repo_id = "Amar-S/MOVi-MC-AC"
	# # List all files in the repo
	files = api.list_repo_files(repo_id=repo_id, repo_type="dataset")
	# # Separate train and test files
	train_files = [f for f in files if f.startswith("train/") and not f.endswith(".json")]
	test_files = [f for f in files if f.startswith("test/") and not f.endswith(".json")]
	print(f"Found {len(train_files)} train files and {len(test_files)} test files.")
	#Download 4% of Train/Test files
	import os
	import random
	import shutil
	from huggingface_hub import hf_hub_download
	os.makedirs("/content/data/train", exist_ok=True)
	os.makedirs("/content/data/test", exist_ok=True)
	# # Sample 4% of each split (as you were doing)
	subset_train = random.sample(train_files, int(len(train_files) * 0.005))
	subset_test = random.sample(test_files, int(len(test_files) * 0.005))
	# # Download the training files (uncomment and fix)
	for file in subset_train:
	out_path = hf_hub_download(repo_id=repo_id, repo_type="dataset", filename=file)
	dest_path = f"/content/data/train/{os.path.basename(file)}"
	shutil.copyfile(out_path, dest_path) # COPY the actual file content instead of renaming symlink
	# # Download the test files
	for file in subset_test:
	out_path = hf_hub_download(repo_id=repo_id, repo_type="dataset", filename=file)
	dest_path = f"/content/data/test/{os.path.basename(file)}"
	shutil.copyfile(out_path, dest_path) # COPY the actual file content here as well

	import os

	# Untar all files in data/train
	train_dir = "data/train"
	for file in os.listdir(train_dir):
	if file.endswith(".tar.gz"):
	filepath = os.path.join(train_dir, file)
	!tar -xzf {filepath} -C {train_dir}

	# Untar all files in data/test
	test_dir = "data/test"
	for file in os.listdir(test_dir):
	if file.endswith(".tar.gz"):
	filepath = os.path.join(test_dir, file)
	!tar -xzf {filepath} -C {test_dir}



	import os
	from pathlib import Path
	root = Path('/content/data') # or wherever your files live
	deleted = 0
	for archive in root.rglob('*.tar.gz'):
	try:
	archive.unlink()
	print(f"Deleted {archive}")
	deleted += 1
	except Exception as e:
	print(f"Error deleting {archive}: {e}")
	print(f"Total deleted: {deleted}")

	pip install torchmetrics lpips

	import matplotlib.pyplot as plt
	from torchmetrics.image import PeakSignalNoiseRatio, StructuralSimilarityIndexMeasure
	import lpips
	import matplotlib.pyplot as plt
	import torch

	def visualize_results(model, dataloader, device, num_samples=8):
	"""Visualize results with properly masked output (no background)"""
	model.eval()
	samples_shown = 0

	with torch.no_grad():
	for batch in dataloader:
	if samples_shown >= num_samples:
	break

	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	pred_masked = pred * amodal_mask # Remove background from prediction
	gt_masked = gt_amodal_rgb * amodal_mask # Ensure GT is also masked consistently

	for i in range(rgb.shape[0]):
	if samples_shown >= num_samples:
	break

	fig, axes = plt.subplots(1, 6, figsize=(24, 4))

	# Scene RGB
	axes[0].imshow(rgb[i].cpu().permute(1, 2, 0))
	axes[0].set_title('Scene RGB')
	axes[0].axis('off')

	# Amodal Mask
	axes[1].imshow(amodal_mask[i, 0].cpu(), cmap='gray')
	axes[1].set_title('Amodal Mask')
	axes[1].axis('off')

	# Modal Mask
	axes[2].imshow(modal_mask[i, 0].cpu(), cmap='gray')
	axes[2].set_title('Modal Mask')
	axes[2].axis('off')

	# Ground Truth Amodal RGB (masked)
	axes[3].imshow(gt_masked[i].cpu().permute(1, 2, 0))
	axes[3].set_title('GT Amodal RGB')
	axes[3].axis('off')

	# Predicted Amodal RGB (masked)
	axes[4].imshow(pred_masked[i].cpu().permute(1, 2, 0))
	axes[4].set_title('Predicted Amodal RGB')
	axes[4].axis('off')

	# Difference Heatmap
	diff = torch.abs(pred_masked[i] - gt_masked[i]).mean(dim=0)
	im = axes[5].imshow(diff.cpu(), cmap='hot')
	axes[5].set_title('Prediction Error')
	axes[5].axis('off')
	plt.colorbar(im, ax=axes[5])

	plt.tight_layout()
	plt.show()

	samples_shown += 1



	# STEP 4: Add this function for better evaluation:
	def evaluate_metrics(model, dataloader, device):
	"""Compute evaluation metrics only within object regions"""
	model.eval()
	total_mse = 0
	occluded_mse = 0
	visible_mse = 0
	total_pixels = 0
	occluded_pixels = 0
	visible_pixels = 0

	with torch.no_grad():
	for batch in dataloader:
	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	occluded_mask = batch['occluded_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	# Mask both prediction and ground truth to object regions only
	pred_masked = pred * amodal_mask
	gt_masked = gt_amodal_rgb * amodal_mask

	# Overall MSE within object region
	object_pixels = amodal_mask.sum()
	if object_pixels > 0:
	mse = F.mse_loss(pred_masked, gt_masked, reduction='sum')
	total_mse += mse.item()
	total_pixels += object_pixels.item()

	# Occluded region MSE
	occluded_region = occluded_mask * amodal_mask
	occ_pixels = occluded_region.sum()
	if occ_pixels > 0:
	occ_mse = F.mse_loss(pred_masked * occluded_region,
	gt_masked * occluded_region, reduction='sum')
	occluded_mse += occ_mse.item()
	occluded_pixels += occ_pixels.item()

	# Visible region MSE
	visible_region = modal_mask * amodal_mask
	vis_pixels = visible_region.sum()
	if vis_pixels > 0:
	vis_mse = F.mse_loss(pred_masked * visible_region,
	gt_masked * visible_region, reduction='sum')
	visible_mse += vis_mse.item()
	visible_pixels += vis_pixels.item()

	return {
	'total_mse': total_mse / total_pixels if total_pixels > 0 else 0,
	'occluded_mse': occluded_mse / occluded_pixels if occluded_pixels > 0 else 0,
	'visible_mse': visible_mse / visible_pixels if visible_pixels > 0 else 0,
	}



	def calculate_metrics(model, dataloader, device):
	"""Computes PSNR, SSIM, LPIPS, and IoU between predictions and GT amodal RGBs."""

	model.eval()
	psnr = PeakSignalNoiseRatio().to(device)
	ssim = StructuralSimilarityIndexMeasure().to(device)
	lpips_loss = lpips.LPIPS(net='alex').to(device)

	total_psnr, total_ssim, total_lpips = 0, 0, 0
	total_iou = 0
	count = 0

	with torch.no_grad():
	for batch in dataloader:
	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	pred_masked = pred * amodal_mask
	gt_masked = gt_amodal_rgb * amodal_mask

	for i in range(pred.shape[0]):
	pred_i = pred_masked[i].unsqueeze(0)
	gt_i = gt_masked[i].unsqueeze(0)

	# Resize for LPIPS if necessary (it requires >= 64x64)
	if pred_i.shape[-1] < 64 or pred_i.shape[-2] < 64:
	continue

	total_psnr += psnr(pred_i, gt_i).item()
	total_ssim += ssim(pred_i, gt_i).item()
	total_lpips += lpips_loss(pred_i, gt_i).item()

	# mIoU between masks
	intersection = (amodal_mask[i] * (pred[i] > 0.5)).sum()
	union = ((amodal_mask[i] + (pred[i] > 0.5)) > 0).sum()
	if union > 0:
	iou = intersection.float() / union.float()
	total_iou += iou.item()

	count += 1

	if count == 0:
	return {"psnr": 0, "ssim": 0, "lpips": 0, "miou": 0}

	return {
	"psnr": total_psnr / count,
	"ssim": total_ssim / count,
	"lpips": total_lpips / count,
	"miou": total_iou / count
	}

	pip install torchmetrics lpips

	import matplotlib.pyplot as plt
	from torchmetrics.image import PeakSignalNoiseRatio, StructuralSimilarityIndexMeasure
	import lpips
	import matplotlib.pyplot as plt
	import torch

	def visualize_results(model, dataloader, device, num_samples=8):
	"""Visualize results with properly masked output (no background)"""
	model.eval()
	samples_shown = 0

	with torch.no_grad():
	for batch in dataloader:
	if samples_shown >= num_samples:
	break

	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	pred_masked = pred * amodal_mask # Remove background from prediction
	gt_masked = gt_amodal_rgb * amodal_mask # Ensure GT is also masked consistently

	for i in range(rgb.shape[0]):
	if samples_shown >= num_samples:
	break

	fig, axes = plt.subplots(1, 6, figsize=(24, 4))

	# Scene RGB
	axes[0].imshow(rgb[i].cpu().permute(1, 2, 0))
	axes[0].set_title('Scene RGB')
	axes[0].axis('off')

	# Amodal Mask
	axes[1].imshow(amodal_mask[i, 0].cpu(), cmap='gray')
	axes[1].set_title('Amodal Mask')
	axes[1].axis('off')

	# Modal Mask
	axes[2].imshow(modal_mask[i, 0].cpu(), cmap='gray')
	axes[2].set_title('Modal Mask')
	axes[2].axis('off')

	# Ground Truth Amodal RGB (masked)
	axes[3].imshow(gt_masked[i].cpu().permute(1, 2, 0))
	axes[3].set_title('GT Amodal RGB')
	axes[3].axis('off')

	# Predicted Amodal RGB (masked)
	axes[4].imshow(pred_masked[i].cpu().permute(1, 2, 0))
	axes[4].set_title('Predicted Amodal RGB')
	axes[4].axis('off')

	# Difference Heatmap
	diff = torch.abs(pred_masked[i] - gt_masked[i]).mean(dim=0)
	im = axes[5].imshow(diff.cpu(), cmap='hot')
	axes[5].set_title('Prediction Error')
	axes[5].axis('off')
	plt.colorbar(im, ax=axes[5])

	plt.tight_layout()
	plt.show()

	samples_shown += 1


	def evaluate_metrics(model, dataloader, device):
	"""Compute evaluation metrics only within object regions"""
	model.eval()
	total_mse = 0
	occluded_mse = 0
	visible_mse = 0
	total_pixels = 0
	occluded_pixels = 0
	visible_pixels = 0

	with torch.no_grad():
	for batch in dataloader:
	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	occluded_mask = batch['occluded_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	# Mask both prediction and ground truth to object regions only
	pred_masked = pred * amodal_mask
	gt_masked = gt_amodal_rgb * amodal_mask

	# Overall MSE within object region
	object_pixels = amodal_mask.sum()
	if object_pixels > 0:
	mse = F.mse_loss(pred_masked, gt_masked, reduction='sum')
	total_mse += mse.item()
	total_pixels += object_pixels.item()

	# Occluded region MSE
	occluded_region = occluded_mask * amodal_mask
	occ_pixels = occluded_region.sum()
	if occ_pixels > 0:
	occ_mse = F.mse_loss(pred_masked * occluded_region,
	gt_masked * occluded_region, reduction='sum')
	occluded_mse += occ_mse.item()
	occluded_pixels += occ_pixels.item()

	# Visible region MSE
	visible_region = modal_mask * amodal_mask
	vis_pixels = visible_region.sum()
	if vis_pixels > 0:
	vis_mse = F.mse_loss(pred_masked * visible_region,
	gt_masked * visible_region, reduction='sum')
	visible_mse += vis_mse.item()
	visible_pixels += vis_pixels.item()

	return {
	'total_mse': total_mse / total_pixels if total_pixels > 0 else 0,
	'occluded_mse': occluded_mse / occluded_pixels if occluded_pixels > 0 else 0,
	'visible_mse': visible_mse / visible_pixels if visible_pixels > 0 else 0,
	}



	def calculate_metrics(model, dataloader, device):
	"""Computes PSNR, SSIM, LPIPS, and IoU between predictions and GT amodal RGBs."""

	model.eval()
	psnr = PeakSignalNoiseRatio().to(device)
	ssim = StructuralSimilarityIndexMeasure().to(device)
	lpips_loss = lpips.LPIPS(net='alex').to(device)

	total_psnr, total_ssim, total_lpips = 0, 0, 0
	total_iou = 0
	count = 0

	with torch.no_grad():
	for batch in dataloader:
	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)
	pred = model(input_tensor)

	pred_masked = pred * amodal_mask
	gt_masked = gt_amodal_rgb * amodal_mask

	for i in range(pred.shape[0]):
	pred_i = pred_masked[i].unsqueeze(0)
	gt_i = gt_masked[i].unsqueeze(0)

	# Resize for LPIPS if necessary (it requires >= 64x64)
	if pred_i.shape[-1] < 64 or pred_i.shape[-2] < 64:
	continue

	total_psnr += psnr(pred_i, gt_i).item()
	total_ssim += ssim(pred_i, gt_i).item()
	total_lpips += lpips_loss(pred_i, gt_i).item()

	# mIoU between masks
	intersection = (amodal_mask[i] * (pred[i] > 0.5)).sum()
	union = ((amodal_mask[i] + (pred[i] > 0.5)) > 0).sum()
	if union > 0:
	iou = intersection.float() / union.float()
	total_iou += iou.item()

	count += 1

	if count == 0:
	return {"psnr": 0, "ssim": 0, "lpips": 0, "miou": 0}

	return {
	"psnr": total_psnr / count,
	"ssim": total_ssim / count,
	"lpips": total_lpips / count,
	"miou": total_iou / count
	}




	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import Dataset, DataLoader
	from torchvision import transforms
	from pathlib import Path
	from PIL import Image, ImageChops
	import numpy as np

	class ModalAmodalDataset(Dataset):
	def __init__(self, root_dir, split, img_size=(128, 128), max_samples=None, val_split=0.2, use_val_from_train=False):
	self.root_dir = Path(root_dir)
	self.img_size = img_size
	self.max_samples = max_samples
	self.val_split = val_split
	self.use_val_from_train = use_val_from_train
	self.split = split

	if split == 'val' and use_val_from_train:
	# Load from train folder but use validation subset
	self.root_dir = self.root_dir / 'train'
	else:
	self.root_dir = self.root_dir / split

	self.samples = self._build_sample_index()

	self.rgb_transform = transforms.Compose([
	transforms.Resize(img_size),
	transforms.ToTensor(),
	])
	self.mask_transform = transforms.Compose([
	transforms.Resize(img_size),
	transforms.ToTensor(),
	])

	def _build_sample_index(self):
	samples = []
	for scene_dir in self.root_dir.iterdir():
	if not scene_dir.is_dir():
	continue
	for camera_dir in scene_dir.iterdir():
	if not camera_dir.name.startswith('camera_'):
	continue

	rgba_paths = sorted(camera_dir.glob('rgba_*.png'))
	seg_paths = sorted(camera_dir.glob('segmentation_*.png'))

	for obj_dir in camera_dir.iterdir():
	if not obj_dir.name.startswith('obj_'):
	continue

	amodal_paths = sorted(obj_dir.glob('segmentation_*.png'))
	amodal_rgb_paths = sorted(obj_dir.glob('rgba_*.png'))

	if not (len(rgba_paths) == len(seg_paths) == len(amodal_paths) == len(amodal_rgb_paths)):
	continue

	for rgba_path, seg_path, amodal_path, amodal_rgb_path in zip(
	rgba_paths, seg_paths, amodal_paths, amodal_rgb_paths
	):
	samples.append({
	'rgb_path': rgba_path,
	'seg_path': seg_path,
	'amodal_path': amodal_path,
	'amodal_rgb_path': amodal_rgb_path,
	'object_id': int(obj_dir.name.split('_')[1]),
	'scene': scene_dir.name,
	'camera': camera_dir.name
	})

	# Limit dataset size if specified
	if self.max_samples is not None and len(samples) > self.max_samples:
	# Randomly sample to get diverse examples
	import random
	random.seed(42) # For reproducibility
	samples = random.sample(samples, self.max_samples)
	print(f"Dataset limited to {len(samples)} samples")

	# Create train/val split if using validation from train
	if self.use_val_from_train:
	import random
	random.seed(42) # Ensure reproducible splits
	random.shuffle(samples)

	val_size = int(len(samples) * self.val_split)
	if self.split == 'train':
	samples = samples[val_size:] # Use remaining samples for training
	print(f"Train split: {len(samples)} samples")
	elif self.split == 'val':
	samples = samples[:val_size] # Use first samples for validation
	print(f"Validation split: {len(samples)} samples")

	return samples

	def __len__(self):
	return len(self.samples)

	def __getitem__(self, idx):
	sample = self.samples[idx]

	# Load images
	rgb = Image.open(sample['rgb_path']).convert('RGB')
	seg_map = np.array(Image.open(sample['seg_path']))
	amodal_mask_img = Image.open(sample['amodal_path']).convert('L')
	amodal_rgb = Image.open(sample['amodal_rgb_path']).convert('RGB')

	# Compute modal mask (visible part)
	modal_mask_np = (seg_map == sample['object_id']).astype(np.uint8) * 255
	modal_mask_img = Image.fromarray(modal_mask_np, mode='L')

	# Transform images and masks
	rgb = self.rgb_transform(rgb)
	modal_mask = self.mask_transform(modal_mask_img)
	amodal_mask = self.mask_transform(amodal_mask_img)
	amodal_rgb = self.rgb_transform(amodal_rgb)

	# Create occluded mask (parts that are hidden)
	occluded_mask = amodal_mask - modal_mask
	occluded_mask = torch.clamp(occluded_mask, 0, 1)

	return {
	'rgb': rgb,
	'modal_mask': modal_mask,
	'amodal_mask': amodal_mask,
	'occluded_mask': occluded_mask,
	'amodal_rgb': amodal_rgb,
	}


	class ImprovedUNet(nn.Module):

	def __init__(self, in_channels=5, out_channels=3): # RGB + modal_mask + amodal_mask
	super().__init__()

	def conv_block(in_ch, out_ch, dropout=0.1):
	return nn.Sequential(
	nn.Conv2d(in_ch, out_ch, 3, padding=1),
	nn.BatchNorm2d(out_ch),
	nn.ReLU(inplace=True),
	nn.Dropout2d(dropout),
	nn.Conv2d(out_ch, out_ch, 3, padding=1),
	nn.BatchNorm2d(out_ch),
	nn.ReLU(inplace=True)
	)

	# Encoder
	self.down1 = conv_block(in_channels, 64)
	self.pool1 = nn.MaxPool2d(2)
	self.down2 = conv_block(64, 128)
	self.pool2 = nn.MaxPool2d(2)
	self.down3 = conv_block(128, 256)
	self.pool3 = nn.MaxPool2d(2)
	self.down4 = conv_block(256, 512)
	self.pool4 = nn.MaxPool2d(2)

	# Bottleneck
	self.middle = conv_block(512, 1024, dropout=0.2)

	# Decoder
	self.up1 = nn.ConvTranspose2d(1024, 512, 2, stride=2)
	self.up_block1 = conv_block(1024, 512)
	self.up2 = nn.ConvTranspose2d(512, 256, 2, stride=2)
	self.up_block2 = conv_block(512, 256)
	self.up3 = nn.ConvTranspose2d(256, 128, 2, stride=2)
	self.up_block3 = conv_block(256, 128)
	self.up4 = nn.ConvTranspose2d(128, 64, 2, stride=2)
	self.up_block4 = conv_block(128, 64)

	self.final = nn.Conv2d(64, out_channels, 1)

	def forward(self, x):
	# Encoder
	d1 = self.down1(x)
	d2 = self.down2(self.pool1(d1))
	d3 = self.down3(self.pool2(d2))
	d4 = self.down4(self.pool3(d3))

	# Bottleneck
	m = self.middle(self.pool4(d4))

	# Decoder with skip connections
	u1 = self.up_block1(torch.cat([self.up1(m), d4], dim=1))
	u2 = self.up_block2(torch.cat([self.up2(u1), d3], dim=1))
	u3 = self.up_block3(torch.cat([self.up3(u2), d2], dim=1))
	u4 = self.up_block4(torch.cat([self.up4(u3), d1], dim=1))

	return torch.sigmoid(self.final(u4)) # Ensure output is in [0,1]

	class AmodalCompletionLoss(nn.Module):
	"""Loss that only considers object regions (ignores background)"""

	def __init__(self, occluded_weight=5.0, visible_weight=1.0):
	super().__init__()
	self.occluded_weight = occluded_weight
	self.visible_weight = visible_weight
	self.lpips_model = lpips.LPIPS(net='alex')

	def forward(self, pred, target, modal_mask, occluded_mask, amodal_mask):
	# Only compute loss within the amodal mask (object region)
	device = pred.device
	self.lpips_model = self.lpips_model.to(device)

	pred_masked = pred * amodal_mask
	target_masked = target * amodal_mask



	# Loss on visible parts (within object)
	visible_region = modal_mask * amodal_mask
	if visible_region.sum() > 0:
	visible_loss = F.mse_loss(pred_masked * visible_region, target_masked * visible_region)
	else:
	visible_loss = torch.tensor(0.0).to(pred.device)

	# Loss on occluded parts (within object)
	occluded_region = occluded_mask * amodal_mask
	if occluded_region.sum() > 0:
	occluded_loss = F.mse_loss(pred_masked * occluded_region, target_masked * occluded_region)
	else:
	occluded_loss = torch.tensor(0.0).to(pred.device)


	perceptual_loss = self.lpips_model(pred_masked, target_masked).mean()

	# Boundary consistency within object
	boundary_mask = F.conv2d(amodal_mask, torch.ones(1,1,3,3).to(amodal_mask.device), padding=1)
	boundary_mask = ((boundary_mask > 0) & (boundary_mask < 9)).float()
	boundary_loss = F.mse_loss(pred_masked * boundary_mask, target_masked * boundary_mask)

	total_loss = (self.visible_weight * visible_loss +
	self.occluded_weight * occluded_loss +
	2.0 * boundary_loss)

	return total_loss, visible_loss, occluded_loss, boundary_loss


	def train_improved(model, dataloader, optimizer, device, num_epochs):
	model.train()
	criterion = AmodalCompletionLoss()

	for epoch in range(num_epochs):
	total_loss = 0
	for i, batch in enumerate(dataloader):
	rgb = batch['rgb'].to(device)
	modal_mask = batch['modal_mask'].to(device)
	amodal_mask = batch['amodal_mask'].to(device)
	occluded_mask = batch['occluded_mask'].to(device)
	gt_amodal_rgb = batch['amodal_rgb'].to(device)

	input_tensor = torch.cat([rgb, modal_mask, amodal_mask], dim=1)

	optimizer.zero_grad()
	pred = model(input_tensor)

	loss, vis_loss, occ_loss, boundary_loss = criterion(
	pred, gt_amodal_rgb, modal_mask, occluded_mask, amodal_mask
	)

	loss.backward()
	optimizer.step()
	total_loss += loss.item()

	if i % 16 == 0:
	print(f"Epoch [{epoch}/{num_epochs}] [{i}/{len(dataloader)}] "
	f"Total: {loss.item():.4f}, Visible: {vis_loss.item():.4f}, "
	f"Occluded: {occ_loss.item():.4f}, Boundary: {boundary_loss.item():.4f}")

	print(f"Epoch {epoch} Average Loss: {total_loss/len(dataloader):.4f}")

	# Usage
	if __name__ == "__main__":
	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

	# Dataset and DataLoader - REDUCED SIZE FOR FASTER TRAINING
	data_root = "data"

	# Create train dataset (80% of train folder)
	train_dataset = ModalAmodalDataset(
	root_dir=data_root,
	split='train',
	img_size=(128, 128),
	max_samples=1000, # Only use 1000 samples total before split
	val_split=0.2, # 20% for validation
	use_val_from_train=True # Create val split from train folder
	)
	train_loader = DataLoader(
	train_dataset,
	batch_size=16,
	shuffle=True,
	num_workers=2,
	pin_memory=True,
	drop_last=True
	)

	# Create validation dataset (20% of train folder)
	val_dataset = ModalAmodalDataset(
	root_dir=data_root,
	split='val',
	img_size=(128, 128),
	max_samples=1000, # Same max_samples to ensure proper split
	val_split=0.2,
	use_val_from_train=True # Create val split from train folder
	)
	val_loader = DataLoader(
	val_dataset,
	batch_size=4,
	shuffle=True,
	num_workers=2,
	pin_memory=True
	)

	print(f"Training on {len(train_dataset)} samples, {len(train_loader)} batches per epoch")
	print(f"Validation on {len(val_dataset)} samples, {len(val_loader)} batches")




	model = ImprovedUNet().to(device)
	model.load_state_dict(torch.load('amodal_completion_model.pth', map_location=device))






	# Model and optimizer
	model = model.to(device)
	optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=1e-4)

	# Training
	#train_improved(model, train_loader, optimizer, device, num_epochs=10)

	# Evaluation and Visualization
	print("\n" + "="*50)
	print("EVALUATION RESULTS")
	print("="*50)

	# Compute metrics
	metrics = evaluate_metrics(model, val_loader, device)
	print(f"Overall MSE: {metrics['total_mse']:.6f}")
	print(f"Occluded Region MSE: {metrics['occluded_mse']:.6f}")
	print(f"Visible Region MSE: {metrics['visible_mse']:.6f}")
	print(f"Occluded/Visible MSE Ratio: {metrics['occluded_mse']/metrics['visible_mse']:.2f}")

	# Visualize results
	print("\nGenerating visualizations...")
	visualize_results(model, val_loader, device, num_samples=8)

	# Compute metrics
	image_metrics = calculate_metrics(model, val_loader, device)
	print(f"PSNR: {image_metrics['psnr']:.4f}")
	print(f"SSIM: {image_metrics['ssim']:.4f}")
	print(f"LPIPS: {image_metrics['lpips']:.4f}")
	print(f"mIoU (pred vs GT): {image_metrics['miou']:.4f}")

	# Dataset and DataLoader - REDUCED SIZE FOR FASTER TRAINING
	data_root = "data"

	# Create train dataset (80% of train folder)
	train_dataset = ModalAmodalDataset(
	root_dir=data_root,
	split='train',
	img_size=(128, 128),
	max_samples=1000, # Only use 1000 samples total before split
	val_split=0.2, # 20% for validation
	use_val_from_train=True # Create val split from train folder
	)
	train_loader = DataLoader(
	train_dataset,
	batch_size=16,
	shuffle=True,
	num_workers=2,
	pin_memory=True,
	drop_last=True
	)

	# Create validation dataset (20% of train folder)
	val_dataset = ModalAmodalDataset(
	root_dir=data_root,
	split='val',
	img_size=(128, 128),
	max_samples=1000, # Same max_samples to ensure proper split
	val_split=0.2,
	use_val_from_train=True # Create val split from train folder
	)
	val_loader = DataLoader(
	val_dataset,
	batch_size=4,
	shuffle=True,
	num_workers=2,
	pin_memory=True
	)

	# Optional: Save model
	torch.save(model.state_dict(), 'amodal_completion_model.pth')

	# Evaluation and Visualization

	test_dataset = ModalAmodalDataset(
	root_dir=data_root,
	split='test',
	img_size=(128, 128),
	max_samples=2000 # Only use 1000 samples total before split
	)
	test_loader = DataLoader(
	test_dataset,
	batch_size=8,
	shuffle=True,
	num_workers=2,
	pin_memory=True,
	drop_last=True
	)

	print("EVALUATION RESULTS")
	print("="*50)

	# Compute metrics
	metrics = evaluate_metrics(model, test_loader, device)
	print(f"Overall MSE: {metrics['total_mse']:.6f}")
	print(f"Occluded Region MSE: {metrics['occluded_mse']:.6f}")
	print(f"Visible Region MSE: {metrics['visible_mse']:.6f}")
	print(f"Occluded/Visible MSE Ratio: {metrics['occluded_mse']/metrics['visible_mse']:.2f}")

	# Visualize results
	print("\nGenerating visualizations...")
	visualize_results(model, test_loader, device, num_samples=16)

	from google.colab import runtime
	runtime.unassign()

	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	model = ImprovedUNet() # replace with actual class name
	torch.load('amodal_completion_model.pth', map_location=torch.device('cpu'))
	model.to(device)
	model.eval()

	# Evaluation and Visualization
	print("\n" + "="*50)
	print("EVALUATION RESULTS")
	print("="*50)

	# Compute metrics
	metrics = evaluate_metrics(model, val_loader, device)
	print(f"Overall MSE: {metrics['total_mse']:.6f}")
	print(f"Occluded Region MSE: {metrics['occluded_mse']:.6f}")
	print(f"Visible Region MSE: {metrics['visible_mse']:.6f}")
	print(f"Occluded/Visible MSE Ratio: {metrics['occluded_mse']/metrics['visible_mse']:.2f}")

	# Visualize results
	print("\nGenerating visualizations...")
	visualize_results(model, val_loader, device, num_samples=8)

	# Compute metrics
	image_metrics = calculate_metrics(model, val_loader, device)
	print(f"PSNR: {image_metrics['psnr']:.4f}")
	print(f"SSIM: {image_metrics['ssim']:.4f}")
	print(f"LPIPS: {image_metrics['lpips']:.4f}")
	print(f"mIoU (pred vs GT): {image_metrics['miou']:.4f}")

	model = ImprovedUNet()
	model.eval()