C2MT / dataloader_animal10N.py

LanXiaoPang613

Add files via upload

3a7e930 unverified almost 2 years ago

8.31 kB

	from torch.utils.data import Dataset, DataLoader
	import torchvision.transforms as transforms
	import random
	import numpy as np
	from PIL import Image
	import json
	import torch
	import os
	import matplotlib

	def unpickle(file):
	fo = open(file, 'rb').read()
	size = 64 * 64 * 3 + 1
	for i in range(50000):
	arr = np.fromstring(fo[i * size:(i + 1) * size], dtype=np.uint8)
	lab = np.identity(10)[arr[0]]
	img = arr[1:].reshape((3, 64, 64)).transpose((1, 2, 0))
	return img, lab

	class animal_dataset(Dataset):
	def __init__(self, root, transform, mode, pred=[], path=[], probability=[], num_class=10):

	self.root = root
	self.transform = transform
	self.mode = mode

	self.train_dir = root + '/training/'
	self.test_dir = root + '/testing/'
	train_imgs = os.listdir(self.train_dir)
	test_imgs = os.listdir(self.test_dir)
	self.test_data = []
	self.test_labels = []
	noise_file1 = './training_batch.json'
	noise_file2 = './testing_batch.json'
	if mode == 'test':
	if os.path.exists(noise_file2):
	dict = json.load(open(noise_file2, "r"))
	self.test_labels = dict['data']
	self.test_data = dict['label']
	else:
	for img in test_imgs:
	self.test_data.append(self.test_dir+img)
	self.test_labels.append(int(img[0]))
	dicts = {}
	dicts['data'] = self.test_data
	dicts['label'] = self.test_labels
	# json.dump(dicts, open(noise_file2, "w"))
	else:
	if os.path.exists(noise_file1):
	dict = json.load(open(noise_file1, "r"))
	train_data = dict['data']
	train_labels = dict['label']
	else:
	train_data = []
	train_labels = {}
	for img in train_imgs:
	img_path = self.train_dir+img
	train_data.append(img_path)
	train_labels[img_path] = (int(img[0]))
	dicts = {}
	dicts['data'] = train_data
	dicts['label'] = train_labels
	# json.dump(dicts, open(noise_file1, "w"))
	if self.mode == "all":
	self.train_data = train_data
	self.train_labels = train_labels
	elif self.mode == "labeled":
	pred_idx = pred.nonzero()[0]
	train_img = path
	self.train_data = [train_img[i] for i in pred_idx]
	self.probability = probability[pred_idx]
	# self.train_labels = train_labels[pred_idx]
	print("%s data has a size of %d" % (self.mode, len(self.train_data)))
	self.train_labels = train_labels
	elif self.mode == "unlabeled":
	pred_idx = (1 - pred).nonzero()[0]
	train_img = path
	self.train_data = [train_img[i] for i in pred_idx]
	self.probability = probability[pred_idx]
	# self.train_labels = train_labels[pred_idx]
	print("%s data has a size of %d" % (self.mode, len(self.train_data)))
	self.train_labels = train_labels

	def __getitem__(self, index):
	if self.mode == 'labeled':
	img_path = self.train_data[index]
	target = self.train_labels[img_path]
	prob = self.probability[index]
	image = Image.open(img_path).convert('RGB')
	img1 = self.transform(image)
	img2 = self.transform(image)
	return img1, img2, target, prob
	elif self.mode == 'unlabeled':
	img_path = self.train_data[index]
	image = Image.open(img_path).convert('RGB')
	img1 = self.transform(image)
	img2 = self.transform(image)
	return img1, img2
	elif self.mode == 'all':
	img_path = self.train_data[index]
	target = self.train_labels[img_path]
	image = Image.open(img_path).convert('RGB')
	img = self.transform(image)
	return img, target,img_path
	elif self.mode == 'test':
	img_path = self.test_data[index]
	target = self.test_labels[index]
	image = Image.open(img_path).convert('RGB')
	img = self.transform(image)
	return img, target

	def __len__(self):
	if self.mode == 'test':
	return len(self.test_data)
	else:
	return len(self.train_data)


	class animal_dataloader():
	def __init__(self, root='E:/2_Dataset_All/Animal-10N', batch_size=32, num_workers=0):
	self.batch_size = batch_size
	self.num_workers = num_workers
	self.root = root

	self.transform_train = transforms.Compose([
	transforms.Resize(64),
	transforms.RandomCrop(64),
	transforms.RandomHorizontalFlip(),
	transforms.ToTensor(),
	transforms.Normalize((0.6959, 0.6537, 0.6371), (0.3113, 0.3192, 0.3214)),
	])
	self.transform_test = transforms.Compose([
	# transforms.Resize(64),
	# transforms.CenterCrop(64),
	transforms.ToTensor(),
	transforms.Normalize((0.6959, 0.6537, 0.6371), (0.3113, 0.3192, 0.3214)),
	])

	def run(self, mode, pred=[], prob=[], paths=[]):
	if mode == 'warmup':
	warmup_dataset = animal_dataset(self.root, transform=self.transform_train, mode='all')
	warmup_loader = DataLoader(
	dataset=warmup_dataset,
	batch_size=self.batch_size * 2,
	shuffle=True,
	num_workers=self.num_workers,
	pin_memory=True)
	return warmup_loader
	elif mode == 'train':
	labeled_dataset = animal_dataset(self.root, transform=self.transform_train, mode='labeled', pred=pred, path=paths,
	probability=prob)
	labeled_loader = DataLoader(
	dataset=labeled_dataset,
	batch_size=self.batch_size,
	shuffle=True,
	num_workers=self.num_workers,
	pin_memory=True)
	unlabeled_dataset = animal_dataset(self.root, transform=self.transform_train, mode='unlabeled', pred=pred,path=paths,
	probability=prob)
	unlabeled_loader = DataLoader(
	dataset=unlabeled_dataset,
	batch_size=int(self.batch_size),
	shuffle=True,
	num_workers=self.num_workers,
	pin_memory=True)
	return labeled_loader, unlabeled_loader
	elif mode == 'eval_train':
	eval_dataset = animal_dataset(self.root, transform=self.transform_test, mode='all')
	eval_loader = DataLoader(
	dataset=eval_dataset,
	batch_size=self.batch_size,
	shuffle=False,
	num_workers=self.num_workers,
	pin_memory=True)
	return eval_loader
	elif mode == 'test':
	test_dataset = animal_dataset(self.root, transform=self.transform_test, mode='test')
	test_loader = DataLoader(
	dataset=test_dataset,
	batch_size=1000,
	shuffle=False,
	num_workers=self.num_workers,
	pin_memory=True)
	return test_loader

	# if __name__ == '__main__':
	# loader = animal_dataloader()
	# train_loader = loader.run('warmup')
	# import matplotlib.pyplot as plt
	# for batch_idx, (inputs, labels, idx, img_path) in enumerate(train_loader):
	# print(img_path[0])
	# plt.figure(dpi=300)
	# # plt.imshow(inputs[0])
	# plt.imshow(inputs[0].reshape(64, 64, 3))
	# plt.show()
	# plt.close()
	# print(inputs.shape())
	# print(idx)
	# print(labels, len(labels))
	# # print(train_loader.dataset.__len__())