Spaces:

mapitanywhere
/

MapItAnywhereModel

Building

MapItAnywhereModel / mapper /data /nuscenes /dataset.py

hocherie

add files

4187c6f 7 months ago

7.86 kB

	import os
	import torch
	import numpy as np
	from pyquaternion import Quaternion
	from nuscenes.nuscenes import NuScenes
	from itertools import chain
	from PIL import Image
	from torchvision import transforms as T
	import torchvision.transforms as tvf
	from torchvision.transforms.functional import to_tensor

	from .splits_roddick import create_splits_scenes_roddick
	from ..image import pad_image, rectify_image, resize_image
	from .utils import decode_binary_labels
	from ..utils import decompose_rotmat
	from ...utils.io import read_image
	from ...utils.wrappers import Camera
	from ..schema import NuScenesDataConfiguration


	class NuScenesDataset(torch.utils.data.Dataset):
	def __init__(self, cfg: NuScenesDataConfiguration, split="train"):

	self.cfg = cfg
	self.nusc = NuScenes(version=cfg.version, dataroot=str(cfg.data_dir))
	self.map_data_root = cfg.map_dir
	self.split = split

	self.scenes = create_splits_scenes_roddick() # custom based on Roddick et al.

	scene_split = {
	'v1.0-trainval': {'train': 'train', 'val': 'val', 'test': 'val'},
	'v1.0-mini': {'train': 'mini_train', 'val': 'mini_val'},
	}[cfg.version][split]
	self.scenes = self.scenes[scene_split]
	self.sample = list(filter(lambda sample: self.nusc.get(
	'scene', sample['scene_token'])['name'] in self.scenes, self.nusc.sample))

	self.tfs = self.get_augmentations() if split == "train" else T.Compose([])

	data_tokens = []
	for sample in self.sample:
	data_token = sample['data']
	data_token = [v for k,v in data_token.items() if k == "CAM_FRONT"]

	data_tokens.append(data_token)

	data_tokens = list(chain.from_iterable(data_tokens))
	data = [self.nusc.get('sample_data', token) for token in data_tokens]

	self.data = []
	for d in data:
	sample = self.nusc.get('sample', d['sample_token'])
	scene = self.nusc.get('scene', sample['scene_token'])
	location = self.nusc.get('log', scene['log_token'])['location']

	file_name = d['filename']
	ego_pose = self.nusc.get('ego_pose', d['ego_pose_token'])
	calibrated_sensor = self.nusc.get(
	"calibrated_sensor", d['calibrated_sensor_token'])

	ego2global = np.eye(4).astype(np.float32)
	ego2global[:3, :3] = Quaternion(ego_pose['rotation']).rotation_matrix
	ego2global[:3, 3] = ego_pose['translation']

	sensor2ego = np.eye(4).astype(np.float32)
	sensor2ego[:3, :3] = Quaternion(
	calibrated_sensor['rotation']).rotation_matrix
	sensor2ego[:3, 3] = calibrated_sensor['translation']

	sensor2global = ego2global @ sensor2ego

	rotation = sensor2global[:3, :3]
	roll, pitch, yaw = decompose_rotmat(rotation)

	fx = calibrated_sensor['camera_intrinsic'][0][0]
	fy = calibrated_sensor['camera_intrinsic'][1][1]
	cx = calibrated_sensor['camera_intrinsic'][0][2]
	cy = calibrated_sensor['camera_intrinsic'][1][2]
	width = d['width']
	height = d['height']

	cam = Camera(torch.tensor(
	[width, height, fx, fy, cx - 0.5, cy - 0.5])).float()
	self.data.append({
	'filename': file_name,
	'yaw': yaw,
	'pitch': pitch,
	'roll': roll,
	'cam': cam,
	'sensor2global': sensor2global,
	'token': d['token'],
	'sample_token': d['sample_token'],
	'location': location
	})

	if self.cfg.percentage < 1.0 and split == "train":
	self.data = self.data[:int(len(self.data) * self.cfg.percentage)]

	def get_augmentations(self):

	print(f"Augmentation!", "\n" * 10)
	augmentations = [
	tvf.ColorJitter(
	brightness=self.cfg.augmentations.brightness,
	contrast=self.cfg.augmentations.contrast,
	saturation=self.cfg.augmentations.saturation,
	hue=self.cfg.augmentations.hue,
	)
	]

	if self.cfg.augmentations.random_resized_crop:
	augmentations.append(
	tvf.RandomResizedCrop(scale=(0.8, 1.0))
	) # RandomResizedCrop

	if self.cfg.augmentations.gaussian_noise.enabled:
	augmentations.append(
	tvf.GaussianNoise(
	mean=self.cfg.augmentations.gaussian_noise.mean,
	std=self.cfg.augmentations.gaussian_noise.std,
	)
	) # Gaussian noise

	if self.cfg.augmentations.brightness_contrast.enabled:
	augmentations.append(
	tvf.ColorJitter(
	brightness=self.cfg.augmentations.brightness_contrast.brightness_factor,
	contrast=self.cfg.augmentations.brightness_contrast.contrast_factor,
	saturation=0, # Keep saturation at 0 for brightness and contrast adjustment
	hue=0,
	)
	) # Brightness and contrast adjustment

	return tvf.Compose(augmentations)

	def __len__(self):
	return len(self.data)

	def __getitem__(self, idx):
	d = self.data[idx]

	image = read_image(os.path.join(self.nusc.dataroot, d['filename']))
	image = np.array(image)
	cam = d['cam']
	roll = d['roll']
	pitch = d['pitch']
	yaw = d['yaw']

	with Image.open(self.map_data_root / f"{d['token']}.png") as semantic_image:
	semantic_mask = to_tensor(semantic_image)

	semantic_mask = decode_binary_labels(semantic_mask, self.cfg.num_classes + 1)
	semantic_mask = torch.nn.functional.max_pool2d(semantic_mask.float(), (2, 2), stride=2) # 2 times downsample
	semantic_mask = semantic_mask.permute(1, 2, 0)
	semantic_mask = torch.flip(semantic_mask, [0])

	visibility_mask = semantic_mask[..., -1]
	semantic_mask = semantic_mask[..., :-1]

	if self.cfg.class_mapping is not None:
	semantic_mask = semantic_mask[..., self.cfg.class_mapping]

	image = (
	torch.from_numpy(np.ascontiguousarray(image))
	.permute(2, 0, 1)
	.float()
	.div_(255)
	)

	if not self.cfg.gravity_align:
	# Turn off gravity alignment
	roll = 0.0
	pitch = 0.0
	image, valid = rectify_image(image, cam, roll, pitch)

	else:
	image, valid = rectify_image(
	image, cam, roll, pitch if self.cfg.rectify_pitch else None
	)
	roll = 0.0
	if self.cfg.rectify_pitch:
	pitch = 0.0
	if self.cfg.resize_image is not None:
	image, _, cam, valid = resize_image(
	image, self.cfg.resize_image, fn=max, camera=cam, valid=valid
	)
	if self.cfg.pad_to_square:
	image, valid, cam = pad_image(image, self.cfg.resize_image, cam, valid)
	image = self.tfs(image)

	confidence_map = visibility_mask.clone().float()
	confidence_map = (confidence_map - confidence_map.min()) / (confidence_map.max() - confidence_map.min())

	return {
	"image": image,
	"roll_pitch_yaw": torch.tensor([roll, pitch, yaw]).float(),
	"camera": cam,
	"valid": valid,
	"seg_masks": semantic_mask.float(),
	"token": d['token'],
	"sample_token": d['sample_token'],
	'location': d['location'],
	'flood_masks': visibility_mask.float(),
	"confidence_map": confidence_map,
	'name': d['sample_token']
	}