Spaces:

tree3po
/

kinet-test

Runtime error

App Files Files Community

kinet-test / Kinetix /experiments /plr.py

tree3po

Upload 190 files

e0f25ed verified 5 months ago

raw

history blame

48.3 kB

	from functools import partial
	import time
	from enum import IntEnum
	from typing import Tuple

	import chex
	import hydra
	import jax
	import jax.numpy as jnp
	import numpy as np
	from omegaconf import OmegaConf
	import optax
	from flax import core, struct
	from flax.training.train_state import TrainState as BaseTrainState

	import wandb
	from kinetix.environment.ued.distributions import (
	create_random_starting_distribution,
	)
	from kinetix.environment.ued.ued import (
	make_mutate_env,
	make_reset_train_function_with_mutations,
	make_vmapped_filtered_level_sampler,
	)
	from kinetix.environment.ued.ued import (
	make_mutate_env,
	make_reset_train_function_with_list_of_levels,
	make_reset_train_function_with_mutations,
	)
	from kinetix.util.config import (
	generate_ued_params_from_config,
	get_video_frequency,
	init_wandb,
	normalise_config,
	save_data_to_local_file,
	generate_params_from_config,
	get_eval_level_groups,
	)
	from jaxued.environments.underspecified_env import EnvState
	from jaxued.level_sampler import LevelSampler
	from jaxued.utils import compute_max_returns, max_mc, positive_value_loss
	from flax.serialization import to_state_dict

	import sys

	sys.path.append("experiments")
	from kinetix.environment.env import make_kinetix_env_from_name
	from kinetix.environment.env_state import StaticEnvParams
	from kinetix.environment.wrappers import (
	UnderspecifiedToGymnaxWrapper,
	LogWrapper,
	DenseRewardWrapper,
	AutoReplayWrapper,
	)
	from kinetix.models import make_network_from_config
	from kinetix.render.renderer_pixels import make_render_pixels
	from kinetix.models.actor_critic import ScannedRNN
	from kinetix.util.learning import (
	general_eval,
	get_eval_levels,
	no_op_and_random_rollout,
	sample_trajectories_and_learn,
	)
	from kinetix.util.saving import (
	load_train_state_from_wandb_artifact_path,
	save_model_to_wandb,
	)


	class UpdateState(IntEnum):
	DR = 0
	REPLAY = 1
	MUTATE = 2


	def get_level_complexity_metrics(all_levels: EnvState, static_env_params: StaticEnvParams):
	def get_for_single_level(level):
	return {
	"complexity/num_shapes": level.polygon.active[static_env_params.num_static_fixated_polys :].sum()
	+ level.circle.active.sum(),
	"complexity/num_joints": level.joint.active.sum(),
	"complexity/num_thrusters": level.thruster.active.sum(),
	"complexity/num_rjoints": (level.joint.active * jnp.logical_not(level.joint.is_fixed_joint)).sum(),
	"complexity/num_fjoints": (level.joint.active * (level.joint.is_fixed_joint)).sum(),
	"complexity/has_ball": ((level.polygon_shape_roles == 1) * level.polygon.active).sum()
	+ ((level.circle_shape_roles == 1) * level.circle.active).sum(),
	"complexity/has_goal": ((level.polygon_shape_roles == 2) * level.polygon.active).sum()
	+ ((level.circle_shape_roles == 2) * level.circle.active).sum(),
	}

	return jax.tree.map(lambda x: x.mean(), jax.vmap(get_for_single_level)(all_levels))


	def get_ued_score_metrics(all_ued_scores):
	(mc, pvl, learn) = all_ued_scores
	scores = {}
	for score, name in zip([mc, pvl, learn], ["MaxMC", "PVL", "Learnability"]):
	scores[f"ued_scores/{name}/Mean"] = score.mean()
	scores[f"ued_scores_additional/{name}/Max"] = score.max()
	scores[f"ued_scores_additional/{name}/Min"] = score.min()

	return scores


	class TrainState(BaseTrainState):
	sampler: core.FrozenDict[str, chex.ArrayTree] = struct.field(pytree_node=True)
	update_state: UpdateState = struct.field(pytree_node=True)
	# === Below is used for logging ===
	num_dr_updates: int
	num_replay_updates: int
	num_mutation_updates: int

	dr_last_level_batch_scores: chex.ArrayTree = struct.field(pytree_node=True)
	replay_last_level_batch_scores: chex.ArrayTree = struct.field(pytree_node=True)
	mutation_last_level_batch_scores: chex.ArrayTree = struct.field(pytree_node=True)

	dr_last_level_batch: chex.ArrayTree = struct.field(pytree_node=True)
	replay_last_level_batch: chex.ArrayTree = struct.field(pytree_node=True)
	mutation_last_level_batch: chex.ArrayTree = struct.field(pytree_node=True)

	dr_last_rollout_batch: chex.ArrayTree = struct.field(pytree_node=True)
	replay_last_rollout_batch: chex.ArrayTree = struct.field(pytree_node=True)
	mutation_last_rollout_batch: chex.ArrayTree = struct.field(pytree_node=True)


	# region PPO helper functions

	# endregion


	def train_state_to_log_dict(train_state: TrainState, level_sampler: LevelSampler) -> dict:
	"""To prevent the entire (large) train_state to be copied to the CPU when doing logging, this function returns all of the important information in a dictionary format.

	Anything in the `log` key will be logged to wandb.

	Args:
	train_state (TrainState):
	level_sampler (LevelSampler):

	Returns:
	dict:
	"""
	sampler = train_state.sampler
	idx = jnp.arange(level_sampler.capacity) < sampler["size"]
	s = jnp.maximum(idx.sum(), 1)
	return {
	"log": {
	"level_sampler/size": sampler["size"],
	"level_sampler/episode_count": sampler["episode_count"],
	"level_sampler/max_score": sampler["scores"].max(),
	"level_sampler/weighted_score": (sampler["scores"] * level_sampler.level_weights(sampler)).sum(),
	"level_sampler/mean_score": (sampler["scores"] * idx).sum() / s,
	},
	"info": {
	"num_dr_updates": train_state.num_dr_updates,
	"num_replay_updates": train_state.num_replay_updates,
	"num_mutation_updates": train_state.num_mutation_updates,
	},
	}


	def compute_learnability(config, done, reward, info, num_envs):
	num_agents = 1
	BATCH_ACTORS = num_envs * num_agents

	rollout_length = config["num_steps"] * config["outer_rollout_steps"]

	@partial(jax.vmap, in_axes=(None, 1, 1, 1))
	@partial(jax.jit, static_argnums=(0,))
	def _calc_outcomes_by_agent(max_steps: int, dones, returns, info):
	idxs = jnp.arange(max_steps)

	@partial(jax.vmap, in_axes=(0, 0))
	def __ep_outcomes(start_idx, end_idx):
	mask = (idxs > start_idx) & (idxs <= end_idx) & (end_idx != max_steps)
	r = jnp.sum(returns * mask)
	goal_r = info["GoalR"]
	success = jnp.sum(goal_r * mask)
	collision = 0
	timeo = 0
	l = end_idx - start_idx
	return r, success, collision, timeo, l

	done_idxs = jnp.argwhere(dones, size=50, fill_value=max_steps).squeeze()
	mask_done = jnp.where(done_idxs == max_steps, 0, 1)
	ep_return, success, collision, timeo, length = __ep_outcomes(
	jnp.concatenate([jnp.array([-1]), done_idxs[:-1]]), done_idxs
	)

	return {
	"ep_return": ep_return.mean(where=mask_done),
	"num_episodes": mask_done.sum(),
	"num_success": success.sum(where=mask_done),
	"success_rate": success.mean(where=mask_done),
	"collision_rate": collision.mean(where=mask_done),
	"timeout_rate": timeo.mean(where=mask_done),
	"ep_len": length.mean(where=mask_done),
	}

	done_by_env = done.reshape((-1, num_agents, num_envs))
	reward_by_env = reward.reshape((-1, num_agents, num_envs))
	o = _calc_outcomes_by_agent(rollout_length, done, reward, info)
	success_by_env = o["success_rate"].reshape((num_agents, num_envs))
	learnability_by_env = (success_by_env * (1 - success_by_env)).sum(axis=0)

	return (
	learnability_by_env,
	o["num_episodes"].reshape(num_agents, num_envs).sum(axis=0),
	o["num_success"].reshape(num_agents, num_envs).T,
	) # so agents is at the end.


	def compute_score(
	config: dict, dones: chex.Array, values: chex.Array, max_returns: chex.Array, reward, info, advantages: chex.Array
	) -> chex.Array:
	# Computes the score for each level
	if config["score_function"] == "MaxMC":
	return max_mc(dones, values, max_returns)
	elif config["score_function"] == "pvl":
	return positive_value_loss(dones, advantages)
	elif config["score_function"] == "learnability":
	learnability, num_episodes, num_success = compute_learnability(
	config, dones, reward, info, config["num_train_envs"]
	)
	return learnability
	else:
	raise ValueError(f"Unknown score function: {config['score_function']}")


	def compute_all_scores(
	config: dict,
	dones: chex.Array,
	values: chex.Array,
	max_returns: chex.Array,
	reward,
	info,
	advantages: chex.Array,
	return_success_rate=False,
	):
	mc = max_mc(dones, values, max_returns)
	pvl = positive_value_loss(dones, advantages)
	learnability, num_episodes, num_success = compute_learnability(
	config, dones, reward, info, config["num_train_envs"]
	)
	if config["score_function"] == "MaxMC":
	main_score = mc
	elif config["score_function"] == "pvl":
	main_score = pvl
	elif config["score_function"] == "learnability":
	main_score = learnability
	else:
	raise ValueError(f"Unknown score function: {config['score_function']}")
	if return_success_rate:
	success_rate = num_success.squeeze(1) / jnp.maximum(num_episodes, 1)
	return main_score, (mc, pvl, learnability, success_rate)
	return main_score, (mc, pvl, learnability)


	@hydra.main(version_base=None, config_path="../configs", config_name="plr")
	def main(config=None):
	my_name = "PLR"
	config = OmegaConf.to_container(config)
	if config["ued"]["replay_prob"] == 0.0:
	my_name = "DR"
	elif config["ued"]["use_accel"]:
	my_name = "ACCEL"

	time_start = time.time()
	config = normalise_config(config, my_name)
	env_params, static_env_params = generate_params_from_config(config)
	config["env_params"] = to_state_dict(env_params)
	config["static_env_params"] = to_state_dict(static_env_params)

	run = init_wandb(config, my_name)
	config = wandb.config
	time_prev = time.time()

	def log_eval(stats, train_state_info):
	nonlocal time_prev
	print(f"Logging update: {stats['update_count']}")
	total_loss = jnp.mean(stats["losses"][0])
	if jnp.isnan(total_loss):
	print("NaN loss, skipping logging")
	raise ValueError("NaN loss")

	# generic stats
	env_steps = int(
	int(stats["update_count"]) * config["num_train_envs"] * config["num_steps"] * config["outer_rollout_steps"]
	)
	env_steps_delta = (
	config["eval_freq"] * config["num_train_envs"] * config["num_steps"] * config["outer_rollout_steps"]
	)
	time_now = time.time()
	log_dict = {
	"timing/num_updates": stats["update_count"],
	"timing/num_env_steps": env_steps,
	"timing/sps": env_steps_delta / (time_now - time_prev),
	"timing/sps_agg": env_steps / (time_now - time_start),
	"loss/total_loss": jnp.mean(stats["losses"][0]),
	"loss/value_loss": jnp.mean(stats["losses"][1][0]),
	"loss/policy_loss": jnp.mean(stats["losses"][1][1]),
	"loss/entropy_loss": jnp.mean(stats["losses"][1][2]),
	}
	time_prev = time_now

	# evaluation performance

	returns = stats["eval_returns"]
	log_dict.update({"eval/mean_eval_return": returns.mean()})
	log_dict.update({"eval/mean_eval_learnability": stats["eval_learn"].mean()})
	log_dict.update({"eval/mean_eval_solve_rate": stats["eval_solves"].mean()})
	log_dict.update({"eval/mean_eval_eplen": stats["eval_ep_lengths"].mean()})
	for i in range(config["num_eval_levels"]):
	log_dict[f"eval_avg_return/{config['eval_levels'][i]}"] = returns[i]
	log_dict[f"eval_avg_learnability/{config['eval_levels'][i]}"] = stats["eval_learn"][i]
	log_dict[f"eval_avg_solve_rate/{config['eval_levels'][i]}"] = stats["eval_solves"][i]
	log_dict[f"eval_avg_episode_length/{config['eval_levels'][i]}"] = stats["eval_ep_lengths"][i]
	log_dict[f"eval_get_max_eplen/{config['eval_levels'][i]}"] = stats["eval_get_max_eplen"][i]
	log_dict[f"episode_return_bigger_than_negative/{config['eval_levels'][i]}"] = stats[
	"episode_return_bigger_than_negative"
	][i]

	def _aggregate_per_size(values, name):
	to_return = {}
	for group_name, indices in eval_group_indices.items():
	to_return[f"{name}_{group_name}"] = values[indices].mean()
	return to_return

	log_dict.update(_aggregate_per_size(returns, "eval_aggregate/return"))
	log_dict.update(_aggregate_per_size(stats["eval_solves"], "eval_aggregate/solve_rate"))

	if config["EVAL_ON_SAMPLED"]:
	log_dict.update({"eval/mean_eval_return_sampled": stats["eval_dr_returns"].mean()})
	log_dict.update({"eval/mean_eval_solve_rate_sampled": stats["eval_dr_solve_rates"].mean()})
	log_dict.update({"eval/mean_eval_eplen_sampled": stats["eval_dr_eplen"].mean()})

	# level sampler
	log_dict.update(train_state_info["log"])

	# images
	log_dict.update(
	{
	"images/highest_scoring_level": wandb.Image(
	np.array(stats["highest_scoring_level"]), caption="Highest scoring level"
	)
	}
	)
	log_dict.update(
	{
	"images/highest_weighted_level": wandb.Image(
	np.array(stats["highest_weighted_level"]), caption="Highest weighted level"
	)
	}
	)

	for s in ["dr", "replay", "mutation"]:
	if train_state_info["info"][f"num_{s}_updates"] > 0:
	log_dict.update(
	{
	f"images/{s}_levels": [
	wandb.Image(np.array(image), caption=f"{score}")
	for image, score in zip(stats[f"{s}_levels"], stats[f"{s}_scores"])
	]
	}
	)
	if stats["log_videos"]:
	# animations
	rollout_ep = stats[f"{s}_ep_len"]
	arr = np.array(stats[f"{s}_rollout"][:rollout_ep])
	log_dict.update(
	{
	f"media/{s}_eval": wandb.Video(
	arr.astype(np.uint8), fps=15, caption=f"{s.capitalize()} (len {rollout_ep})"
	)
	}
	)
	# * 255

	# DR, Replay and Mutate Returns
	dr_inds = (stats["update_state"] == UpdateState.DR).nonzero()[0]
	rep_inds = (stats["update_state"] == UpdateState.REPLAY).nonzero()[0]
	mut_inds = (stats["update_state"] == UpdateState.MUTATE).nonzero()[0]

	for name, inds in [
	("DR", dr_inds),
	("REPLAY", rep_inds),
	("MUTATION", mut_inds),
	]:
	if len(inds) > 0:
	log_dict.update(
	{
	f"{name}/episode_return": stats["episode_return"][inds].mean(),
	f"{name}/mean_eplen": stats["returned_episode_lengths"][inds].mean(),
	f"{name}/mean_success": stats["returned_episode_solved"][inds].mean(),
	f"{name}/noop_return": stats["noop_returns"][inds].mean(),
	f"{name}/noop_eplen": stats["noop_eplen"][inds].mean(),
	f"{name}/noop_success": stats["noop_success"][inds].mean(),
	f"{name}/random_return": stats["random_returns"][inds].mean(),
	f"{name}/random_eplen": stats["random_eplen"][inds].mean(),
	f"{name}/random_success": stats["random_success"][inds].mean(),
	}
	)
	for k in stats:
	if "complexity/" in k:
	k2 = "complexity/" + name + "_" + k.replace("complexity/", "")
	log_dict.update({k2: stats[k][inds].mean()})
	if "ued_scores/" in k:
	k2 = "ued_scores/" + name + "_" + k.replace("ued_scores/", "")
	log_dict.update({k2: stats[k][inds].mean()})

	# Eval rollout animations
	if stats["log_videos"]:
	for i in range((config["num_eval_levels"])):
	frames, episode_length = stats["eval_animation"][0][:, i], stats["eval_animation"][1][i]
	frames = np.array(frames[:episode_length])
	log_dict.update(
	{
	f"media/eval_video_{config['eval_levels'][i]}": wandb.Video(
	frames.astype(np.uint8), fps=15, caption=f"Len ({episode_length})"
	)
	}
	)

	wandb.log(log_dict)

	def get_all_metrics(
	rng,
	losses,
	info,
	init_env_state,
	init_obs,
	dones,
	grads,
	all_ued_scores,
	new_levels,
	):
	noop_returns, noop_len, noop_success, random_returns, random_lens, random_success = no_op_and_random_rollout(
	env,
	env_params,
	rng,
	init_obs,
	init_env_state,
	config["num_train_envs"],
	config["num_steps"] * config["outer_rollout_steps"],
	)
	metrics = (
	{
	"losses": jax.tree_util.tree_map(lambda x: x.mean(), losses),
	"returned_episode_lengths": (info["returned_episode_lengths"] * dones).sum()
	/ jnp.maximum(1, dones.sum()),
	"max_episode_length": info["returned_episode_lengths"].max(),
	"levels_played": init_env_state.env_state.env_state,
	"episode_return": (info["returned_episode_returns"] * dones).sum() / jnp.maximum(1, dones.sum()),
	"episode_return_v2": (info["returned_episode_returns"] * info["returned_episode"]).sum()
	/ jnp.maximum(1, info["returned_episode"].sum()),
	"grad_norms": grads.mean(),
	"noop_returns": noop_returns,
	"noop_eplen": noop_len,
	"noop_success": noop_success,
	"random_returns": random_returns,
	"random_eplen": random_lens,
	"random_success": random_success,
	"returned_episode_solved": (info["returned_episode_solved"] * dones).sum()
	/ jnp.maximum(1, dones.sum()),
	}
	\| get_level_complexity_metrics(new_levels, static_env_params)
	\| get_ued_score_metrics(all_ued_scores)
	)
	return metrics

	# Setup the environment.
	def make_env(static_env_params):
	env = make_kinetix_env_from_name(config["env_name"], static_env_params=static_env_params)
	env = AutoReplayWrapper(env)
	env = UnderspecifiedToGymnaxWrapper(env)
	env = DenseRewardWrapper(env, dense_reward_scale=config["dense_reward_scale"])
	env = LogWrapper(env)
	return env

	env = make_env(static_env_params)

	if config["train_level_mode"] == "list":
	sample_random_level = make_reset_train_function_with_list_of_levels(
	config, config["train_levels_list"], static_env_params, make_pcg_state=False, is_loading_train_levels=True
	)
	elif config["train_level_mode"] == "random":
	sample_random_level = make_reset_train_function_with_mutations(
	env.physics_engine, env_params, static_env_params, config, make_pcg_state=False
	)
	else:
	raise ValueError(f"Unknown train_level_mode: {config['train_level_mode']}")

	if config["use_accel"] and config["accel_start_from_empty"]:

	def make_sample_random_level():
	def inner(rng):
	def _inner_accel(rng):
	return create_random_starting_distribution(
	rng, env_params, static_env_params, ued_params, config["env_size_name"], controllable=True
	)

	def _inner_accel_not_controllable(rng):
	return create_random_starting_distribution(
	rng, env_params, static_env_params, ued_params, config["env_size_name"], controllable=False
	)

	rng, _rng = jax.random.split(rng)
	return _inner_accel(_rng)

	return inner

	sample_random_level = make_sample_random_level()

	sample_random_levels = make_vmapped_filtered_level_sampler(
	sample_random_level, env_params, static_env_params, config, make_pcg_state=False, env=env
	)

	def generate_world():
	raise NotImplementedError
	pass

	def generate_eval_world(rng, env_params, static_env_params, level_idx):
	# jax.random.split(jax.random.PRNGKey(101), num_levels), env_params, static_env_params, jnp.arange(num_levels)

	raise NotImplementedError

	_, eval_static_env_params = generate_params_from_config(
	config["eval_env_size_true"] \| {"frame_skip": config["frame_skip"]}
	)
	eval_env = make_env(eval_static_env_params)
	ued_params = generate_ued_params_from_config(config)

	mutate_world = make_mutate_env(static_env_params, env_params, ued_params)

	def make_render_fn(static_env_params):
	render_fn_inner = make_render_pixels(env_params, static_env_params)
	render_fn = lambda x: render_fn_inner(x).transpose(1, 0, 2)[::-1]
	return render_fn

	render_fn = make_render_fn(static_env_params)
	render_fn_eval = make_render_fn(eval_static_env_params)
	if config["EVAL_ON_SAMPLED"]:
	NUM_EVAL_DR_LEVELS = 200
	key_to_sample_dr_eval_set = jax.random.PRNGKey(100)
	DR_EVAL_LEVELS = sample_random_levels(key_to_sample_dr_eval_set, NUM_EVAL_DR_LEVELS)

	# And the level sampler
	level_sampler = LevelSampler(
	capacity=config["level_buffer_capacity"],
	replay_prob=config["replay_prob"],
	staleness_coeff=config["staleness_coeff"],
	minimum_fill_ratio=config["minimum_fill_ratio"],
	prioritization=config["prioritization"],
	prioritization_params={"temperature": config["temperature"], "k": config["topk_k"]},
	duplicate_check=config["buffer_duplicate_check"],
	)

	@jax.jit
	def create_train_state(rng) -> TrainState:
	# Creates the train state
	def linear_schedule(count):
	frac = 1.0 - (count // (config["num_minibatches"] * config["update_epochs"])) / (
	config["num_updates"] * config["outer_rollout_steps"]
	)
	return config["lr"] * frac

	rng, _rng = jax.random.split(rng)
	init_state = jax.tree.map(lambda x: x[0], sample_random_levels(_rng, 1))

	rng, _rng = jax.random.split(rng)
	obs, _ = env.reset_to_level(_rng, init_state, env_params)
	ns = config["num_steps"] * config["outer_rollout_steps"]
	obs = jax.tree.map(
	lambda x: jnp.repeat(jnp.repeat(x[None, ...], config["num_train_envs"], axis=0)[None, ...], ns, axis=0),
	obs,
	)
	init_x = (obs, jnp.zeros((ns, config["num_train_envs"]), dtype=jnp.bool_))
	network = make_network_from_config(env, env_params, config)
	rng, _rng = jax.random.split(rng)
	network_params = network.init(_rng, ScannedRNN.initialize_carry(config["num_train_envs"]), init_x)

	if config["anneal_lr"]:
	tx = optax.chain(
	optax.clip_by_global_norm(config["max_grad_norm"]),
	optax.adam(learning_rate=linear_schedule, eps=1e-5),
	)
	else:
	tx = optax.chain(
	optax.clip_by_global_norm(config["max_grad_norm"]),
	optax.adam(config["lr"], eps=1e-5),
	)

	pholder_level = jax.tree.map(lambda x: x[0], sample_random_levels(jax.random.PRNGKey(0), 1))
	sampler = level_sampler.initialize(pholder_level, {"max_return": -jnp.inf})
	pholder_level_batch = jax.tree_util.tree_map(
	lambda x: jnp.array([x]).repeat(config["num_train_envs"], axis=0), pholder_level
	)
	pholder_rollout_batch = (
	jax.tree.map(
	lambda x: jnp.repeat(
	jnp.expand_dims(x, 0), repeats=config["num_steps"] * config["outer_rollout_steps"], axis=0
	),
	init_state,
	),
	init_x[1][:, 0],
	)

	pholder_level_batch_scores = jnp.zeros((config["num_train_envs"],), dtype=jnp.float32)
	train_state = TrainState.create(
	apply_fn=network.apply,
	params=network_params,
	tx=tx,
	sampler=sampler,
	update_state=0,
	num_dr_updates=0,
	num_replay_updates=0,
	num_mutation_updates=0,
	dr_last_level_batch_scores=pholder_level_batch_scores,
	replay_last_level_batch_scores=pholder_level_batch_scores,
	mutation_last_level_batch_scores=pholder_level_batch_scores,
	dr_last_level_batch=pholder_level_batch,
	replay_last_level_batch=pholder_level_batch,
	mutation_last_level_batch=pholder_level_batch,
	dr_last_rollout_batch=pholder_rollout_batch,
	replay_last_rollout_batch=pholder_rollout_batch,
	mutation_last_rollout_batch=pholder_rollout_batch,
	)

	if config["load_from_checkpoint"] != None:
	print("LOADING from", config["load_from_checkpoint"], "with only params =", config["load_only_params"])
	train_state = load_train_state_from_wandb_artifact_path(
	train_state,
	config["load_from_checkpoint"],
	load_only_params=config["load_only_params"],
	legacy=config["load_legacy_checkpoint"],
	)
	return train_state

	all_eval_levels = get_eval_levels(config["eval_levels"], eval_env.static_env_params)
	eval_group_indices = get_eval_level_groups(config["eval_levels"])

	@jax.jit
	def train_step(carry: Tuple[chex.PRNGKey, TrainState], _):
	"""
	This is the main training loop. It basically calls either `on_new_levels`, `on_replay_levels`, or `on_mutate_levels` at every step.
	"""

	def on_new_levels(rng: chex.PRNGKey, train_state: TrainState):
	"""
	Samples new (randomly-generated) levels and evaluates the policy on these. It also then adds the levels to the level buffer if they have high-enough scores.
	The agent is updated on these trajectories iff `config["exploratory_grad_updates"]` is True.
	"""
	sampler = train_state.sampler

	# Reset
	rng, rng_levels, rng_reset = jax.random.split(rng, 3)
	new_levels = sample_random_levels(rng_levels, config["num_train_envs"])
	init_obs, init_env_state = jax.vmap(env.reset_to_level, in_axes=(0, 0, None))(
	jax.random.split(rng_reset, config["num_train_envs"]), new_levels, env_params
	)
	init_hstate = ScannedRNN.initialize_carry(config["num_train_envs"])
	# Rollout
	(
	(rng, train_state, new_hstate, last_obs, last_env_state),
	(
	obs,
	actions,
	rewards,
	dones,
	log_probs,
	values,
	info,
	advantages,
	targets,
	losses,
	grads,
	rollout_states,
	),
	) = sample_trajectories_and_learn(
	env,
	env_params,
	config,
	rng,
	train_state,
	init_hstate,
	init_obs,
	init_env_state,
	update_grad=config["exploratory_grad_updates"],
	return_states=True,
	)
	max_returns = compute_max_returns(dones, rewards)
	scores, all_ued_scores = compute_all_scores(config, dones, values, max_returns, rewards, info, advantages)
	sampler, _ = level_sampler.insert_batch(sampler, new_levels, scores, {"max_return": max_returns})
	rng, _rng = jax.random.split(rng)
	metrics = {
	"update_state": UpdateState.DR,
	} \| get_all_metrics(_rng, losses, info, init_env_state, init_obs, dones, grads, all_ued_scores, new_levels)

	train_state = train_state.replace(
	sampler=sampler,
	update_state=UpdateState.DR,
	num_dr_updates=train_state.num_dr_updates + 1,
	dr_last_level_batch=new_levels,
	dr_last_level_batch_scores=scores,
	dr_last_rollout_batch=jax.tree.map(
	lambda x: x[:, 0], (rollout_states.env_state.env_state.env_state, dones)
	),
	)
	return (rng, train_state), metrics

	def on_replay_levels(rng: chex.PRNGKey, train_state: TrainState):
	"""
	This samples levels from the level buffer, and updates the policy on them.
	"""
	sampler = train_state.sampler

	# Collect trajectories on replay levels
	rng, rng_levels, rng_reset = jax.random.split(rng, 3)
	sampler, (level_inds, levels) = level_sampler.sample_replay_levels(
	sampler, rng_levels, config["num_train_envs"]
	)
	init_obs, init_env_state = jax.vmap(env.reset_to_level, in_axes=(0, 0, None))(
	jax.random.split(rng_reset, config["num_train_envs"]), levels, env_params
	)
	init_hstate = ScannedRNN.initialize_carry(config["num_train_envs"])
	(
	(rng, train_state, new_hstate, last_obs, last_env_state),
	(
	obs,
	actions,
	rewards,
	dones,
	log_probs,
	values,
	info,
	advantages,
	targets,
	losses,
	grads,
	rollout_states,
	),
	) = sample_trajectories_and_learn(
	env,
	env_params,
	config,
	rng,
	train_state,
	init_hstate,
	init_obs,
	init_env_state,
	update_grad=True,
	return_states=True,
	)

	max_returns = jnp.maximum(
	level_sampler.get_levels_extra(sampler, level_inds)["max_return"], compute_max_returns(dones, rewards)
	)
	scores, all_ued_scores = compute_all_scores(config, dones, values, max_returns, rewards, info, advantages)
	sampler = level_sampler.update_batch(sampler, level_inds, scores, {"max_return": max_returns})

	rng, _rng = jax.random.split(rng)
	metrics = {
	"update_state": UpdateState.REPLAY,
	} \| get_all_metrics(_rng, losses, info, init_env_state, init_obs, dones, grads, all_ued_scores, levels)
	train_state = train_state.replace(
	sampler=sampler,
	update_state=UpdateState.REPLAY,
	num_replay_updates=train_state.num_replay_updates + 1,
	replay_last_level_batch=levels,
	replay_last_level_batch_scores=scores,
	replay_last_rollout_batch=jax.tree.map(
	lambda x: x[:, 0], (rollout_states.env_state.env_state.env_state, dones)
	),
	)
	return (rng, train_state), metrics

	def on_mutate_levels(rng: chex.PRNGKey, train_state: TrainState):
	"""
	This mutates the previous batch of replay levels and potentially adds them to the level buffer.
	This also updates the policy iff `config["exploratory_grad_updates"]` is True.
	"""

	sampler = train_state.sampler
	rng, rng_mutate, rng_reset = jax.random.split(rng, 3)

	# mutate
	parent_levels = train_state.replay_last_level_batch
	child_levels = jax.vmap(mutate_world, (0, 0, None))(
	jax.random.split(rng_mutate, config["num_train_envs"]), parent_levels, config["num_edits"]
	)
	init_obs, init_env_state = jax.vmap(env.reset_to_level, in_axes=(0, 0, None))(
	jax.random.split(rng_reset, config["num_train_envs"]), child_levels, env_params
	)

	init_hstate = ScannedRNN.initialize_carry(config["num_train_envs"])
	# rollout
	(
	(rng, train_state, new_hstate, last_obs, last_env_state),
	(
	obs,
	actions,
	rewards,
	dones,
	log_probs,
	values,
	info,
	advantages,
	targets,
	losses,
	grads,
	rollout_states,
	),
	) = sample_trajectories_and_learn(
	env,
	env_params,
	config,
	rng,
	train_state,
	init_hstate,
	init_obs,
	init_env_state,
	update_grad=config["exploratory_grad_updates"],
	return_states=True,
	)

	max_returns = compute_max_returns(dones, rewards)
	scores, all_ued_scores = compute_all_scores(config, dones, values, max_returns, rewards, info, advantages)
	sampler, _ = level_sampler.insert_batch(sampler, child_levels, scores, {"max_return": max_returns})

	rng, _rng = jax.random.split(rng)
	metrics = {"update_state": UpdateState.MUTATE,} \| get_all_metrics(
	_rng, losses, info, init_env_state, init_obs, dones, grads, all_ued_scores, child_levels
	)

	train_state = train_state.replace(
	sampler=sampler,
	update_state=UpdateState.DR,
	num_mutation_updates=train_state.num_mutation_updates + 1,
	mutation_last_level_batch=child_levels,
	mutation_last_level_batch_scores=scores,
	mutation_last_rollout_batch=jax.tree.map(
	lambda x: x[:, 0], (rollout_states.env_state.env_state.env_state, dones)
	),
	)
	return (rng, train_state), metrics

	rng, train_state = carry
	rng, rng_replay = jax.random.split(rng)

	# The train step makes a decision on which branch to take, either on_new, on_replay or on_mutate.
	# on_mutate is only called if the replay branch has been taken before (as it uses `train_state.update_state`).
	branches = [
	on_new_levels,
	on_replay_levels,
	]
	if config["use_accel"]:
	s = train_state.update_state
	branch = (1 - s) * level_sampler.sample_replay_decision(train_state.sampler, rng_replay) + 2 * s
	branches.append(on_mutate_levels)
	else:
	branch = level_sampler.sample_replay_decision(train_state.sampler, rng_replay).astype(int)

	return jax.lax.switch(branch, branches, rng, train_state)

	@partial(jax.jit, static_argnums=(2,))
	def eval(rng: chex.PRNGKey, train_state: TrainState, keep_states=True):
	"""
	This evaluates the current policy on the set of evaluation levels specified by config["eval_levels"].
	It returns (states, cum_rewards, episode_lengths), with shapes (num_steps, num_eval_levels, ...), (num_eval_levels,), (num_eval_levels,)
	"""
	num_levels = config["num_eval_levels"]
	return general_eval(
	rng,
	eval_env,
	env_params,
	train_state,
	all_eval_levels,
	env_params.max_timesteps,
	num_levels,
	keep_states=keep_states,
	return_trajectories=True,
	)

	@partial(jax.jit, static_argnums=(2,))
	def eval_on_dr_levels(rng: chex.PRNGKey, train_state: TrainState, keep_states=False):
	return general_eval(
	rng,
	env,
	env_params,
	train_state,
	DR_EVAL_LEVELS,
	env_params.max_timesteps,
	NUM_EVAL_DR_LEVELS,
	keep_states=keep_states,
	)

	@jax.jit
	def train_and_eval_step(runner_state, _):
	"""
	This function runs the train_step for a certain number of iterations, and then evaluates the policy.
	It returns the updated train state, and a dictionary of metrics.
	"""
	# Train
	(rng, train_state), metrics = jax.lax.scan(train_step, runner_state, None, config["eval_freq"])

	# Eval
	metrics["update_count"] = (
	train_state.num_dr_updates + train_state.num_replay_updates + train_state.num_mutation_updates
	)

	vid_frequency = get_video_frequency(config, metrics["update_count"])
	should_log_videos = metrics["update_count"] % vid_frequency == 0

	def _compute_eval_learnability(dones, rewards, infos):
	@jax.vmap
	def _single(d, r, i):
	learn, num_eps, num_succ = compute_learnability(config, d, r, i, config["num_eval_levels"])

	return num_eps, num_succ.squeeze(-1)

	num_eps, num_succ = _single(dones, rewards, infos)
	num_eps, num_succ = num_eps.sum(axis=0), num_succ.sum(axis=0)
	success_rate = num_succ / jnp.maximum(1, num_eps)

	return success_rate * (1 - success_rate)

	@jax.jit
	def _get_eval(rng):
	metrics = {}
	rng, rng_eval = jax.random.split(rng)
	(states, cum_rewards, done_idx, episode_lengths, eval_infos), (eval_dones, eval_rewards) = jax.vmap(
	eval, (0, None)
	)(jax.random.split(rng_eval, config["eval_num_attempts"]), train_state)

	# learnability here of the holdout set:
	eval_learn = _compute_eval_learnability(eval_dones, eval_rewards, eval_infos)
	# Collect Metrics
	eval_returns = cum_rewards.mean(axis=0) # (num_eval_levels,)
	eval_solves = (eval_infos["returned_episode_solved"] * eval_dones).sum(axis=1) / jnp.maximum(
	1, eval_dones.sum(axis=1)
	)
	eval_solves = eval_solves.mean(axis=0)
	metrics["eval_returns"] = eval_returns
	metrics["eval_ep_lengths"] = episode_lengths.mean(axis=0)
	metrics["eval_learn"] = eval_learn
	metrics["eval_solves"] = eval_solves

	metrics["eval_get_max_eplen"] = (episode_lengths == env_params.max_timesteps).mean(axis=0)
	metrics["episode_return_bigger_than_negative"] = (cum_rewards > -0.4).mean(axis=0)

	if config["EVAL_ON_SAMPLED"]:
	states_dr, cum_rewards_dr, done_idx_dr, episode_lengths_dr, infos_dr = jax.vmap(
	eval_on_dr_levels, (0, None)
	)(jax.random.split(rng_eval, config["eval_num_attempts"]), train_state)

	eval_dr_returns = cum_rewards_dr.mean(axis=0).mean()
	eval_dr_eplen = episode_lengths_dr.mean(axis=0).mean()

	my_eval_dones = infos_dr["returned_episode"]
	eval_dr_solves = (infos_dr["returned_episode_solved"] * my_eval_dones).sum(axis=1) / jnp.maximum(
	1, my_eval_dones.sum(axis=1)
	)

	metrics["eval_dr_returns"] = eval_dr_returns
	metrics["eval_dr_eplen"] = eval_dr_eplen
	metrics["eval_dr_solve_rates"] = eval_dr_solves
	return metrics, states, episode_lengths, cum_rewards

	@jax.jit
	def _get_videos(rng, states, episode_lengths, cum_rewards):
	metrics = {"log_videos": True}

	# just grab the first run
	states, episode_lengths = jax.tree_util.tree_map(
	lambda x: x[0], (states, episode_lengths)
	) # (num_steps, num_eval_levels, ...), (num_eval_levels,)
	# And one attempt
	states = jax.tree_util.tree_map(lambda x: x[:, :], states)
	episode_lengths = episode_lengths[:]
	images = jax.vmap(jax.vmap(render_fn_eval))(
	states.env_state.env_state.env_state
	) # (num_steps, num_eval_levels, ...)
	frames = images.transpose(
	0, 1, 4, 2, 3
	) # WandB expects color channel before image dimensions when dealing with animations for some reason

	@jax.jit
	def _get_video(rollout_batch):
	states = rollout_batch[0]
	images = jax.vmap(render_fn)(states) # dimensions are (steps, x, y, 3)
	return (
	# jax.tree.map(lambda x: x[:].transpose(0, 2, 1, 3)[:, ::-1], images).transpose(0, 3, 1, 2),
	images.transpose(0, 3, 1, 2),
	# images.transpose(0, 1, 4, 2, 3),
	rollout_batch[1][:].argmax(),
	)

	# rollouts
	metrics["dr_rollout"], metrics["dr_ep_len"] = _get_video(train_state.dr_last_rollout_batch)
	metrics["replay_rollout"], metrics["replay_ep_len"] = _get_video(train_state.replay_last_rollout_batch)
	metrics["mutation_rollout"], metrics["mutation_ep_len"] = _get_video(
	train_state.mutation_last_rollout_batch
	)

	metrics["eval_animation"] = (frames, episode_lengths)

	metrics["eval_returns_video"] = cum_rewards[0]
	metrics["eval_len_video"] = episode_lengths

	# Eval on sampled

	return metrics

	@jax.jit
	def _get_dummy_videos(rng, states, episode_lengths, cum_rewards):
	n_eval = config["num_eval_levels"]
	nsteps = env_params.max_timesteps
	nsteps2 = config["outer_rollout_steps"] * config["num_steps"]
	img_size = (
	env.static_env_params.screen_dim[0] // env.static_env_params.downscale,
	env.static_env_params.screen_dim[1] // env.static_env_params.downscale,
	)
	return {
	"log_videos": False,
	"dr_rollout": jnp.zeros((nsteps2, 3, *img_size), jnp.float32),
	"dr_ep_len": jnp.zeros((), jnp.int32),
	"replay_rollout": jnp.zeros((nsteps2, 3, *img_size), jnp.float32),
	"replay_ep_len": jnp.zeros((), jnp.int32),
	"mutation_rollout": jnp.zeros((nsteps2, 3, *img_size), jnp.float32),
	"mutation_ep_len": jnp.zeros((), jnp.int32),
	# "eval_returns": jnp.zeros((n_eval,), jnp.float32),
	# "eval_solves": jnp.zeros((n_eval,), jnp.float32),
	# "eval_learn": jnp.zeros((n_eval,), jnp.float32),
	# "eval_ep_lengths": jnp.zeros((n_eval,), jnp.int32),
	"eval_animation": (
	jnp.zeros((nsteps, n_eval, 3, *img_size), jnp.float32),
	jnp.zeros((n_eval,), jnp.int32),
	),
	"eval_returns_video": jnp.zeros((n_eval,), jnp.float32),
	"eval_len_video": jnp.zeros((n_eval,), jnp.int32),
	}

	rng, rng_eval, rng_vid = jax.random.split(rng, 3)

	metrics_eval, states, episode_lengths, cum_rewards = _get_eval(rng_eval)
	metrics = {
	**metrics,
	**metrics_eval,
	**jax.lax.cond(
	should_log_videos, _get_videos, _get_dummy_videos, rng_vid, states, episode_lengths, cum_rewards
	),
	}
	max_num_images = 8

	top_regret_ones = max_num_images // 2
	bot_regret_ones = max_num_images - top_regret_ones

	@jax.jit
	def get_values(level_batch, scores):
	args = jnp.argsort(scores) # low scores are at the start, high scores are at the end

	low_scores = args[:bot_regret_ones]
	high_scores = args[-top_regret_ones:]

	low_levels = jax.tree.map(lambda x: x[low_scores], level_batch)
	high_levels = jax.tree.map(lambda x: x[high_scores], level_batch)

	low_scores = scores[low_scores]
	high_scores = scores[high_scores]
	# now concatenate:
	return jax.vmap(render_fn)(
	jax.tree.map(lambda x, y: jnp.concatenate([x, y], axis=0), low_levels, high_levels)
	), jnp.concatenate([low_scores, high_scores], axis=0)

	metrics["dr_levels"], metrics["dr_scores"] = get_values(
	train_state.dr_last_level_batch, train_state.dr_last_level_batch_scores
	)
	metrics["replay_levels"], metrics["replay_scores"] = get_values(
	train_state.replay_last_level_batch, train_state.replay_last_level_batch_scores
	)
	metrics["mutation_levels"], metrics["mutation_scores"] = get_values(
	train_state.mutation_last_level_batch, train_state.mutation_last_level_batch_scores
	)

	def _t(i):
	return jax.lax.select(i == 0, config["num_steps"], i)

	metrics["dr_ep_len"] = _t(train_state.dr_last_rollout_batch[1][:].argmax())
	metrics["replay_ep_len"] = _t(train_state.replay_last_rollout_batch[1][:].argmax())
	metrics["mutation_ep_len"] = _t(train_state.mutation_last_rollout_batch[1][:].argmax())

	highest_scoring_level = level_sampler.get_levels(train_state.sampler, train_state.sampler["scores"].argmax())
	highest_weighted_level = level_sampler.get_levels(
	train_state.sampler, level_sampler.level_weights(train_state.sampler).argmax()
	)

	metrics["highest_scoring_level"] = render_fn(highest_scoring_level)
	metrics["highest_weighted_level"] = render_fn(highest_weighted_level)

	# log_eval(metrics, train_state_to_log_dict(runner_state[1], level_sampler))
	jax.debug.callback(log_eval, metrics, train_state_to_log_dict(runner_state[1], level_sampler))
	return (rng, train_state), {"update_count": metrics["update_count"]}

	def log_checkpoint(update_count, train_state):
	if config["save_path"] is not None and config["checkpoint_save_freq"] > 1:
	steps = (
	int(update_count)
	* int(config["num_train_envs"])
	* int(config["num_steps"])
	* int(config["outer_rollout_steps"])
	)
	# save_params_to_wandb(train_state.params, steps, config)
	save_model_to_wandb(train_state, steps, config)

	def train_eval_and_checkpoint_step(runner_state, _):
	runner_state, metrics = jax.lax.scan(
	train_and_eval_step, runner_state, xs=jnp.arange(config["checkpoint_save_freq"] // config["eval_freq"])
	)
	jax.debug.callback(log_checkpoint, metrics["update_count"][-1], runner_state[1])
	return runner_state, metrics

	# Set up the train states
	rng = jax.random.PRNGKey(config["seed"])
	rng_init, rng_train = jax.random.split(rng)

	train_state = create_train_state(rng_init)
	runner_state = (rng_train, train_state)

	runner_state, metrics = jax.lax.scan(
	train_eval_and_checkpoint_step,
	runner_state,
	xs=jnp.arange((config["num_updates"]) // (config["checkpoint_save_freq"])),
	)

	if config["save_path"] is not None:
	# save_params_to_wandb(runner_state[1].params, config["total_timesteps"], config)
	save_model_to_wandb(runner_state[1], config["total_timesteps"], config, is_final=True)

	return runner_state[1]


	if __name__ == "__main__":
	main()