Spaces:

rootstrap-org
/

wordle-solver

Sleeping

App Files Files Community

wordle-solver / a3c /play.py

santit96

Update model load to download it from huggingface repo if doesnt exists. Also update readme

3bc694c over 1 year ago

raw

history blame

2.13 kB

	import os

	import torch
	from dotenv import load_dotenv
	from huggingface_hub import hf_hub_download

	from wordle_env.state import update_from_mask

	from .net import GreedyNet
	from .utils import v_wrap

	load_dotenv()

	MODEL_NAME = os.getenv("RS_WORDLE_MODEL_NAME")
	HF_MODEL_REPO_NAME = os.getenv("HF_MODEL_REPO_NAME")
	MODEL_CHECKPOINT_DIR = "checkpoints"


	def get_play_model_path():
	return os.path.join(MODEL_CHECKPOINT_DIR, MODEL_NAME)


	def get_net(env, pretrained_model_path):
	n_s = env.observation_space.shape[0]
	n_a = env.action_space.n
	words_list = env.words
	word_width = len(env.words[0])
	net = GreedyNet(n_s, n_a, words_list, word_width)
	if not os.path.exists(pretrained_model_path):
	pretrained_model_path = hf_hub_download(
	HF_MODEL_REPO_NAME, MODEL_NAME, local_dir=MODEL_CHECKPOINT_DIR
	)
	net.load_state_dict(torch.load(pretrained_model_path))
	return net


	def get_initial_state(env):
	state = env.reset()
	return state


	def suggest(env, words, states, pretrained_model_path) -> str:
	"""
	Given a list of words and masks, return the next suggested word

	:param agent:
	:param env:
	:param sequence: History of moves and outcomes until now
	:return:
	"""
	env = env.unwrapped
	net = get_net(env, pretrained_model_path)
	state = get_initial_state(env)
	for word, mask in zip(words, states):
	word = word.upper()
	mask = list(map(int, mask))
	state = update_from_mask(state, word, mask)
	return env.words[net.choose_action(v_wrap(state[None, :]))]


	def play(env, pretrained_model_path, goal_word=None):
	env = env.unwrapped
	net = get_net(env, pretrained_model_path)
	state = get_initial_state(env)
	if goal_word:
	env.set_goal_word(goal_word)
	outcomes = []
	win = False
	for i in range(env.max_turns):
	action = net.choose_action(v_wrap(state[None, :]))
	state, reward, done, _ = env.step(action)
	outcomes.append(env.words[action])
	if done:
	if reward > 0:
	win = True
	break
	return win, outcomes