AlexandrKovalenko1981
/

dummy

Sentence Similarity

Model card Files Files and versions Community

dummy / fine_tune_loop.py

AlexandrKovalenko1981's picture

AlexandrKovalenko1981

Upload fine_tune_loop.py with huggingface_hub

4746b5f verified 6 months ago

history blame contribute delete

2.89 kB

	from datasets import load_dataset
	from transformers import AutoTokenizer, DataCollatorWithPadding
	from torch.utils.data import DataLoader
	from transformers import AutoModelForSequenceClassification
	from transformers import AdamW
	from transformers import get_scheduler
	import torch
	from tqdm.auto import tqdm
	import evaluate

	raw_datasets = load_dataset("glue","mrpc")
	checkpoint = 'bert-base-cased'
	tokenizer = AutoTokenizer.from_pretrained(checkpoint)

	def tokenize_function(example):
	return tokenizer(example['sentence1'], example['sentence2'], truncation=True)

	tokenized_dataset = raw_datasets.map(tokenize_function, batched=True)
	tokenized_dataset = tokenized_dataset.remove_columns(['sentence1', 'sentence2','idx'])
	tokenized_dataset = tokenized_dataset.rename_column('label','labels')
	#print(tokenized_dataset.column_names["train"])

	tokenized_dataset.set_format('torch')
	#print(tokenized_dataset)

	data_collator = DataCollatorWithPadding(tokenizer)

	train_dataloader = DataLoader(
	tokenized_dataset['validation'], batch_size=8, collate_fn=data_collator
	)

	eval_dataloader = DataLoader(
	tokenized_dataset['validation'], batch_size=8, collate_fn=data_collator
	)

	#for batch in train_dataloader:
	# break
	#print({k: v.shape for k, v in batch.items()})
	#print()
	#print(batch)
	#print()

	model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

	#outputs = model(**batch)
	#print(outputs.loss, outputs.logits.shape)

	optimizer = AdamW(model.parameters(), lr=5e-5)

	#loss = outputs.loss
	#loss.backward()
	#optimizer.step()

	#optimizer.zero_grad()

	num_epochs = 3
	num_training_steps = num_epochs * len(train_dataloader)
	lr_scheduler = get_scheduler(
	'linear',
	optimizer=optimizer,
	num_warmup_steps=0,
	num_training_steps=num_training_steps
	)

	device = torch.device('mps') if torch.backends.mps.is_available() else torch.device('cpu')
	model.to(device)
	print(f'Using device: {device}')

	progress_bar = tqdm(range(num_training_steps))

	model.train()
	for epoch in range(num_epochs):
	for batch in train_dataloader:
	batch = {k: v.to(device) for k, v in batch.items()}
	outputs = model(**batch)
	loss = outputs.loss
	loss.backward()

	optimizer.step()
	lr_scheduler.step()
	optimizer.zero_grad()
	progress_bar.update(1)

	metric= evaluate.load('glue','mrpc')
	model.eval()
	for batch in eval_dataloader:
	batch = {k: v.to(device) for k, v in batch.items()}
	with torch.no_grad():
	outputs = model(**batch)

	logits = outputs.logits
	predictions = torch.argmax(logits, dim=-1)
	metric.add_batch(predictions=predictions, references=batch['labels'])

	result = metric.compute()
	print(result)

	save_dir = "/Users/alexandr/Desktop/HUGGING_FACE/model"

	model.save_pretrained(save_dir)
	tokenizer.save_pretrained(save_dir)

	print(f"model and tokenizer saved to {save_dir}")