botcon
/

adapter_bert

Transformers

PyTorch

Model card Files Files and versions Community

botcon commited on Nov 14, 2023

Commit

a8b5bd2

1 Parent(s): e5ce4aa

Upload 2 files

Browse files

Files changed (2) hide show

LUKE_pipe.py +122 -0
meta.py +104 -0

LUKE_pipe.py ADDED Viewed

	@@ -0,0 +1,122 @@

+from transformers import AutoTokenizer, AutoModelForQuestionAnswering
+import numpy as np
+from tqdm import tqdm
+import torch
+import collections
+luke_beam_size = 5
+n_best = 30
+max_length = 512
+stride = 128
+batch_size = 8
+n_best = 20
+max_answer_length = 30
+device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
+luke_model = AutoModelForQuestionAnswering.from_pretrained("botcon/LUKE_squadshift_finetuned_large").to(device)
+luke_tokenizer = AutoTokenizer.from_pretrained("roberta-base")
+def compute_beam(start_logits, end_logits, features, examples):
+    example_to_features = collections.defaultdict(list)
+    for idx, feature in enumerate(features):
+        example_to_features[feature["example_id"]].append(idx)
+    predicted_answers = []
+    for example in tqdm(examples):
+        example_id = example["id"]
+        context = example["context"]
+        answers = []
+        # Loop through all features associated with that example
+        for feature_index in example_to_features[example_id]:
+            start_logit = start_logits[feature_index]
+            end_logit = end_logits[feature_index]
+            offsets = features[feature_index]["offset_mapping"]
+            start_indexes = np.argsort(start_logit)[-1 : -n_best - 1 : -1].tolist()
+            end_indexes = np.argsort(end_logit)[-1 : -n_best - 1 : -1].tolist()
+            for start_index in start_indexes:
+                for end_index in end_indexes:
+                    # Skip answers that are not fully in the context
+                    if offsets[start_index] is None or offsets[end_index] is None:
+                        continue
+                    # Skip answers with a length that is either < 0 or > max_answer_length
+                    if (
+                        end_index < start_index
+                        or end_index - start_index + 1 > max_answer_length
+                    ):
+                        continue
+                    answer = {
+                        "text": context[offsets[start_index][0] : offsets[end_index][1]],
+                        "logit_score": start_logit[start_index] + end_logit[end_index],
+                    }
+                    answers.append(answer)
+        # Select the answer with the best score
+        if len(answers) > 0:
+            best_answers = sorted(answers, key=lambda x: x["logit_score"], reverse=True)
+            best_ans = []
+            best_logits = []
+            i = 0
+            while i < len(best_answers[:luke_beam_size]):
+                best_ans.append(best_answers[i]["text"])
+                best_logits.append(best_answers[i]["logit_score"])
+                i += 1
+            while i < luke_beam_size:
+                best_ans.append("")
+                best_logits.append(1e-5) # treat this as negative infinity
+                i += 1
+            predicted_answers.append({"id":example_id, "prediction_text": best_ans, "logits": best_logits})
+        else:
+            predicted_answers.append({"id": example_id, "prediction_text": ""})
+    return predicted_answers
+def preprocess_validation_examples(examples):
+    questions = [q.strip() for q in examples["question"]]
+    inputs = luke_tokenizer(
+        questions,
+        examples["context"],
+        max_length=max_length,
+        truncation="only_second",
+        stride=stride,
+        return_overflowing_tokens=True,
+        return_offsets_mapping=True,
+        padding="max_length",
+    )
+    sample_map = inputs.pop("overflow_to_sample_mapping")
+    example_ids = []
+    for i in range(len(inputs["input_ids"])):
+        sample_idx = sample_map[i]
+        example_ids.append(examples["id"][sample_idx])
+        sequence_ids = inputs.sequence_ids(i)
+        offset = inputs["offset_mapping"][i]
+        inputs["offset_mapping"][i] = [
+            o if sequence_ids[k] == 1 else None for k, o in enumerate(offset)
+        ]
+    inputs["example_id"] = example_ids
+    return inputs
+def generate(dataset):
+    luke_model.eval()
+    with torch.no_grad():
+        preprocessed = dataset.map(
+            preprocess_validation_examples,
+            batched=True,
+            remove_columns=dataset.column_names
+        )
+        eval_set_for_model = preprocessed.remove_columns(["example_id", "offset_mapping"])
+        eval_set_for_model.set_format("torch")
+        batch = {k: eval_set_for_model[k].to(device) for k in eval_set_for_model.column_names}
+        outputs = luke_model(**batch)
+        start_logits = outputs.start_logits.cpu().numpy()
+        end_logits = outputs.end_logits.cpu().numpy()
+        res = compute_beam(start_logits, end_logits, preprocessed, dataset)
+        return res

meta.py ADDED Viewed

	@@ -0,0 +1,104 @@

+import torch.nn as nn
+import torch
+from transformers import AutoTokenizer, BertForSequenceClassification, PreTrainedModel, PretrainedConfig
+from transformers.modeling_outputs import SequenceClassifierOutput
+from torch.nn import CrossEntropyLoss
+from torch.optim import AdamW
+from LUKE_pipe import generate
+from datasets import load_dataset
+from accelerate import Accelerator
+MAX_BEAM = 10
+device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
+class ClassifierAdapter(nn.Module):
+    def __init__(self, l1=3):
+        super().__init__()
+        self.linear1 = nn.Linear(l1, 1)
+        self.tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
+        self.bert = BertForSequenceClassification.from_pretrained("botcon/right_span_bert")
+        self.relu = nn.ReLU()
+    def forward(self, questions, answers, logits):
+        beam_size = len(answers[0])
+        samples = len(questions)
+        questions = [question for _ in range(len(answers[0])) for question in questions]
+        answers = [answer for beam in answers for answer in beam]
+        input = self.tokenizer(
+            questions,
+            answers,
+            padding="max_length",
+            return_tensors="pt"
+        ).to(device)
+        bert_logits = self.bert(**input).logits
+        bert_logits = bert_logits.reshape(samples, beam_size, 2)
+        logits = torch.FloatTensor(logits).to(device).unsqueeze(-1)
+        logits = torch.cat((logits, bert_logits), dim=-1)
+        logits = self.relu(logits)
+        out = torch.squeeze(self.linear1(logits), dim=-1)
+        return out
+class HuggingWrapper(PreTrainedModel):
+    config_class = PretrainedConfig()
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = ClassifierAdapter()
+    def forward(self, **kwargs):
+        labels = kwargs.pop("labels")
+        output = self.model(**kwargs)
+        loss_fn = CrossEntropyLoss(ignore_index=MAX_BEAM)
+        loss = loss_fn(output, labels)
+        return SequenceClassifierOutput(logits=output, loss=loss)
+model = HuggingWrapper.from_pretrained("botcon/special_bert").to(device)
+accelerator = Accelerator()
+optimizer = AdamW(model.parameters())
+num_epoch = 2
+raw_datasets = load_dataset("squad")
+raw_train = raw_datasets["train"]
+batch_size = 2
+for epoch in range(num_epoch):
+    start = 0
+    end = batch_size
+    training_data = raw_train
+    model.train()
+    while start < len(training_data):
+        optimizer.zero_grad()
+        batch_data = raw_train.select(range(start, min(end, len(training_data))))
+        with torch.no_grad():
+            res = generate(batch_data)
+            prediction = []
+            predicted_logit = []
+            labels = []
+            for i in range(len(res)):
+                x = res[i]
+                ground_answer = batch_data["answers"][i]["text"][0]
+                predicted_text = x["prediction_text"]
+                found = False
+                for k in range(len(predicted_text)):
+                    if predicted_text[k] == ground_answer:
+                        labels.append(k)
+                        found = True
+                        break
+                if not found:
+                    labels.append(MAX_BEAM)
+                prediction.append(predicted_text)
+                predicted_logit.append(x["logits"])
+        labels = torch.LongTensor(labels).to(device)
+        classifier_out = model(questions=batch_data["question"] , answers=prediction, logits=predicted_logit, labels=labels)
+        loss = classifier_out.loss
+        print(loss.item())
+        loss.backward()
+        optimizer.step()
+        start += batch_size
+        end += batch_size
+model.push_to_hub("some_fake_bert")