Spaces:

DeepLearning101
/

IE101TW

Sleeping

File size: 47,042 Bytes

6c0ee22

# -*- coding: utf-8 -*-
# @Time    : 2022/4/21 5:30 下午
# @Author  : JianingWang
# @File    : span_proto.py

"""
This code is implemented for the paper ""SpanProto: A Two-stage Span-based Prototypical Network for Few-shot Named Entity Recognition""
"""

import os
from typing import Optional
import torch
import numpy as np
import torch.nn as nn
from typing import Union
from dataclasses import dataclass
from torch.nn import BCEWithLogitsLoss
from transformers import MegatronBertModel, MegatronBertPreTrainedModel
from transformers.file_utils import ModelOutput
from transformers.models.bert import BertPreTrainedModel, BertModel

a = torch.nn.Embedding(10, 20)
a.parameters

class RawGlobalPointer(nn.Module):
    def __init__(self, encoder, ent_type_size, inner_dim, RoPE=True):
        # encodr: RoBerta-Large as encoder
        # inner_dim: 64
        # ent_type_size: ent_cls_num
        super().__init__()
        self.encoder = encoder
        self.ent_type_size = ent_type_size
        self.inner_dim = inner_dim
        self.hidden_size = encoder.config.hidden_size
        self.dense = nn.Linear(self.hidden_size, self.ent_type_size * self.inner_dim * 2)

        self.RoPE = RoPE

    def sinusoidal_position_embedding(self, batch_size, seq_len, output_dim):
        position_ids = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(-1)

        indices = torch.arange(0, output_dim // 2, dtype=torch.float)
        indices = torch.pow(10000, -2 * indices / output_dim)
        embeddings = position_ids * indices
        embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1)
        embeddings = embeddings.repeat((batch_size, *([1] * len(embeddings.shape))))
        embeddings = torch.reshape(embeddings, (batch_size, seq_len, output_dim))
        embeddings = embeddings.to(self.device)
        return embeddings

    def forward(self, input_ids, attention_mask, token_type_ids):
        self.device = input_ids.device

        context_outputs = self.encoder(input_ids, attention_mask, token_type_ids)
        # last_hidden_state:(batch_size, seq_len, hidden_size)
        last_hidden_state = context_outputs[0]

        batch_size = last_hidden_state.size()[0]
        seq_len = last_hidden_state.size()[1]

        outputs = self.dense(last_hidden_state)
        outputs = torch.split(outputs, self.inner_dim * 2, dim=-1)
        outputs = torch.stack(outputs, dim=-2)
        qw, kw = outputs[..., :self.inner_dim], outputs[..., self.inner_dim:]
        if self.RoPE:
            # pos_emb:(batch_size, seq_len, inner_dim)
            pos_emb = self.sinusoidal_position_embedding(batch_size, seq_len, self.inner_dim)
            cos_pos = pos_emb[..., None, 1::2].repeat_interleave(2, dim=-1)
            sin_pos = pos_emb[..., None, ::2].repeat_interleave(2, dim=-1)
            qw2 = torch.stack([-qw[..., 1::2], qw[..., ::2]], -1)
            qw2 = qw2.reshape(qw.shape)
            qw = qw * cos_pos + qw2 * sin_pos
            kw2 = torch.stack([-kw[..., 1::2], kw[..., ::2]], -1)
            kw2 = kw2.reshape(kw.shape)
            kw = kw * cos_pos + kw2 * sin_pos
        # logits:(batch_size, ent_type_size, seq_len, seq_len)
        logits = torch.einsum("bmhd,bnhd->bhmn", qw, kw)

        # padding mask
        pad_mask = attention_mask.unsqueeze(1).unsqueeze(1).expand(batch_size, self.ent_type_size, seq_len, seq_len)
        logits = logits * pad_mask - (1 - pad_mask) * 1e12

        # 排除下三角
        mask = torch.tril(torch.ones_like(logits), -1)
        logits = logits - mask * 1e12

        return logits / self.inner_dim ** 0.5


class SinusoidalPositionEmbedding(nn.Module):
    """定义Sin-Cos位置Embedding
    """

    def __init__(
            self, output_dim, merge_mode="add", custom_position_ids=False):
        super(SinusoidalPositionEmbedding, self).__init__()
        self.output_dim = output_dim
        self.merge_mode = merge_mode
        self.custom_position_ids = custom_position_ids

    def forward(self, inputs):
        if self.custom_position_ids:
            seq_len = inputs.shape[1]
            inputs, position_ids = inputs
            position_ids = position_ids.type(torch.float)
        else:
            input_shape = inputs.shape
            batch_size, seq_len = input_shape[0], input_shape[1]
            position_ids = torch.arange(seq_len).type(torch.float)[None]
        indices = torch.arange(self.output_dim // 2).type(torch.float)
        indices = torch.pow(10000.0, -2 * indices / self.output_dim)
        embeddings = torch.einsum("bn,d->bnd", position_ids, indices)
        embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1)
        embeddings = torch.reshape(embeddings, (-1, seq_len, self.output_dim))
        if self.merge_mode == "add":
            return inputs + embeddings.to(inputs.device)
        elif self.merge_mode == "mul":
            return inputs * (embeddings + 1.0).to(inputs.device)
        elif self.merge_mode == "zero":
            return embeddings.to(inputs.device)


def multilabel_categorical_crossentropy(y_pred, y_true):
    y_pred = (1 - 2 * y_true) * y_pred  # -1 -> pos classes, 1 -> neg classes
    y_pred_neg = y_pred - y_true * 1e12  # mask the pred outputs of pos classes
    y_pred_pos = y_pred - (1 - y_true) * 1e12  # mask the pred outputs of neg classes
    zeros = torch.zeros_like(y_pred[..., :1])
    y_pred_neg = torch.cat([y_pred_neg, zeros], dim=-1)
    y_pred_pos = torch.cat([y_pred_pos, zeros], dim=-1)
    neg_loss = torch.logsumexp(y_pred_neg, dim=-1)
    pos_loss = torch.logsumexp(y_pred_pos, dim=-1)
    # print(y_pred, y_true, pos_loss)
    return (neg_loss + pos_loss).mean()


def multilabel_categorical_crossentropy2(y_pred, y_true):
    y_pred = (1 - 2 * y_true) * y_pred  # -1 -> pos classes, 1 -> neg classes
    y_pred_neg = y_pred.clone()
    y_pred_pos = y_pred.clone()
    y_pred_neg[y_true>0] -= float("inf")
    y_pred_pos[y_true<1] -= float("inf")
    # y_pred_neg = y_pred - y_true * float("inf")  # mask the pred outputs of pos classes
    # y_pred_pos = y_pred - (1 - y_true) * float("inf")  # mask the pred outputs of neg classes
    zeros = torch.zeros_like(y_pred[..., :1])
    y_pred_neg = torch.cat([y_pred_neg, zeros], dim=-1)
    y_pred_pos = torch.cat([y_pred_pos, zeros], dim=-1)
    neg_loss = torch.logsumexp(y_pred_neg, dim=-1)
    pos_loss = torch.logsumexp(y_pred_pos, dim=-1)
    # print(y_pred, y_true, pos_loss)
    return (neg_loss + pos_loss).mean()

@dataclass
class GlobalPointerOutput(ModelOutput):
    loss: Optional[torch.FloatTensor] = None
    topk_probs: torch.FloatTensor = None
    topk_indices: torch.IntTensor = None
    last_hidden_state: torch.FloatTensor = None


@dataclass
class SpanProtoOutput(ModelOutput):
    loss: Optional[torch.FloatTensor] = None
    query_spans: list = None
    proto_logits: list = None
    topk_probs: torch.FloatTensor = None
    topk_indices: torch.IntTensor = None


class SpanDetector(BertPreTrainedModel):
    def __init__(self, config):
        # encodr: RoBerta-Large as encoder
        # inner_dim: 64
        # ent_type_size: ent_cls_num
        super().__init__(config)
        self.bert = BertModel(config)
        # self.ent_type_size = config.ent_type_size
        self.ent_type_size = 1
        self.inner_dim = 64
        self.hidden_size = config.hidden_size
        self.RoPE = True

        self.dense_1 = nn.Linear(self.hidden_size, self.inner_dim * 2)
        self.dense_2 = nn.Linear(self.hidden_size, self.ent_type_size * 2)  # 原版的dense2是(inner_dim * 2, ent_type_size * 2)


    def sequence_masking(self, x, mask, value="-inf", axis=None):
        if mask is None:
            return x
        else:
            if value == "-inf":
                value = -1e12
            elif value == "inf":
                value = 1e12
            assert axis > 0, "axis must be greater than 0"
            for _ in range(axis - 1):
                mask = torch.unsqueeze(mask, 1)
            for _ in range(x.ndim - mask.ndim):
                mask = torch.unsqueeze(mask, mask.ndim)
            return x * mask + value * (1 - mask)

    def add_mask_tril(self, logits, mask):
        if mask.dtype != logits.dtype:
            mask = mask.type(logits.dtype)
        logits = self.sequence_masking(logits, mask, "-inf", logits.ndim - 2)
        logits = self.sequence_masking(logits, mask, "-inf", logits.ndim - 1)
        # 排除下三角
        mask = torch.tril(torch.ones_like(logits), diagonal=-1)
        logits = logits - mask * 1e12
        return logits

    def forward(self, input_ids, attention_mask, token_type_ids, labels=None, short_labels=None):
        # with torch.no_grad():
        context_outputs = self.bert(input_ids, attention_mask, token_type_ids)
        last_hidden_state = context_outputs.last_hidden_state # [bz, seq_len, hidden_dim]
        del context_outputs
        outputs = self.dense_1(last_hidden_state) # [bz, seq_len, 2*inner_dim]
        qw, kw = outputs[..., ::2], outputs[..., 1::2]  # 从0,1开始间隔为2 最后一个维度，从0开始，取奇数位置所有向量汇总
        batch_size = input_ids.shape[0]
        if self.RoPE: # 是否使用RoPE旋转位置编码
            pos = SinusoidalPositionEmbedding(self.inner_dim, "zero")(outputs)
            cos_pos = pos[..., 1::2].repeat_interleave(2, dim=-1) # e.g. [0.34, 0.90] -> [0.34, 0.34, 0.90, 0.90]
            sin_pos = pos[..., ::2].repeat_interleave(2, dim=-1)
            qw2 = torch.stack([-qw[..., 1::2], qw[..., ::2]], 3)
            qw2 = torch.reshape(qw2, qw.shape)
            qw = qw * cos_pos + qw2 * sin_pos
            kw2 = torch.stack([-kw[..., 1::2], kw[..., ::2]], 3)
            kw2 = torch.reshape(kw2, kw.shape)
            kw = kw * cos_pos + kw2 * sin_pos
        logits = torch.einsum("bmd,bnd->bmn", qw, kw) / self.inner_dim ** 0.5
        bias = torch.einsum("bnh->bhn", self.dense_2(last_hidden_state)) / 2
        logits = logits[:, None] + bias[:, ::2, None] + bias[:, 1::2, :, None]  # logits[:, None] 增加一个维度
        # logit_mask = self.add_mask_tril(logits, mask=attention_mask)
        loss = None

        mask = torch.triu(attention_mask.unsqueeze(2) * attention_mask.unsqueeze(1)) # 上三角矩阵
        # mask = torch.where(mask > 0, 0.0, 1)
        if labels is not None:
            # y_pred = torch.zeros(input_ids.shape[0], self.ent_type_size, input_ids.shape[1], input_ids.shape[1], device=input_ids.device)
            # for i in range(input_ids.shape[0]):
            #     for j in range(self.ent_type_size):
            #         y_pred[i, j, labels[i, j, 0], labels[i, j, 1]] = 1
            # y_true = labels.reshape(input_ids.shape[0] * self.ent_type_size, -1)
            # y_pred = logit_mask.reshape(input_ids.shape[0] * self.ent_type_size, -1)
            # loss = multilabel_categorical_crossentropy(y_pred, y_true)
            #

            # weight = ((labels == 0).sum() / labels.sum())/5
            # loss_fct = nn.BCEWithLogitsLoss(weight=weight)
            # loss_fct = nn.BCEWithLogitsLoss(reduction="none")
            # unmask_labels = labels.view(-1)[mask.view(-1) > 0]
            # loss = loss_fct(logits.view(-1)[mask.view(-1) > 0], unmask_labels.float())
            # if unmask_labels.sum() > 0:
            #     loss = (loss[unmask_labels > 0].mean()+loss[unmask_labels < 1].mean())/2
            # else:
            #     loss = loss[unmask_labels < 1].mean()
            # y_pred = logits.view(-1)[mask.view(-1) > 0]
            # y_true = labels.view(-1)[mask.view(-1) > 0]
            # loss = multilabel_categorical_crossentropy2(y_pred, y_true)
            # y_pred = logits - torch.where(mask > 0, 0.0, float("inf")).unsqueeze(1)
            y_pred = logits - (1-mask.unsqueeze(1))*1e12
            y_true = labels.view(input_ids.shape[0] * self.ent_type_size, -1)
            y_pred = y_pred.view(input_ids.shape[0] * self.ent_type_size, -1)
            loss = multilabel_categorical_crossentropy(y_pred, y_true)

        with torch.no_grad():
            prob = torch.sigmoid(logits) * mask.unsqueeze(1)
            topk = torch.topk(prob.view(batch_size, self.ent_type_size, -1), 50, dim=-1)


        return GlobalPointerOutput(
            loss=loss,
            topk_probs=topk.values,
            topk_indices=topk.indices,
            last_hidden_state=last_hidden_state
        )


class SpanProto(nn.Module):
    def __init__(self, config):
        """
        word_encoder: Sentence encoder

        You need to set self.cost as your own loss function.
        """
        nn.Module.__init__(self)
        self.config = config
        self.output_dir = "./outputs"
        # self.predict_dir = self.predict_result_path(self.output_dir)
        self.drop = nn.Dropout()
        self.global_span_detector = SpanDetector(config=self.config) # global span detector
        self.projector = nn.Sequential( # projector
            nn.Linear(self.config.hidden_size, self.config.hidden_size),
            nn.Sigmoid(),
            # nn.LayerNorm(2)
        )
        self.tag_embeddings = nn.Embedding(2, self.config.hidden_size) # tag for labeled / unlabeled span set
        # self.tag_mlp = nn.Linear(self.config.hidden_size, self.config.hidden_size)
        self.max_length = 64
        self.margin_distance = 6.0
        self.global_step = 0

    def predict_result_path(self, path=None):
        if path is None:
            predict_dir = os.path.join(
                self.output_dir, "{}-{}-{}".format(self.mode, self.num_class, self.num_example), "predict"
            )
        else:
            predict_dir = os.path.join(
                path, "predict"
            )
        # if os.path.exists(predict_dir):
        #     os.rmdir(predict_dir) # 删除历史记录
        if not os.path.exists(predict_dir): # 重新创建一个新的目录
            os.makedirs(predict_dir)
        return predict_dir


    @classmethod
    def from_pretrained(cls, pretrained_model_name_or_path: Optional[Union[str, os.PathLike]], *model_args, **kwargs):
        config = kwargs.pop("config", None)
        model = SpanProto(config=config)
        # 将bert部分参数加载进去
        model.global_span_detector = SpanDetector.from_pretrained(
            pretrained_model_name_or_path,
            *model_args,
            **kwargs
        )
        # 将剩余的参数加载进来
        return model

    # @classmethod
    # def resize_token_embeddings(self, new_num_tokens: Optional[int] = None):
    #     self.global_span_detector.resize_token_embeddings(new_num_tokens)

    def __dist__(self, x, y, dim, use_dot=False):
        # x: [1, class_num, hidden_dim], y: [span_num, 1, hidden_dim]
        # x - y: [span_num, class_num, hidden_dim]
        # (x - y)^2.sum(2): [span_num, class_num]
        if use_dot:
            return (x * y).sum(dim)
        else:
            return -(torch.pow(x - y, 2)).sum(dim)

    def __get_proto__(self, support_emb: torch, support_span: list, support_span_type: list, use_tag=False):
        """
        support_emb: [n", seq_len, dim]
        support_span: [n", m, 2] e.g. [[[3, 6], [12, 13]], [[1, 3]], ...]
        support_span_type: [n", m] e.g. [[2, 1], [5], ...]
        """
        prototype = list() # 每个类的proto type
        all_span_embs = list() # 保存每个span的embedding
        all_span_tags = list()
        # 遍历每个类
        for tag in range(self.num_class):
            # tag_id = torch.Tensor([1 if tag == self.num_class else 0]).long().cuda()
            # tag_embeddings = self.tag_embeddings(tag_id).view(-1)
            tag_prototype = list() # [k, dim]
            # 遍历当前episode内的每个句子
            for emb, span, type in zip(support_emb, support_span, support_span_type):
                # emb: [seq_len, dim], span: [m, 2], type: [m]
                span = torch.Tensor(span).long().cuda() # e.g. [[3, 4], [9, 11]]
                type = torch.Tensor(type).long().cuda() # e.g. [1, 4]
                # 获取当前句子中属于tag类的span
                try:
                    tag_span = span[type == tag] # e.g. span==[[3, 4]], tag==1

                    # 遍历每个检索到的span，获得其span embedding
                    for (s, e) in tag_span:
                        # tag_emb = torch.cat([emb[s], emb[e - 1]]) # [2*dim]
                        tag_emb = emb[s] + emb[e] # [dim]
                        # if use_tag: # 添加是否为unlabeled的标记，0对应embedding表示当前的span是labeled span，否则为unlabeled span
                        #     tag_emb = tag_emb + tag_embeddings
                        tag_prototype.append(tag_emb)
                        all_span_embs.append(tag_emb)
                        all_span_tags.append(tag)
                except:
                    # 说明当前类不存在对应的span，则随机
                    tag_prototype.append(torch.randn(support_emb.shape[-1]).cuda())
                    # assert 1 > 2
            try:
                prototype.append(torch.mean(torch.stack(tag_prototype), dim=0))
            except:
                # print("the class {} has no span".format(tag))
                prototype.append(torch.randn(support_emb.shape[-1]).cuda())
                # assert 1 > 2
        all_span_embs = torch.stack(all_span_embs).detach().cpu().numpy().tolist()

        return torch.stack(prototype), all_span_embs, all_span_tags # [num_class + 1, dim]


    def __batch_dist__(self, prototype: torch, query_emb: torch, query_spans: list, query_span_type: Union[list, None]):
        """
        该函数用于获得query到各个prototype的分类
        """
        # 首先获得当前episode的每个句子的每个span的表征向量
        # 遍历每个句子
        all_logits = list() # 保存每个episode，每个句子所有span的预测概率
        all_types = list()
        visual_all_types, visual_all_embs = list(), list() # 用于展示可视化
        # num = 0
        for emb, span in zip(query_emb, query_spans): # 遍历每个句子
            # assert len(span) == len(query_span_type[num]), "span={}\ntype{}".format(span, query_span_type[num])
            # print("len(span)={}, len(type)= {}".format(len(span), len(query_span_type[num])))
            span_emb = list()  # 保存当前句子所有span的embedding [m", dim]
            try:
                for (s, e) in span: # 遍历每个span
                    tag_emb = emb[s] + emb[e]  # [dim]
                    span_emb.append(tag_emb)
            except:
                span_emb = []
            if len(span_emb) != 0:
                span_emb = torch.stack(span_emb) # [span_num, dim]
                # 每个span与prototype计算距离
                logits = self.__dist__(prototype.unsqueeze(0), span_emb.unsqueeze(1), 2) # [span_num, num_class]
                # pred_types = torch.argmax(logits, -1).detach().cpu().numpy().tolist()
                with torch.no_grad():
                    pred_dist, pred_types = torch.max(logits, -1) # 获得每个query与所有prototype的距离的最近的类及其距离的平方
                    pred_dist = torch.pow(-1 * pred_dist, 0.5)
                    # print("pred_dist=", pred_dist)
                    # 如果最近的距离超过了margin distant，则该span视为unlabeled span，标注为特殊的类
                    pred_types[pred_dist > self.margin_distance] = self.num_class
                    pred_types = pred_types.detach().cpu().numpy().tolist()
                # # 获得概率分布
                # with torch.no_grad():
                #     prob = torch.softmax(logits, -1)
                #     pred_proba, pred_types = torch.max(logits, -1)  # 获得每个span预测概率最大的类及其概率
                #     pred_types[pred_proba <= 0.6] = self.num_class # 如果当前预测的最大概率不满足，则说明其可能是一个其他实体
                #     pred_types = pred_types.detach().cpu().numpy().tolist()

                all_logits.append(logits)
                all_types.append(pred_types)
                visual_all_types.extend(pred_types)
                visual_all_embs.extend(span_emb.detach().cpu().numpy().tolist())
            else:
                all_logits.append([])
                all_types.append([])
            # num += 1

        if query_span_type is not None:
            # query_span_type: [n", m]
            try:
                all_type = torch.Tensor([type for types in query_span_type for type in types]).long().cuda() # [span_num]
                loss = nn.CrossEntropyLoss()(torch.cat(all_logits, 0), all_type)
            except:
                all_logit, all_type = list(), list()
                for logits, types in zip(all_logits, query_span_type):
                    if len(logits) != 0 and len(types) != 0 and len(logits) == len(types):
                        # print("len(logits)=", len(logits))
                        # print("len(types)=", len(types))
                        # print("logits=", logits)
                        all_logit.append(logits)
                        all_type.extend(types)
                # print("all_logit=", all_logit)
                if len(all_logit) != 0:
                    all_logit = torch.cat(all_logit, 0)
                    all_type = torch.Tensor(all_type).long().cuda()
                    # print("len(all_logits)=", len(all_logits))
                    # print("len(query_span_type)=", len(query_span_type))

                    # print("types.shape=", torch.Tensor(all_type).shape)

                    # min_len = min(len(all_type), len(all_type))
                    # all_logit, all_type = all_logit[: min_len], all_type[: min_len]
                    # print("logits.shape=", all_logit.shape)
                    # print("all_type=", all_type)
                    loss = nn.CrossEntropyLoss()(all_logit, all_type)
                else:
                    loss = 0.


        else:
            loss = None
        all_logits = [i.detach().cpu().numpy().tolist() for i in all_logits if len(i) != 0]
        return loss, all_logits, all_types, visual_all_types, visual_all_embs


    def __batch_margin__(self, prototype: torch, query_emb: torch, query_unlabeled_spans: list,
                         query_labeled_spans: list, query_span_type: list):
        """
        该函数用于拉开unlabeled span与各个prototype的距离，拉近labeled span到对应类别的距离
        """

        # prototype: [num_class, dim], negative: [span_num, dim]
        # 获得每个unlabeled span与每个prototype的距离的平方，目标是对于每个距离平方都要设置大于margin阈值
        def distance(input1, input2, p=2, eps=1e-6):
            # Compute the distance (p-norm)
            norm = torch.pow(torch.abs((input1 - input2 + eps)), p)
            pnorm = torch.pow(torch.sum(norm, -1), 1.0 / p)
            return pnorm

        unlabeled_span_emb, labeled_span_emb, labeled_span_type = list(), list(), list()
        for emb, span in zip(query_emb, query_unlabeled_spans): # 遍历每个句子
              # 保存当前句子所有span的embedding [m", dim]
            for (s, e) in span: # 遍历每个span
                tag_emb = emb[s] + emb[e]  # [dim]
                unlabeled_span_emb.append(tag_emb)

        # for emb, span, type in zip(query_emb, query_labeled_spans, query_span_type): # 遍历每个句子
        #       # 保存当前句子所有span的embedding [m", dim]
        #     for (s, e) in span: # 遍历每个span
        #         tag_emb = emb[s] + emb[e]  # [dim]
        #         labeled_span_emb.append(tag_emb)
        #     labeled_span_type.extend(type)

        try:
            unlabeled_span_emb = torch.stack(unlabeled_span_emb) # [span_num, dim]
            # labeled_span_emb = torch.stack(labeled_span_emb) # [span_num, dim]
            # labeled_span_type = torch.stack(labeled_span_type) # [span_num]
        except:
            return 0.

        unlabeled_dist = distance(prototype.unsqueeze(0), unlabeled_span_emb.unsqueeze(1)) # [span_num, num_class]
        # labeled_dist = distance(prototype.unsqueeze(0), labeled_span_emb.unsqueeze(1)) # [span_num, num_class]
        # 获得每个span对应ground truth类别距离prototype的距离
        # labeled_type_dist = torch.gather(labeled_dist, -1, labeled_span_type.unsqueeze(1)) # [span_num, 1]
        # print(dist)
        unlabeled_output = torch.maximum(torch.zeros_like(unlabeled_dist), self.margin_distance - unlabeled_dist)
        # labeled_output = torch.maximum(torch.zeros_like(labeled_type_dist), labeled_type_dist)
        # return torch.mean(unlabeled_output) + torch.mean(labeled_output)
        return torch.mean(unlabeled_output)


    def forward(
            self,
            episode_ids,
            support, query,
            num_class,
            num_example,
            mode=None,
            short_labels=None,
            stage:str ="train",
            path: str=None
    ):
        """
        episode_ids: Input of the idx of each episode data. (only list)
        support: Inputs of the support set.
        query: Inputs of the query set.
        num_class: Num of classes
        K: Num of instances for each class in the support set
        Q: Num of instances for each class in the query set
        return: logits, pred
        """
        if stage.startswith("train"):
            self.global_step += 1
        self.num_class = num_class # N-way K-shot里的N
        self.num_example = num_example # N-way K-shot里的K
        # print("num_class=", num_class)
        self.mode = mode # FewNERD mode=inter/intra
        self.max_length = support["input_ids"].shape[1]
        support_inputs, support_attention_masks, support_type_ids = \
            support["input_ids"], support["attention_mask"], support["token_type_ids"] # torch, [n, seq_len]
        query_inputs, query_attention_masks, query_type_ids = \
            query["input_ids"], query["attention_mask"], query["token_type_ids"] # torch, [n, seq_len]
        support_labels = support["labels"] # torch,
        query_labels = query["labels"] # torch,
        # global span detector: obtain all mention span and loss
        support_detector_outputs = self.global_span_detector(
            support_inputs, support_attention_masks, support_type_ids, support_labels, short_labels=short_labels
        )
        query_detector_outputs = self.global_span_detector(
            query_inputs, query_attention_masks, query_type_ids, query_labels, short_labels=short_labels
        )
        device_id = support_inputs.device.index

        # if stage == "train_span":
        if self.global_step <= 500 and stage == "train":
            # only train span detector
            return SpanProtoOutput(
                loss=support_detector_outputs.loss,
                topk_probs=query_detector_outputs.topk_probs,
                topk_indices=query_detector_outputs.topk_indices,
            )
        # obtain labeled span from the support set
        support_labeled_spans = support["labeled_spans"] # all labeled span, list, [n, m, 2], n sentence, m entity span, 2 (start / end)
        support_labeled_types = support["labeled_types"] # all labeled ent type id, list, [n, m],
        query_labeled_spans = query["labeled_spans"]  # all labeled span, list, [n, m, 2], n sentence, m entity span, 2 (start / end)
        query_labeled_types = query["labeled_types"]  # all labeled ent type id, list, [n, m],

        # for span, type in zip(query_labeled_spans, query_labeled_types): # 遍历每个句子
        #     assert len(span) == len(type), "span={}\ntype{}".format(span, type)

        # obtain unlabeled span from the support set
        # according to the detector, we can obtain multiple unlabeled span, which generated by the detector
        # but not labeled in n-way k-shot episode
        # support_predict_spans = self.get_topk_spans( #
        #     support_detector_outputs.topk_probs,
        #     support_detector_outputs.topk_indices,
        #     support["input_ids"]
        # ) # [n, m, 2]
        # print("predicted support span num={}".format([len(i) for i in support_predict_spans]))
        # e.g. 打印一个所有句子，每个元素表示每个句子中的span个数，[5, 50, 4, 43, 5, 5, 1, 50, 2, 5, 6, 4, 50, 8, 12, 28, 17]

        # we can also obtain all predicted span from the query set
        query_predict_spans = self.get_topk_spans(  #
            query_detector_outputs.topk_probs,
            query_detector_outputs.topk_indices,
            query["input_ids"],
            threshold=0.9 if stage.startswith("train") else 0.95,
            is_query=True
        )  # [n, m, 2]
        # print("predicted query span num={}".format([len(i) for i in query_predict_spans]))


        # merge predicted span and labeled span, and generate other class for unlabeled span set
        # support_all_spans, support_span_types = self.merge_span(
        #     labeled_spans=support_labeled_spans,
        #     labeled_types=support_labeled_types,
        #     predict_spans=support_predict_spans,
        #     stage=stage
        # ) # [n, m, 2] n 个句子，每个句子有若干个span
        # print("merged support span num={}".format([len(i) for i in support_all_spans]))


        if stage.startswith("train"):
            # 在训练阶段，需要知道detector识别的所有区间中，哪些是labeled，哪些是unlabeled，将unlabeled span全部分离出来
            query_unlabeled_spans = self.split_span( # 拆分出unlabeled span，用于后面的margin loss
                labeled_spans=query_labeled_spans,
                labeled_types=query_labeled_types,
                predict_spans=query_predict_spans,
                stage=stage
            )  # [n, m, 2] n 个句子，每个句子有若干个span
            # print("merged query span num={}".format([len(i) for i in query_all_spans]))
            query_all_spans = query_labeled_spans
            query_span_types = query_labeled_types

        else:
            # 在推理阶段，直接全部merge
            query_unlabeled_spans = None
            query_all_spans, _ = self.merge_span(
                labeled_spans=query_labeled_spans,
                labeled_types=query_labeled_types,
                predict_spans=query_predict_spans,
                stage=stage
            )  # [n, m, 2] n 个句子，每个句子有若干个span
            # 在dev和test时，此时query部分的span完全靠detector识别
            # query_all_spans = query_predict_spans
            query_span_types = None
            # 用于查看推理阶段dev或test的query上detector的预测结果
            # for query_label, query_pred in zip(query_labeled_spans, query_predict_spans):
            #     print(" ==== ")
            #     print("query_labeled_spans=", query_label)
            #     print("query_predict_spans=", query_pred)

        # obtain representations of each token
        support_emb, query_emb = support_detector_outputs.last_hidden_state, \
                                 query_detector_outputs.last_hidden_state # [n, seq_len, dim]
        support_emb, query_emb = self.projector(support_emb), self.projector(query_emb) # [n, seq_len, dim]

        # all_query_spans = list() # 保存每个episode的所有句子所有的预测span
        # all_proto_logits = list() # 保存每个episode的所有句子每个预测span对应的entity type
        batch_result = dict()
        proto_losses = list() # 保存每个episode的loss
        # batch_visual = list() # 保存每个episode所有span的表征向量，用于可视化
        current_support_num = 0
        current_query_num = 0
        typing_loss = None
        # 遍历每个episode
        for i, sent_support_num in enumerate(support["sentence_num"]):
            sent_query_num = query["sentence_num"][i]
            id_ = episode_ids[i] # 当前episode的编号

            # 对于support，只对labeled span获得prototype
            # locate one episode and obtain the span prototype
            # [n", seq_len, dim] n" sentence in one episode
            # support_proto [num_class + 1, dim]
            support_proto, all_span_embs, all_span_tags = self.__get_proto__(
                support_emb[current_support_num: current_support_num + sent_support_num], # [n", seq_len, dim]
                support_labeled_spans[current_support_num: current_support_num + sent_support_num],  # [n", m]
                support_labeled_types[current_support_num: current_support_num + sent_support_num],  # [n", m]
            )


            # 对于query set每个labeled span，使用标准的prototype learning
            # for each query, we first obtain corresponding span, and then calculate distance between it and each prototype
            # # [n", seq_len, dim] n" sentence in one episode
            proto_loss, proto_logits, all_types, visual_all_types, visual_all_embs = self.__batch_dist__(
                support_proto,
                query_emb[current_query_num: current_query_num + sent_query_num], # [n", seq_len, dim]
                query_all_spans[current_query_num: current_query_num + sent_query_num],  # [n", m]
                query_span_types[current_query_num: current_query_num + sent_query_num] if query_span_types else None,  # [n", m]
            )

            visual_data = {
                "data": all_span_embs + visual_all_embs,
                "target": all_span_tags + visual_all_types,
            }

            # 对于query unlabeled span，遍历每个span，拉开与所有prototype的距离，选择margin loss
            if stage.startswith("train"):

                margin_loss = self.__batch_margin__(
                    support_proto,
                    query_emb[current_query_num: current_query_num + sent_query_num],  # [n", seq_len, dim]
                    query_unlabeled_spans[current_query_num: current_query_num + sent_query_num],  # [n", span_num]
                    query_all_spans[current_query_num: current_query_num + sent_query_num],
                    query_span_types[current_query_num: current_query_num + sent_query_num],
                )

                proto_losses.append(proto_loss + margin_loss)

            batch_result[id_] = {
                "spans": query_all_spans[current_query_num: current_query_num + sent_query_num],
                "types": all_types,
                "visualization": visual_data
            }

            current_query_num += sent_query_num
            current_support_num += sent_support_num
        # proto_logits = torch.stack(proto_logits)
        if stage.startswith("train"):
            typing_loss = torch.mean(torch.stack(proto_losses), dim=-1)


        if not stage.startswith("train"):
            self.__save_evaluate_predicted_result__(batch_result, device_id=device_id, stage=stage, path=path)

        # return SpanProtoOutput(
        #         loss=((support_detector_outputs.loss + query_detector_outputs.loss) / 2.0 + typing_loss)
        #         if stage.startswith("train") else (support_detector_outputs.loss + query_detector_outputs.loss),
        #     ) # 返回部分的所有logits不论最外层是list还是tuple，最里层一定要包含一个张量，否则huggingface里的nested_detach函数会报错
        return SpanProtoOutput(
            loss=(support_detector_outputs.loss + typing_loss)
            if stage.startswith("train") else query_detector_outputs.loss,
        )  # 返回部分的所有logits不论最外层是list还是tuple，最里层一定要包含一个张量，否则huggingface里的nested_detach函数会报错

    def __save_evaluate_predicted_result__(self, new_result: dict, device_id: int = 0, stage="dev", path=None):
        """
        本函数用于在forward时保存每一个batch内的预测span以及span type
        new_result / result: {
            "(id)": { # id-th episode query
                "spans": [[[1, 4], [6, 7], xxx], ... ] # [sent_num, span_num, 2]
                "types": [[2, 0, xxx], ...] # [sent_num, span_num]
            },
            xxx
        }
        """
        # 拉取当前任务中已经预测的结果
        self.predict_dir = self.predict_result_path(path)
        npy_file_name = os.path.join(self.predict_dir, "{}_predictions_{}.npy".format(stage, device_id))
        result = dict()
        if os.path.exists(npy_file_name):
            result = np.load(npy_file_name, allow_pickle=True)[()]
        # 合并
        for episode_id, query_res in new_result.items():
            result[episode_id] = query_res
        # 保存
        np.save(npy_file_name, result, allow_pickle=True)


    def get_topk_spans(self, probs, indices, input_ids, threshold=0.60, low_threshold=0.1, is_query=False):
        """
        probs: [n, m]
        indices: [n, m]
        input_texts: [n, seq_len]
        is_query: if true, each sentence must recall at least one span
        """
        probs = probs.squeeze(1).detach().cpu()  # topk结果的概率 [n, m]  # 返回的已经是按照概率进行降序排列的结果
        indices = indices.squeeze(1).detach().cpu()  # topk结果的索引 [n, m]  # 返回的已经是按照概率进行降序排列的结果
        input_ids = input_ids.detach().cpu()
        # print("probs=", probs) # [n, m]
        # print("indices=", indices) # [n, m]
        predict_span = list()
        if is_query:
            low_threshold = 0.0
        for prob, index, text in zip(probs, indices, input_ids): # 遍历每个句子，其对应若干预测的span及其概率
            threshold_ = threshold
            index_ids = torch.Tensor([i for i in range(len(index))]).long()
            span = set()
            # TODO 1. 调节阈值 2. 处理输出实体重叠问题
            entity_index = index[prob >= low_threshold]
            index_ids = index_ids[prob >= low_threshold]
            while threshold_ >= low_threshold: # 动态控制阈值，以确保可以召回出span数量是尽可能均匀的（如果所有句子使用同一个阈值，那么每个句子被召回的span数量参差不齐）
                for ei, entity in enumerate(entity_index):
                    p = prob[index_ids[ei]]
                    if p < threshold_: # 如果此时候选的span得分已经低于阈值，由于获得的结果已经是降序排列的，则后续的结果一定都低于阈值，则直接结束
                        break
                    # 1D index转2D index
                    start_end = np.unravel_index(entity, (self.max_length, self.max_length))
                    # print("self.max_length=", self.max_length)
                    s, e = start_end[0], start_end[1]
                    ans = text[s: e]
                    # if ans not in answer:
                    #     answer.append(ans)
                    #     topk_answer_dict[ans] = {"prob": float(prob[index_ids[ei]]), "pos": [(s, e)]}
                    span.add((s, e))
                # 满足下列几个条件的，动态调低阈值，并重新筛选
                if len(span) <= 3:
                    threshold_ -= 0.05
                else:
                    break
            if len(span) == 0:
                # 如果当前没有召回出任何span，则直接选择[cls]作为结果（相当于MRC的unanswerable）
                span = [[0, 0]]
            span = [list(i) for i in list(span)]
            # print("prob=", prob) e.g. [0.96, 0.85, 0.04, 0.00, ...]
            # print("span=", span) e.g. [[20, 23], [11, 14]]
            predict_span.append(span)
        return predict_span


    def split_span(self, labeled_spans: list, labeled_types: list, predict_spans: list, stage: str = "train"):
        """
        # 对detector预测的所有span，划分出哪些是labeled span，哪些是unlabeled span

        """
        def check_similar_span(span1, span2):
            """
            检测两个span是否接近，例如[12, 16], [11, 16], [13, 15], [12, 17]是接近的
            """
            # 考虑一个特殊情况，例如 [12, 12], [13, 13]
            if len(span1) == 0 or len(span2) == 0:
                return False
            if span1[0] == span1[1] and span2[0] == span2[1] and abs(span1[0] - span2[0]) == 1:
                return False
            if abs(span1[0] - span2[0]) <= 1 and abs(span1[1] - span2[1]) <= 1: # 两个区间的起点和终点分别相差1以内
                return True
            return False

        all_spans, span_types = list(), list() # [n, m]
        num = 0
        unlabeled_spans = list()
        for labeled_span, labeled_type, predict_span in zip(labeled_spans, labeled_types, predict_spans):
            # 对detector预测的所有span，划分出哪些是labeled span，哪些是unlabeled span
            unlabeled_span = list()
            # if len(all_span) != len(span_type):
            #     length = min(len(all_span), len(span_type))
            #     all_span, span_type = all_span[: length], span_type[: length]
            for span in predict_span: # 遍历每个预测的span
                if span not in labeled_span: # 如果span没有存在，则说明当前的span是unlabeled的
                    # 可能存在一些临界点非常接近的（global pointer预测的临界点有时候很模糊），对于临界点相近的予以排除
                    is_remove = False
                    for span_x in labeled_span: # 遍历所有已经被merge的span
                        is_remove = check_similar_span(span_x, span) # 如果已存在的span，和当前的span很接近，则排除当前的span
                        if is_remove is True:
                            break
                    if is_remove is True:
                        continue
                    unlabeled_span.append(span)
            # if self.global_step % 1000 == 0:
            #     print(" === ")
            #     print("labeled_span=", labeled_span) # [[1, 3], [12, 14], [25, 25], [7, 7]]
            #     print("predict_span=", predict_span) # [[25, 25], [1, 3], [12, 14], [7, 7]]
            # if len(unlabeled_span) == 0 and stage.startswith("train"):
            #     # 如果当前句子没有一个unlabeled span，则需要进行负采样，以确保unlabeled不为空
            #     # print("unlabeled span is empty, so we randomly select one span as the unlabeled span")
            #     # all_span.append([0, 0])
            #     # span_type.append(self.num_class)
            #     while True:
            #         random_span = np.random.randint(0, 32, 2).tolist()
            #         if abs(random_span[0] - random_span[1]) > 10:
            #             continue
            #         random_span = [random_span[1], random_span[0]] if random_span[0] > random_span[1] else random_span
            #         if random_span in labeled_span or random_span in unlabeled_span:
            #             continue
            #         unlabeled_span.append(random_span)
            #         break
            num += len(unlabeled_span)
            unlabeled_spans.append(unlabeled_span)
        # print("num=", num)
        return unlabeled_spans


    def merge_span(self, labeled_spans: list, labeled_types: list, predict_spans: list, stage: str = "train"):

        def check_similar_span(span1, span2):
            """
            检测两个span是否接近，例如[12, 16], [11, 16], [13, 15], [12, 17]是接近的
            """
            # 考虑一个特殊情况，例如 [12, 12], [13, 13]
            if len(span1) == 0 or len(span2) == 0:
                return False
            if span1[0] == span1[1] and span2[0] == span2[1] and abs(span1[0] - span2[0]) == 1:
                return False
            if abs(span1[0] - span2[0]) <= 1 and abs(span1[1] - span2[1]) <= 1: # 两个区间的起点和终点分别相差1以内
                return True
            return False

        all_spans, span_types = list(), list() # [n, m]
        for labeled_span, labeled_type, predict_span in zip(labeled_spans, labeled_types, predict_spans):
            # 遍历每个句子，对它们的span进行合并
            unlabeled_num = 0
            all_span, span_type = labeled_span, labeled_type # 先加入所有labeled span
            if len(all_span) != len(span_type):
                length = min(len(all_span), len(span_type))
                all_span, span_type = all_span[: length], span_type[: length]
            for span in predict_span: # 遍历每个预测的span
                if span not in all_span: # 如果span没有存在，则说明当前的span是unlabeled的
                    # 可能存在一些临界点非常接近的（global pointer预测的临界点有时候很模糊），对于临界点相近的予以排除
                    is_remove = False
                    for span_x in all_span: # 遍历所有已经被merge的span
                        is_remove = check_similar_span(span_x, span) # 如果已存在的span，和当前的span很接近，则排除当前的span
                        if is_remove is True:
                            break
                    if is_remove is True:
                        continue
                    all_span.append(span)
                    span_type.append(self.num_class) # e.g. 5-way问题，已有标签为0，1，2，3，4，因此新增一个标签为5
                    unlabeled_num += 1
            # if self.global_step % 1000 == 0:
            #     print(" === ")
            #     print("labeled_span=", labeled_span) # [[1, 3], [12, 14], [25, 25], [7, 7]]
            #     print("predict_span=", predict_span) # [[25, 25], [1, 3], [12, 14], [7, 7]]
            if unlabeled_num == 0 and stage.startswith("train"):
                # 如果当前句子没有一个unlabeled span，则需要进行负采样，以确保unlabeled不为空
                # print("unlabeled span is empty, so we randomly select one span as the unlabeled span")
                # all_span.append([0, 0])
                # span_type.append(self.num_class)
                while True:
                    random_span = np.random.randint(0, 32, 2).tolist()
                    if abs(random_span[0] - random_span[1]) > 10:
                        continue
                    random_span = [random_span[1], random_span[0]] if random_span[0] > random_span[1] else random_span
                    if random_span in all_span:
                        continue
                    all_span.append(random_span)
                    span_type.append(self.num_class)
                    break

            # if len(all_span) != len(span_type):
            #     all_span = [[0, 0]]
            #     span_type = [self.num_class]

            all_spans.append(all_span)
            span_types.append(span_type)

        return all_spans, span_types