Spaces:

shi-labs
/

Prompt-Free-Diffusion

Runtime error

App Files Files Community

Prompt-Free-Diffusion / lib /model_zoo /clip.py

3v324v23

code pushed

515f781 almost 2 years ago

raw

history blame contribute delete

32.6 kB

	import torch
	import torch.nn as nn
	import numpy as np
	from functools import partial
	from lib.model_zoo.common.get_model import register

	symbol = 'clip'

	class AbstractEncoder(nn.Module):
	def __init__(self):
	super().__init__()

	def encode(self, args, *kwargs):
	raise NotImplementedError

	from transformers import CLIPTokenizer, CLIPTextModel

	def disabled_train(self, mode=True):
	"""Overwrite model.train with this function to make sure train/eval mode
	does not change anymore."""
	return self

	@register('clip_text_context_encoder_sdv1')
	class CLIPTextContextEncoderSDv1(AbstractEncoder):
	"""Uses the CLIP transformer encoder for text (from huggingface)"""
	def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77, freeze=True): # clip-vit-base-patch32
	super().__init__()
	self.tokenizer = CLIPTokenizer.from_pretrained(version)
	self.transformer = CLIPTextModel.from_pretrained(version)
	self.device = device
	self.max_length = max_length
	if freeze:
	self.freeze()

	def freeze(self):
	self.transformer = self.transformer.eval()
	for param in self.parameters():
	param.requires_grad = False

	def forward(self, text):
	with torch.no_grad():
	batch_encoding = self.tokenizer(
	text, truncation=True, max_length=self.max_length, return_length=True,
	return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
	tokens = batch_encoding["input_ids"].to(self.device)
	max_token_n = self.transformer.text_model.embeddings.position_ids.shape[1]
	positional_ids = torch.arange(max_token_n)[None].to(self.device)
	outputs = self.transformer(
	input_ids=tokens,
	position_ids=positional_ids, )
	z = outputs.last_hidden_state
	return z

	def encode(self, text):
	return self(text)

	#############################
	# copyed from justin's code #
	#############################

	@register('clip_image_context_encoder_justin')
	class CLIPImageContextEncoderJustin(AbstractEncoder):
	"""
	Uses the CLIP image encoder.
	"""
	def __init__(
	self,
	model='ViT-L/14',
	jit=False,
	device='cuda' if torch.cuda.is_available() else 'cpu',
	antialias=False,
	):
	super().__init__()
	from . import clip_justin
	self.model, _ = clip_justin.load(name=model, device=device, jit=jit)
	self.device = device
	self.antialias = antialias

	self.register_buffer('mean', torch.Tensor([0.48145466, 0.4578275, 0.40821073]), persistent=False)
	self.register_buffer('std', torch.Tensor([0.26862954, 0.26130258, 0.27577711]), persistent=False)

	# I didn't call this originally, but seems like it was frozen anyway
	self.freeze()

	def freeze(self):
	self.transformer = self.model.eval()
	for param in self.parameters():
	param.requires_grad = False

	def preprocess(self, x):
	import kornia
	# Expects inputs in the range -1, 1
	x = kornia.geometry.resize(x, (224, 224),
	interpolation='bicubic',align_corners=True,
	antialias=self.antialias)
	x = (x + 1.) / 2.
	# renormalize according to clip
	x = kornia.enhance.normalize(x, self.mean, self.std)
	return x

	def forward(self, x):
	# x is assumed to be in range [-1,1]
	return self.model.encode_image(self.preprocess(x)).float()

	def encode(self, im):
	return self(im).unsqueeze(1)

	###############
	# for vd next #
	###############

	from transformers import CLIPModel

	@register('clip_text_context_encoder')
	class CLIPTextContextEncoder(AbstractEncoder):
	def __init__(self,
	version="openai/clip-vit-large-patch14",
	max_length=77,
	fp16=False, ):
	super().__init__()
	self.tokenizer = CLIPTokenizer.from_pretrained(version)
	self.model = CLIPModel.from_pretrained(version)
	self.max_length = max_length
	self.fp16 = fp16
	self.freeze()

	def get_device(self):
	# A trick to get device
	return self.model.text_projection.weight.device

	def freeze(self):
	self.model = self.model.eval()
	self.train = disabled_train
	for param in self.parameters():
	param.requires_grad = False

	def encode(self, text):
	batch_encoding = self.tokenizer(
	text, truncation=True, max_length=self.max_length, return_length=True,
	return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
	tokens = batch_encoding["input_ids"].to(self.get_device())
	outputs = self.model.text_model(input_ids=tokens)
	z = self.model.text_projection(outputs.last_hidden_state)
	z_pooled = self.model.text_projection(outputs.pooler_output)
	z = z / torch.norm(z_pooled.unsqueeze(1), dim=-1, keepdim=True)
	return z

	from transformers import CLIPProcessor

	@register('clip_image_context_encoder')
	class CLIPImageContextEncoder(AbstractEncoder):
	def __init__(self,
	version="openai/clip-vit-large-patch14",
	fp16=False, ):
	super().__init__()
	self.tokenizer = CLIPTokenizer.from_pretrained(version)
	self.processor = CLIPProcessor.from_pretrained(version)
	self.model = CLIPModel.from_pretrained(version)
	self.fp16 = fp16
	self.freeze()

	def get_device(self):
	# A trick to get device
	return self.model.text_projection.weight.device

	def freeze(self):
	self.model = self.model.eval()
	self.train = disabled_train
	for param in self.parameters():
	param.requires_grad = False

	def _encode(self, images):
	if isinstance(images, torch.Tensor):
	import torchvision.transforms as tvtrans
	images = [tvtrans.ToPILImage()(i) for i in images]
	inputs = self.processor(images=images, return_tensors="pt")
	pixels = inputs['pixel_values'].half() if self.fp16 else inputs['pixel_values']
	pixels = pixels.to(self.get_device())
	outputs = self.model.vision_model(pixel_values=pixels)
	z = outputs.last_hidden_state
	z = self.model.vision_model.post_layernorm(z)
	z = self.model.visual_projection(z)
	z_pooled = z[:, 0:1]
	z = z / torch.norm(z_pooled, dim=-1, keepdim=True)
	return z

	@torch.no_grad()
	def _encode_wmask(self, images, masks):
	assert isinstance(masks, torch.Tensor)
	assert (len(masks.shape)==4) and (masks.shape[1]==1)
	masks = torch.clamp(masks, 0, 1)
	masked_images = images*masks
	masks = masks.float()
	masks = F.interpolate(masks, [224, 224], mode='bilinear')
	if masks.sum() == masks.numel():
	return self._encode(images)

	device = images.device
	dtype = images.dtype
	gscale = masks.mean(axis=[1, 2, 3], keepdim=True).flatten(2)

	vtoken_kernel_size = self.model.vision_model.embeddings.patch_embedding.kernel_size
	vtoken_stride = self.model.vision_model.embeddings.patch_embedding.stride
	mask_kernal = torch.ones([1, 1, *vtoken_kernel_size], device=device, requires_grad=False).float()
	vtoken_mask = torch.nn.functional.conv2d(masks, mask_kernal, stride=vtoken_stride).flatten(2).transpose(1, 2)
	vtoken_mask = vtoken_mask/np.prod(vtoken_kernel_size)
	vtoken_mask = torch.concat([gscale, vtoken_mask], axis=1)

	import types
	def customized_embedding_forward(self, pixel_values):
	batch_size = pixel_values.shape[0]
	patch_embeds = self.patch_embedding(pixel_values) # shape = [*, width, grid, grid]
	patch_embeds = patch_embeds.flatten(2).transpose(1, 2)

	class_embeds = self.class_embedding.expand(batch_size, 1, -1)
	embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
	embeddings = embeddings + self.position_embedding(self.position_ids)
	embeddings = embeddings*vtoken_mask.to(embeddings.dtype)
	return embeddings

	old_forward = self.model.vision_model.embeddings.forward
	self.model.vision_model.embeddings.forward = types.MethodType(
	customized_embedding_forward, self.model.vision_model.embeddings)

	z = self._encode(images)
	self.model.vision_model.embeddings.forward = old_forward
	z = z * vtoken_mask.to(dtype)
	return z

	# def _encode_wmask(self, images, masks):
	# assert isinstance(masks, torch.Tensor)
	# assert (len(masks.shape)==4) and (masks.shape[1]==1)
	# masks = torch.clamp(masks, 0, 1)
	# masks = masks.float()
	# masks = F.interpolate(masks, [224, 224], mode='bilinear')
	# if masks.sum() == masks.numel():
	# return self._encode(images)

	# device = images.device
	# dtype = images.dtype

	# vtoken_kernel_size = self.model.vision_model.embeddings.patch_embedding.kernel_size
	# vtoken_stride = self.model.vision_model.embeddings.patch_embedding.stride
	# mask_kernal = torch.ones([1, 1, *vtoken_kernel_size], device=device, requires_grad=False).float()
	# vtoken_mask = torch.nn.functional.conv2d(masks, mask_kernal, stride=vtoken_stride).flatten(2).transpose(1, 2)
	# vtoken_mask = vtoken_mask/np.prod(vtoken_kernel_size)

	# z = self._encode(images)
	# z[:, 1:, :] = z[:, 1:, :] * vtoken_mask.to(dtype)
	# z[:, 0, :] = 0
	# return z

	def encode(self, images, masks=None):
	if masks is None:
	return self._encode(images)
	else:
	return self._encode_wmask(images, masks)

	@register('clip_image_context_encoder_position_agnostic')
	class CLIPImageContextEncoderPA(CLIPImageContextEncoder):
	def __init__(self, args, *kwargs):
	super().__init__(args, *kwargs)
	import types
	def customized_embedding_forward(self, pixel_values):
	batch_size = pixel_values.shape[0]
	patch_embeds = self.patch_embedding(pixel_values) # shape = [*, width, grid, grid]
	patch_embeds = patch_embeds.flatten(2).transpose(1, 2)

	class_embeds = self.class_embedding.expand(batch_size, 1, -1)
	embeddings = torch.cat([class_embeds, patch_embeds], dim=1)
	pembeddings = self.position_embedding(self.position_ids)
	pembeddings = torch.cat([
	pembeddings[:, 0:1],
	pembeddings[:, 1: ].mean(dim=1, keepdim=True).repeat(1, 256, 1)], dim=1)
	embeddings = embeddings + pembeddings
	return embeddings

	self.model.vision_model.embeddings.forward = types.MethodType(
	customized_embedding_forward, self.model.vision_model.embeddings)

	##############
	# from sd2.0 #
	##############

	import open_clip
	import torch.nn.functional as F

	@register('openclip_text_context_encoder_sdv2')
	class FrozenOpenCLIPTextEmbedderSDv2(AbstractEncoder):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	LAYERS = [
	#"pooled",
	"last",
	"penultimate"
	]
	def __init__(self, arch="ViT-H-14", version="laion2b_s32b_b79k", device="cuda", max_length=77,
	freeze=True, layer="last"):
	super().__init__()
	assert layer in self.LAYERS
	model, _, _ = open_clip.create_model_and_transforms(arch, device=torch.device('cpu'), pretrained=version)
	del model.visual
	self.model = model

	self.device = device
	self.max_length = max_length
	if freeze:
	self.freeze()
	self.layer = layer
	if self.layer == "last":
	self.layer_idx = 0
	elif self.layer == "penultimate":
	self.layer_idx = 1
	else:
	raise NotImplementedError()

	def freeze(self):
	self.model = self.model.eval()
	for param in self.parameters():
	param.requires_grad = False

	def forward(self, text):
	tokens = open_clip.tokenize(text)
	z = self.encode_with_transformer(tokens.to(self.device))
	return z

	def encode_with_transformer(self, text):
	x = self.model.token_embedding(text) # [batch_size, n_ctx, d_model]
	x = x + self.model.positional_embedding
	x = x.permute(1, 0, 2) # NLD -> LND
	x = self.text_transformer_forward(x, attn_mask=self.model.attn_mask)
	x = x.permute(1, 0, 2) # LND -> NLD
	x = self.model.ln_final(x)
	return x

	def text_transformer_forward(self, x: torch.Tensor, attn_mask = None):
	for i, r in enumerate(self.model.transformer.resblocks):
	if i == len(self.model.transformer.resblocks) - self.layer_idx:
	break
	if self.model.transformer.grad_checkpointing and not torch.jit.is_scripting():
	x = checkpoint(r, x, attn_mask)
	else:
	x = r(x, attn_mask=attn_mask)
	return x

	def encode(self, text):
	return self(text)

	@register('openclip_text_context_encoder')
	class FrozenOpenCLIPTextEmbedder(AbstractEncoder):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	def __init__(self,
	arch="ViT-H-14",
	version="laion2b_s32b_b79k",
	max_length=77,
	freeze=True,):
	super().__init__()
	model, _, _ = open_clip.create_model_and_transforms(arch, device=torch.device('cpu'), pretrained=version)
	del model.visual
	self.model = model
	self.max_length = max_length
	self.device = 'cpu'
	if freeze:
	self.freeze()

	def to(self, device):
	self.device = device
	super().to(device)

	def freeze(self):
	self.model = self.model.eval()
	for param in self.parameters():
	param.requires_grad = False

	def forward(self, text):
	self.device = self.model.ln_final.weight.device # urgly trick
	tokens = open_clip.tokenize(text)
	z = self.encode_with_transformer(tokens.to(self.device))
	return z

	def encode_with_transformer(self, text):
	x = self.model.token_embedding(text) # [batch_size, n_ctx, d_model]
	x = x + self.model.positional_embedding
	x = x.permute(1, 0, 2) # NLD -> LND
	x = self.model.transformer(x, attn_mask=self.model.attn_mask)
	x = x.permute(1, 0, 2) # LND -> NLD
	x = self.model.ln_final(x)
	x_pool = x[torch.arange(x.shape[0]), text.argmax(dim=-1)] @ self.model.text_projection
	# x_pool_debug = F.normalize(x_pool, dim=-1)
	x = x @ self.model.text_projection
	x = x / x_pool.norm(dim=1, keepdim=True).unsqueeze(1)
	return x

	def encode(self, text):
	return self(text)

	@register('openclip_image_context_encoder')
	class FrozenOpenCLIPImageEmbedder(AbstractEncoder):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	def __init__(self,
	arch="ViT-H-14",
	version="laion2b_s32b_b79k",
	freeze=True,):
	super().__init__()
	model, _, preprocess = open_clip.create_model_and_transforms(
	arch, device=torch.device('cpu'), pretrained=version)
	self.model = model.visual
	self.device = 'cpu'
	import torchvision.transforms as tvtrans
	# we only need resize & normalization
	preprocess.transforms[0].size = [224, 224] # make it more precise
	self.preprocess = tvtrans.Compose([
	preprocess.transforms[0],
	preprocess.transforms[4],])
	if freeze:
	self.freeze()

	def to(self, device):
	self.device = device
	super().to(device)

	def freeze(self):
	self.model = self.model.eval()
	for param in self.parameters():
	param.requires_grad = False

	def forward(self, image):
	z = self.preprocess(image)
	z = self.encode_with_transformer(z)
	return z

	def encode_with_transformer(self, image):
	x = self.model.conv1(image)
	x = x.reshape(x.shape[0], x.shape[1], -1)
	x = x.permute(0, 2, 1)
	x = torch.cat([
	self.model.class_embedding.to(x.dtype)
	+ torch.zeros(x.shape[0], 1, x.shape[-1], dtype=x.dtype, device=x.device),
	x], dim=1)
	x = x + self.model.positional_embedding.to(x.dtype)
	x = self.model.ln_pre(x)
	x = x.permute(1, 0, 2)
	x = self.model.transformer(x)
	x = x.permute(1, 0, 2)

	x = self.model.ln_post(x)
	if self.model.proj is not None:
	x = x @ self.model.proj

	x_pool = x[:, 0, :]
	# x_pool_debug = self.model(image)
	# x_pooln_debug = F.normalize(x_pool_debug, dim=-1)
	x = x / x_pool.norm(dim=1, keepdim=True).unsqueeze(1)
	return x

	def _encode(self, image):
	return self(image)

	def _encode_wmask(self, images, masks):
	z = self._encode(images)
	device = z.device
	vtoken_kernel_size = self.model.conv1.kernel_size
	vtoken_stride = self.model.conv1.stride
	mask_kernal = torch.ones([1, 1, *vtoken_kernel_size], device=device, dtype=z.dtype, requires_grad=False)
	mask_kernal /= np.prod(vtoken_kernel_size)

	assert isinstance(masks, torch.Tensor)
	assert (len(masks.shape)==4) and (masks.shape[1]==1)
	masks = torch.clamp(masks, 0, 1)
	masks = F.interpolate(masks, [224, 224], mode='bilinear')

	vtoken_mask = torch.nn.functional.conv2d(1-masks, mask_kernal, stride=vtoken_stride).flatten(2).transpose(1, 2)
	z[:, 1:, :] = z[:, 1:, :] * vtoken_mask
	z[:, 0, :] = 0
	return z

	def encode(self, images, masks=None):
	if masks is None:
	return self._encode(images)
	else:
	return self._encode_wmask(images, masks)

	############################
	# def customized tokenizer #
	############################

	from open_clip import SimpleTokenizer

	@register('openclip_text_context_encoder_sdv2_customized_tokenizer_v1')
	class FrozenOpenCLIPEmbedderSDv2CustomizedTokenizerV1(FrozenOpenCLIPTextEmbedderSDv2):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	def __init__(self, customized_tokens, args, *kwargs):
	super().__init__(args, *kwargs)
	if isinstance(customized_tokens, str):
	customized_tokens = [customized_tokens]
	self.tokenizer = open_clip.SimpleTokenizer(special_tokens=customized_tokens)
	self.num_regular_tokens = self.model.token_embedding.weight.shape[0]
	self.embedding_dim = self.model.ln_final.weight.shape[0]
	self.customized_token_embedding = nn.Embedding(
	len(customized_tokens), embedding_dim=self.embedding_dim)
	nn.init.normal_(self.customized_token_embedding.weight, std=0.02)

	def tokenize(self, texts):
	if isinstance(texts, str):
	texts = [texts]
	sot_token = self.tokenizer.encoder["<start_of_text>"]
	eot_token = self.tokenizer.encoder["<end_of_text>"]
	all_tokens = [[sot_token] + self.tokenizer.encode(text) + [eot_token] for text in texts]
	maxn = self.num_regular_tokens
	regular_tokens = [[ti if ti < maxn else 0 for ti in tokens] for tokens in all_tokens]
	token_mask = [[0 if ti < maxn else 1 for ti in tokens] for tokens in all_tokens]
	customized_tokens = [[ti-maxn if ti >= maxn else 0 for ti in tokens] for tokens in all_tokens]
	return regular_tokens, customized_tokens, token_mask

	def pad_to_length(self, tokens, context_length=77, eot_token=None):
	result = torch.zeros(len(tokens), context_length, dtype=torch.long)
	eot_token = self.tokenizer.encoder["<end_of_text>"] if eot_token is None else eot_token
	for i, tokens in enumerate(tokens):
	if len(tokens) > context_length:
	tokens = tokens[:context_length] # Truncate
	tokens[-1] = eot_token
	result[i, :len(tokens)] = torch.tensor(tokens)
	return result

	def forward(self, text):
	self.device = self.model.ln_final.weight.device # urgly trick
	regular_tokens, customized_tokens, token_mask = self.tokenize(text)
	regular_tokens = self.pad_to_length(regular_tokens).to(self.device)
	customized_tokens = self.pad_to_length(customized_tokens, eot_token=0).to(self.device)
	token_mask = self.pad_to_length(token_mask, eot_token=0).to(self.device)
	z0 = self.encode_with_transformer(regular_tokens)
	z1 = self.customized_token_embedding(customized_tokens)
	token_mask = token_mask[:, :, None].type(z0.dtype)
	z = z0 * (1-token_mask) + z1 * token_mask
	return z

	@register('openclip_text_context_encoder_sdv2_customized_tokenizer_v2')
	class FrozenOpenCLIPEmbedderSDv2CustomizedTokenizerV2(FrozenOpenCLIPTextEmbedderSDv2):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	def __init__(self, customized_tokens, args, *kwargs):
	super().__init__(args, *kwargs)
	if isinstance(customized_tokens, str):
	customized_tokens = [customized_tokens]
	self.tokenizer = open_clip.SimpleTokenizer(special_tokens=customized_tokens)
	self.num_regular_tokens = self.model.token_embedding.weight.shape[0]
	self.embedding_dim = self.model.token_embedding.weight.shape[1]
	self.customized_token_embedding = nn.Embedding(
	len(customized_tokens), embedding_dim=self.embedding_dim)
	nn.init.normal_(self.customized_token_embedding.weight, std=0.02)

	def tokenize(self, texts):
	if isinstance(texts, str):
	texts = [texts]
	sot_token = self.tokenizer.encoder["<start_of_text>"]
	eot_token = self.tokenizer.encoder["<end_of_text>"]
	all_tokens = [[sot_token] + self.tokenizer.encode(text) + [eot_token] for text in texts]
	maxn = self.num_regular_tokens
	regular_tokens = [[ti if ti < maxn else 0 for ti in tokens] for tokens in all_tokens]
	token_mask = [[0 if ti < maxn else 1 for ti in tokens] for tokens in all_tokens]
	customized_tokens = [[ti-maxn if ti >= maxn else 0 for ti in tokens] for tokens in all_tokens]
	return regular_tokens, customized_tokens, token_mask

	def pad_to_length(self, tokens, context_length=77, eot_token=None):
	result = torch.zeros(len(tokens), context_length, dtype=torch.long)
	eot_token = self.tokenizer.encoder["<end_of_text>"] if eot_token is None else eot_token
	for i, tokens in enumerate(tokens):
	if len(tokens) > context_length:
	tokens = tokens[:context_length] # Truncate
	tokens[-1] = eot_token
	result[i, :len(tokens)] = torch.tensor(tokens)
	return result

	def forward(self, text):
	self.device = self.model.token_embedding.weight.device # urgly trick
	regular_tokens, customized_tokens, token_mask = self.tokenize(text)
	regular_tokens = self.pad_to_length(regular_tokens).to(self.device)
	customized_tokens = self.pad_to_length(customized_tokens, eot_token=0).to(self.device)
	token_mask = self.pad_to_length(token_mask, eot_token=0).to(self.device)
	z = self.encode_with_transformer(regular_tokens, customized_tokens, token_mask)
	return z

	def encode_with_transformer(self, token, customized_token, token_mask):
	x0 = self.model.token_embedding(token)
	x1 = self.customized_token_embedding(customized_token)
	token_mask = token_mask[:, :, None].type(x0.dtype)
	x = x0 * (1-token_mask) + x1 * token_mask
	x = x + self.model.positional_embedding
	x = x.permute(1, 0, 2) # NLD -> LND
	x = self.text_transformer_forward(x, attn_mask=self.model.attn_mask)
	x = x.permute(1, 0, 2) # LND -> NLD
	x = self.model.ln_final(x)
	return x

	class ln_freezed_temp(nn.LayerNorm):
	def forward(self, x):
	self.weight.requires_grad = False
	self.bias.requires_grad = False
	return super().forward(x)

	@register('openclip_text_context_encoder_sdv2_customized_tokenizer_v3')
	class FrozenOpenCLIPEmbedderSDv2CustomizedTokenizerV3(FrozenOpenCLIPEmbedderSDv2CustomizedTokenizerV2):
	"""
	Uses the OpenCLIP transformer encoder for text
	"""
	def __init__(self, customized_tokens, texpand=4, lora_rank=None, lora_bias_trainable=True, args, *kwargs):
	super().__init__(customized_tokens, args, *kwargs)
	if isinstance(customized_tokens, str):
	customized_tokens = [customized_tokens]
	self.texpand = texpand
	self.customized_token_embedding = nn.Embedding(
	len(customized_tokens)*texpand, embedding_dim=self.embedding_dim)
	nn.init.normal_(self.customized_token_embedding.weight, std=0.02)

	if lora_rank is not None:
	from .lora import freeze_param, freeze_module, to_lora
	def convert_resattnblock(module):
	module.ln_1.__class__ = ln_freezed_temp
	# freeze_module(module.ln_1)
	module.attn = to_lora(module.attn, lora_rank, lora_bias_trainable)
	module.ln_2.__class__ = ln_freezed_temp
	# freeze_module(module.ln_2)
	module.mlp.c_fc = to_lora(module.mlp.c_fc, lora_rank, lora_bias_trainable)
	module.mlp.c_proj = to_lora(module.mlp.c_proj, lora_rank, lora_bias_trainable)
	freeze_param(self.model, 'positional_embedding')
	freeze_param(self.model, 'text_projection')
	freeze_param(self.model, 'logit_scale')
	for idx, resattnblock in enumerate(self.model.transformer.resblocks):
	convert_resattnblock(resattnblock)
	freeze_module(self.model.token_embedding)
	self.model.ln_final.__class__ = ln_freezed_temp
	# freeze_module(self.model.ln_final)

	def tokenize(self, texts):
	if isinstance(texts, str):
	texts = [texts]
	sot_token = self.tokenizer.encoder["<start_of_text>"]
	eot_token = self.tokenizer.encoder["<end_of_text>"]
	all_tokens = [[sot_token] + self.tokenizer.encode(text) + [eot_token] for text in texts]
	maxn = self.num_regular_tokens
	regular_tokens = [[[ti] if ti < maxn else [0]*self.texpand for ti in tokens] for tokens in all_tokens]
	token_mask = [[[ 0] if ti < maxn else [1]*self.texpand for ti in tokens] for tokens in all_tokens]
	custom_tokens = [[[ 0] if ti < maxn else [
	(ti-maxn)*self.texpand+ii for ii in range(self.texpand)]
	for ti in tokens] for tokens in all_tokens]

	from itertools import chain
	regular_tokens = [[i for i in chain(*tokens)] for tokens in regular_tokens]
	token_mask = [[i for i in chain(*tokens)] for tokens in token_mask]
	custom_tokens = [[i for i in chain(*tokens)] for tokens in custom_tokens]
	return regular_tokens, custom_tokens, token_mask

	###################
	# clip expandable #
	###################

	@register('clip_text_sdv1_customized_embedding')
	class CLIPTextSD1CE(nn.Module):
	def __init__(
	self,
	replace_info="text\|elon musk",
	version="openai/clip-vit-large-patch14",
	max_length=77):
	super().__init__()

	self.name = 'clip_text_sdv1_customized_embedding'
	self.tokenizer = CLIPTokenizer.from_pretrained(version)
	self.transformer = CLIPTextModel.from_pretrained(version)
	self.reset_replace_info(replace_info)
	self.max_length = max_length
	self.special_token = "<new_token>"

	def reset_replace_info(self, replace_info):
	rtype, rpara = replace_info.split("\|")
	self.replace_type = rtype
	if rtype == "token_embedding":
	ce_num = int(rpara)
	ce_dim = self.transformer.text_model.embeddings.token_embedding.weight.size(1)
	self.cembedding = nn.Embedding(ce_num, ce_dim)
	self.cembedding = self.cembedding.to(self.get_device())
	elif rtype == "context_embedding":
	ce_num = int(rpara)
	ce_dim = self.transformer.text_model.encoder.layers[-1].layer_norm2.weight.size(0)
	self.cembedding = nn.Embedding(ce_num, ce_dim)
	self.cembedding = self.cembedding.to(self.get_device())
	else:
	assert rtype=="text"
	self.replace_type = "text"
	self.replace_string = rpara
	self.cembedding = None

	def get_device(self):
	return self.transformer.text_model.embeddings.token_embedding.weight.device

	def position_to_mask(self, tokens, positions):
	mask = torch.zeros_like(tokens)
	for idxb, idxs, idxe in zip(*positions):
	mask[idxb, idxs:idxe] = 1
	return mask

	def forward(self, text):
	tokens, positions = self.tokenize(text)
	mask = self.position_to_mask(tokens, positions)
	max_token_n = tokens.size(1)
	positional_ids = torch.arange(max_token_n)[None].to(self.get_device())

	if self.replace_what == 'token_embedding':
	cembeds = self.cembedding(tokens * mask)

	def embedding_customized_forward(
	self, input_ids=None, position_ids=None, inputs_embeds=None,):
	seq_length = input_ids.shape[-1] if input_ids is not None else inputs_embeds.shape[-2]
	if position_ids is None:
	position_ids = self.position_ids[:, :seq_length]
	if inputs_embeds is None:
	inputs_embeds = self.token_embedding(input_ids)
	inputs_embeds = inputs_embeds * (1-mask.float())[:, :, None]
	inputs_embeds = inputs_embeds + cembeds
	position_embeddings = self.position_embedding(position_ids)
	embeddings = inputs_embeds + position_embeddings
	return embeddings

	import types
	self.transformer.text_model.embeddings.forward = types.MethodType(
	embedding_customized_forward, self.transformer.text_model.embeddings)

	else:
	# TODO: Implement
	assert False

	outputs = self.transformer(
	input_ids=tokens,
	position_ids=positional_ids, )
	z = outputs.last_hidden_state
	return z

	def encode(self, text):
	return self(text)

	@torch.no_grad()
	def tokenize(self, text):
	if isinstance(text, str):
	text = [text]

	bos_special_text = "<\|startoftext\|>"
	text = [ti.replace(self.special_token, bos_special_text) for ti in text]

	batch_encoding = self.tokenizer(
	text, truncation=True, max_length=self.max_length, return_length=True,
	return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
	tokens = batch_encoding["input_ids"]

	bosid = tokens[0, 0]
	eosid = tokens[0, -1]
	bs, maxn = tokens.shape

	if self.replace_what in ['token_embedding', 'context_embedding']:
	newtokens = []
	ce_num = self.cembedding.weight.size(0)
	idxi = []; idxstart = []; idxend = [];
	for idxii, tokeni in enumerate(tokens):
	newtokeni = []
	idxjj = 0
	for ii, tokenii in enumerate(tokeni):
	if (tokenii == bosid) and (ii != 0):
	newtokeni.extend([i for i in range(ce_num)])
	idxi.append(idxii); idxstart.append(idxjj);
	idxjj += ce_num
	idxjj_record = idxjj if idxjj<=maxn-1 else maxn-1
	idxend.append(idxjj_record);
	else:
	newtokeni.extend([tokenii])
	idxjj += 1
	newtokeni = newtokeni[:maxn]
	newtokeni[-1] = eosid
	newtokens.append(newtokeni)
	return torch.LongTensor(newtokens).to(self.get_device()), (idxi, idxstart, idxend)
	else:
	# TODO: Implement
	assert False