Spaces:

HongcanGuo
/

InspiroV

Running

App Files Files Community

HongcanGuo commited on May 29, 2024

Commit

06ab368

verified ·

1 Parent(s): 38aeb3a

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -14,8 +14,8 @@ import os
 # 定义图像到文本函数
 def img2text(image):
-    processor = BlipProcessor.from_pretrained("blip-image-captioning-large")
-    model = BlipForConditionalGeneration.from_pretrained("blip-image-captioning-large")
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs)
     caption = processor.decode(out[0], skip_special_tokens=True)
@@ -65,10 +65,10 @@ def text2text(user_input):
 # 定义文本到视频函数
 def text2vid(input_text):
     sentences = re.findall(r'\[\d+\] (.+?)(?:\n|\Z)', input_text)
-    adapter = MotionAdapter.from_pretrained("AnimateLCM", config_file="AnimateLCM/config.json", torch_dtype=torch.float16)
-    pipe = AnimateDiffPipeline.from_pretrained("epiCRealism", motion_adapter=adapter, torch_dtype=torch.float16)
     pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config, beta_schedule="linear")
-    pipe.load_lora_weights("AnimateLCM", weight_name="AnimateLCM_sd15_t2v_lora.safetensors", adapter_name="lcm-lora")
     try:
         pipe.set_adapters(["lcm-lora"], [0.8])
     except ValueError as e:
@@ -97,8 +97,8 @@ def video_generate():
 # 定义文本到音频函数
 def text2audio(text_input, duration_seconds):
-    processor = AutoProcessor.from_pretrained("musicgen-small")
-    model = MusicgenForConditionalGeneration.from_pretrained("musicgen-small")
     inputs = processor(text=[text_input], padding=True, return_tensors="pt")
     max_new_tokens = int((duration_seconds / 5) * 256)
     audio_values = model.generate(**inputs, max_new_tokens=max_new_tokens)

 # 定义图像到文本函数
 def img2text(image):
+    processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+    model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
     inputs = processor(image, return_tensors="pt")
     out = model.generate(**inputs)
     caption = processor.decode(out[0], skip_special_tokens=True)
 # 定义文本到视频函数
 def text2vid(input_text):
     sentences = re.findall(r'\[\d+\] (.+?)(?:\n|\Z)', input_text)
+    adapter = MotionAdapter.from_pretrained("wangfuyun/AnimateLCM", config_file="wangfuyun/AnimateLCM/config.json", torch_dtype=torch.float16)
+    pipe = AnimateDiffPipeline.from_pretrained("emilianJR/epiCRealism", motion_adapter=adapter, torch_dtype=torch.float16)
     pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config, beta_schedule="linear")
+    pipe.load_lora_weights("wangfuyun/AnimateLCM", weight_name="AnimateLCM_sd15_t2v_lora.safetensors", adapter_name="lcm-lora")
     try:
         pipe.set_adapters(["lcm-lora"], [0.8])
     except ValueError as e:
 # 定义文本到音频函数
 def text2audio(text_input, duration_seconds):
+    processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
+    model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
     inputs = processor(text=[text_input], padding=True, return_tensors="pt")
     max_new_tokens = int((duration_seconds / 5) * 256)
     audio_values = model.generate(**inputs, max_new_tokens=max_new_tokens)