Spaces:

JiakaiDu
/

RAG_Test

Paused

App Files Files Community

JiakaiDu commited on Sep 26, 2024

Commit

5df3113

verified ·

1 Parent(s): b18fb8c

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

Test_RAG.py +39 -38

Test_RAG.py CHANGED Viewed

@@ -282,50 +282,51 @@ print(f"Loading model from {model_dir}")
 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
-# llm = HuggingFacePipeline.from_model_id(
-#     model_id= "meta-llama/Meta-Llama-3-8B",
-#     #meta-llama/Meta-Llama-3-8B------------/meta-llama/Llama-3.2-3B-Instruct
-#     task="text-generation",
-#     backend="openvino",
-#     model_kwargs={
-#         "device": llm_device,
-#         "ov_config": ov_config,
-#         "trust_remote_code": True,
-#     },
-#     pipeline_kwargs={"max_new_tokens": 2},
-# )
-from optimum.intel.openvino import OVModelForCausalLM
-from transformers import pipeline
 print("starting setting llm model")
-model_id = "meta-llama/Meta-Llama-3-8B"
-ov_config = {"PERFORMANCE_HINT": "LATENCY"}  # 这是一个例子，检查你的实际 ov_config
-# 使用 OpenVINO 导出模型
-model = OVModelForCausalLM.from_pretrained(
-    model_id,
-    export=True,  # 将模型转换为 OpenVINO 格式
-    use_cache=False,
-    ov_config=ov_config,
-    trust_remote_code=True  # 支持远程代码的信任问题
-)
-# 保存 OpenVINO 模型
-model.save_pretrained("./openvino_llama_model")
-# Step 2: 加载保存的 OpenVINO 模型并设置推理任务
-llm_device = "CPU"  # 确保你根据环境设置正确的设备
-llm = pipeline(
-    task="text-generation",
-    model=OVModelForCausalLM.from_pretrained("./openvino_llama_model"),
-    device=llm_device,
-    max_new_tokens=2  # 生成的最大新token数量
-)
-# Step 3: 执行推理
-output = llm("2 + 2 =")
-print(output)
 # print("test:2+2:")
 # print(llm.invoke("2 + 2 ="))

 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
 print("starting setting llm model")
+llm = HuggingFacePipeline.from_model_id(
+    model_id="meta-llama/Meta-Llama-3-8B",
+    task="text-generation",
+    backend="openvino",
+    model_kwargs={
+        "device": llm_device.value,
+        "ov_config": ov_config,
+        "trust_remote_code": True,
+    },
+    pipeline_kwargs={"max_new_tokens": 2},
+)
+print(llm.invoke("2 + 2 ="))
+# from optimum.intel.openvino import OVModelForCausalLM
+# from transformers import pipeline
+# model_id = "meta-llama/Meta-Llama-3-8B"
+# ov_config = {"PERFORMANCE_HINT": "LATENCY"}  # 这是一个例子，检查你的实际 ov_config
+# # 使用 OpenVINO 导出模型
+# model = OVModelForCausalLM.from_pretrained(
+#     model_id,
+#     export=True,  # 将模型转换为 OpenVINO 格式
+#     use_cache=False,
+#     ov_config=ov_config,
+#     trust_remote_code=True  # 支持远程代码的信任问题
+# )
+# # 保存 OpenVINO 模型
+# model.save_pretrained("./openvino_llama_model")
+# # Step 2: 加载保存的 OpenVINO 模型并设置推理任务
+# llm_device = "CPU"  # 确保你根据环境设置正确的设备
+# llm = pipeline(
+#     task="text-generation",
+#     model=OVModelForCausalLM.from_pretrained("./openvino_llama_model"),
+#     device=llm_device,
+#     max_new_tokens=2  # 生成的最大新token数量
+# )
+# # Step 3: 执行推理
+# output = llm("2 + 2 =")
+# print(output)
 # print("test:2+2:")
 # print(llm.invoke("2 + 2 ="))