Spaces:

hewoo
/

hehetest

Sleeping

File size: 2,592 Bytes

cc0604c
 
 
 
1dc17cb
 
cc0604c
1dc17cb
 
cc0604c
1dc17cb
 
 
 
cc0604c
1dc17cb
 
 
 
 
 
cc0604c
1dc17cb
c7f958e
 
 
 
 
1dc17cb
c7f958e
 
1dc17cb
c7f958e
1dc17cb
 
 
 
c7f958e
1dc17cb
 
 
 
cc0604c
1dc17cb
cc0604c
1dc17cb
cc0604c
 
 
 
 
 
1dc17cb
 
 
 
 
cc0604c
1dc17cb
cc0604c
 
1dc17cb
 
cc0604c
 
 
 
 
1dc17cb

import streamlit as st
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from sentence_transformers import SentenceTransformer
from langchain.vectorstores import Chroma
import gc
import psutil

# 모델 ID (공개된 모델이어야 함)
model_id = "hewoo/hehehehe"

# 메모리 모니터링 함수
def monitor_memory():
    memory_info = psutil.virtual_memory()
    st.write(f"현재 메모리 사용량: {memory_info.percent}%")

# 캐시를 사용하여 모델 및 파이프라인 로드
@st.cache_resource
def load_model():
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    model = AutoModelForCausalLM.from_pretrained(model_id)
    return pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=150, temperature=0.5, top_p=0.85, top_k=40, repetition_penalty=1.2)

# 사용자 정의 임베딩 클래스
class CustomEmbedding:
    def __init__(self, model):
        self.model = model

    def embed_query(self, text):
        return self.model.encode(text, convert_to_tensor=True).tolist()

    def embed_documents(self, texts):
        return [self.model.encode(text, convert_to_tensor=True).tolist() for text in texts]

# 임베딩 모델 및 벡터 스토어 설정
@st.cache_resource
def load_embedding_model():
    return SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

@st.cache_resource
def load_vectorstore(embedding_model):
    embedding_function = CustomEmbedding(embedding_model)
    return Chroma(persist_directory="./chroma_batch_vectors", embedding_function=embedding_function)

# 질문에 대한 응답 생성 함수
def generate_response(user_input):
    retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
    search_results = retriever.get_relevant_documents(user_input)
    context = "\n".join([result.page_content for result in search_results])
    input_text = f"맥락: {context}\n질문: {user_input}"
    response = pipe(input_text)[0]["generated_text"]
    return response

# 모델 및 임베딩 모델 로드
pipe = load_model()
embedding_model = load_embedding_model()
vectorstore = load_vectorstore(embedding_model)

# Streamlit 앱 UI
st.title("챗봇 데모")
st.write("Llama 3.2-3B 모델을 사용한 챗봇입니다. 질문을 입력해 주세요.")

monitor_memory()  # 메모리 사용량 확인

# 사용자 입력 받기
user_input = st.text_input("질문")
if user_input:
    response = generate_response(user_input)
    st.write("챗봇 응답:", response)
    monitor_memory()  # 메모리 상태 업데이트

    # 메모리 해제
    del response
    gc.collect()