Spaces:

dayuian
/

VocabLine

Running

App Files Files Community

dayuian commited on Feb 18

Commit

e67e94c

verified ·

1 Parent(s): 70b7493

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -16

app.py CHANGED Viewed

@@ -3,56 +3,77 @@ import json
 import random
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import os
-# 模型初始化（Hugging Face Spaces會跑）
 model_name = "EleutherAI/pythia-410m"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name)
-# 資料夾路徑
 DATA_DIR = "./data"
-# 核心函數：抽單字＋造句
-def get_words_with_sentences(source="common3000", n=10):
     try:
-        # 動態讀取指定資料檔
         data_path = os.path.join(DATA_DIR, f"{source}.json")
         with open(data_path, 'r', encoding='utf-8') as f:
             words = json.load(f)
-        # 隨機抽取
         selected_words = random.sample(words, n)
         results = []
-        # 每個單字請 GPT 造句
-        for word_data in selected_words:
             word = word_data['word']
-            prompt = f"Write a simple English sentence using the word '{word}' suitable for beginners."
             inputs = tokenizer(prompt, return_tensors="pt")
             outputs = model.generate(**inputs, max_new_tokens=30)
             sentence = tokenizer.decode(outputs[0], skip_special_tokens=True)
             results.append({
                 "word": word,
                 "phonetic": word_data["phonetic"],
-                "sentence": sentence
             })
-        return results
     except Exception as e:
-        return [{"error": f"發生錯誤: {str(e)}"}]
-# Gradio 介面設定
 demo = gr.Interface(
     fn=get_words_with_sentences,
     inputs=[
-        gr.Textbox(value="common3000", label="選擇單字庫"),
         gr.Number(value=10, label="抽幾個單字")
     ],
-    outputs="json"
 )
 demo.launch()

 import random
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import os
+import re
+# 模型初始化
 model_name = "EleutherAI/pythia-410m"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(model_name)
+# 資料夾
 DATA_DIR = "./data"
+# 自動掃描資料夾生成選單
+def get_sources():
+    files = os.listdir(DATA_DIR)
+    sources = [f.split(".json")[0] for f in files if f.endswith(".json")]
+    return sources
+# 清理 GPT 生成句子的雜訊
+def clean_sentence(output):
+    output = re.sub(r"Write.*?beginners\.", "", output, flags=re.IGNORECASE).strip()
+    output = re.sub(r"\*\*?\d+\.*\*\*", "", output).strip()
+    if not output.endswith("."):
+        output += "."
+    return output
+# 核心函數
+def get_words_with_sentences(source, n):
+    status = []
     try:
         data_path = os.path.join(DATA_DIR, f"{source}.json")
         with open(data_path, 'r', encoding='utf-8') as f:
             words = json.load(f)
         selected_words = random.sample(words, n)
         results = []
+        for i, word_data in enumerate(selected_words):
+            status.append(f"正在生成第 {i+1}/{n} 個單字 [{word_data['word']}] 例句...")
             word = word_data['word']
+            prompt = f"Use the word '{word}' in a simple English sentence suitable for beginners. Output only the sentence."
             inputs = tokenizer(prompt, return_tensors="pt")
             outputs = model.generate(**inputs, max_new_tokens=30)
             sentence = tokenizer.decode(outputs[0], skip_special_tokens=True)
+            clean_output = clean_sentence(sentence)
             results.append({
                 "word": word,
                 "phonetic": word_data["phonetic"],
+                "sentence": clean_output
             })
+        status.append("✅ 完成！")
+        return results, status
     except Exception as e:
+        status.append(f"❌ 發生錯誤: {str(e)}")
+        return [], status
+# Gradio 介面
 demo = gr.Interface(
     fn=get_words_with_sentences,
     inputs=[
+        gr.Dropdown(choices=get_sources(), value="common3000", label="選擇單字庫", interactive=True, show_clear_button=False),
         gr.Number(value=10, label="抽幾個單字")
     ],
+    outputs=[
+        gr.JSON(label="生成結果"),
+        gr.JSON(label="生成進度")
+    ]
 )
 demo.launch()