Spaces:

yair319732
/

slogan2

Sleeping

App Files Files Community

yair319732 commited on Aug 24

Commit

c9eabf9

verified ·

1 Parent(s): 7b4250d

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

app.py +21 -14
data/prompt.txt +6 -0
logic/cleaning.py +2 -2

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ from logic.search import SloganSearcher
 ASSETS_DIR = "assets"
 DATA_PATH  = "data/slogan.csv"
 MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
 NORMALIZE  = True
@@ -20,7 +21,7 @@ NUM_GEN_CANDIDATES = 6
 MAX_NEW_TOKENS = 24
 TEMPERATURE = 0.9
 TOP_P = 0.95
-NOVELTY_SIM_THRESHOLD = 0.80
 META_PATH    = os.path.join(ASSETS_DIR, "meta.json")
 PARQUET_PATH = os.path.join(ASSETS_DIR, "slogans_clean.parquet")
@@ -100,16 +101,21 @@ _encoder = SentenceTransformer(meta["model_name"])
 _gen_tokenizer = AutoTokenizer.from_pretrained(GEN_MODEL_NAME)
 _gen_model = AutoModelForSeq2SeqLM.from_pretrained(GEN_MODEL_NAME)
-def _prompt_for(description: str) -> str:
-    return (
-        "You are a professional slogan writer. "
-        "Write ONE original, catchy startup slogan under 8 words, Title Case, no punctuation. "
-        "Do not copy examples. Description:\\n"
-        f"{description}\\nSlogan:"
-    )
 def _generate_candidates(description: str, n: int = NUM_GEN_CANDIDATES):
-    prompt = _prompt_for(description)
     inputs = _gen_tokenizer([prompt]*n, return_tensors="pt", padding=True, truncation=True)
     outputs = _gen_model.generate(
         **inputs,
@@ -121,7 +127,7 @@ def _generate_candidates(description: str, n: int = NUM_GEN_CANDIDATES):
         eos_token_id=_gen_tokenizer.eos_token_id,
     )
     texts = _gen_tokenizer.batch_decode(outputs, skip_special_tokens=True)
-    return [t.replace("Slogan:", "").strip().strip('"') for t in texts if t.strip()]
 def _pick_most_novel(candidates, retrieved_texts):
     if not candidates:
@@ -136,7 +142,8 @@ def _pick_most_novel(candidates, retrieved_texts):
             sims = np.dot(R, c_emb[0])  # cosine
             max_sim = float(np.max(sims))
         novelty = 1.0 - max_sim
-        if (max_sim < {0.80} and novelty > best_novelty) or best is None and novelty > best_novelty:
             best, best_novelty = c, novelty
     return best
@@ -154,12 +161,12 @@ def run_pipeline(user_description: str):
             lines.append(f"{i}. {s}")
     else:
         lines.append("_No similar slogans found._")
-    lines.append("\\n### ✨ AI-generated suggestion")
     lines.append(generated)
-    return "\\n".join(lines)
 with gr.Blocks(title="Slogan Finder") as demo:
-    gr.Markdown("# 🔎 Slogan Finder\\nDescribe your product/company; get 3 similar slogans + 1 AI-generated suggestion.")
     query = gr.Textbox(label="Describe your product/company", placeholder="AI-powered patient financial navigation platform...")
     btn = gr.Button("Get slogans", variant="primary")
     out = gr.Markdown()

 ASSETS_DIR = "assets"
 DATA_PATH  = "data/slogan.csv"
+PROMPT_PATH= "data/prompt.txt"
 MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
 NORMALIZE  = True
 MAX_NEW_TOKENS = 24
 TEMPERATURE = 0.9
 TOP_P = 0.95
+NOVELTY_SIM_THRESHOLD = 0.80  # <-- fixed: use a float, not a set
 META_PATH    = os.path.join(ASSETS_DIR, "meta.json")
 PARQUET_PATH = os.path.join(ASSETS_DIR, "slogans_clean.parquet")
 _gen_tokenizer = AutoTokenizer.from_pretrained(GEN_MODEL_NAME)
 _gen_model = AutoModelForSeq2SeqLM.from_pretrained(GEN_MODEL_NAME)
+# ----- Load your prompt from file -----
+def _load_prompt():
+    if os.path.exists(PROMPT_PATH):
+        with open(PROMPT_PATH, "r", encoding="utf-8") as f:
+            return f.read()
+    # Fallback (shouldn't happen since we write it in Colab)
+    return "Write a short startup slogan for:\n{description}\nSlogan:"
+def _render_prompt(description: str) -> str:
+    tmpl = _load_prompt()
+    # Support {description} placeholder; leave other braces untouched
+    return tmpl.replace("{description}", description)
 def _generate_candidates(description: str, n: int = NUM_GEN_CANDIDATES):
+    prompt = _render_prompt(description)
     inputs = _gen_tokenizer([prompt]*n, return_tensors="pt", padding=True, truncation=True)
     outputs = _gen_model.generate(
         **inputs,
         eos_token_id=_gen_tokenizer.eos_token_id,
     )
     texts = _gen_tokenizer.batch_decode(outputs, skip_special_tokens=True)
+    return [t.strip().strip('"') for t in texts if t.strip()]
 def _pick_most_novel(candidates, retrieved_texts):
     if not candidates:
             sims = np.dot(R, c_emb[0])  # cosine
             max_sim = float(np.max(sims))
         novelty = 1.0 - max_sim
+        # ✅ FIXED: compare to float threshold
+        if ((max_sim < NOVELTY_SIM_THRESHOLD) and (novelty > best_novelty)) or (best is None and novelty > best_novelty):
             best, best_novelty = c, novelty
     return best
             lines.append(f"{i}. {s}")
     else:
         lines.append("_No similar slogans found._")
+    lines.append("\n### ✨ AI-generated suggestion")
     lines.append(generated)
+    return "\n".join(lines)
 with gr.Blocks(title="Slogan Finder") as demo:
+    gr.Markdown("# 🔎 Slogan Finder\nDescribe your product/company; get 3 similar slogans + 1 AI-generated suggestion.")
     query = gr.Textbox(label="Describe your product/company", placeholder="AI-powered patient financial navigation platform...")
     btn = gr.Button("Get slogans", variant="primary")
     out = gr.Markdown()

data/prompt.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+You are a professional slogan writer.
+Write ONE original startup slogan under 8 words, Title Case, no punctuation.
+Do not copy examples.
+Description:
+{description}
+Slogan:

logic/cleaning.py CHANGED Viewed

@@ -60,8 +60,8 @@ def _ascii_only(s: str) -> bool:
 def _dupe_key(s: str) -> str:
     s = s.lower()
-    s = PUNCT_RE.sub(" ", s)
-    s = WS_RE.sub(" ", s).strip()
     return s
 def clean_dataframe(df: pd.DataFrame) -> pd.DataFrame:

 def _dupe_key(s: str) -> str:
     s = s.lower()
+    s = re.sub(r"[^\\w\\s]+", " ", s)
+    s = re.sub(r"\\s+", " ", s).strip()
     return s
 def clean_dataframe(df: pd.DataFrame) -> pd.DataFrame: