Spaces:

yair319732
/

slogan2

Sleeping

App Files Files Community

yair319732 commited on Aug 24

Commit

bcaa618

verified ·

1 Parent(s): 369b8da

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +46 -25

app.py CHANGED Viewed

@@ -2,7 +2,7 @@
 import os, json, numpy as np, pandas as pd
 import gradio as gr
 import faiss
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
@@ -111,19 +111,17 @@ _encoder = SentenceTransformer(meta["model_name"])
 _gen_tokenizer = AutoTokenizer.from_pretrained(GEN_MODEL)
 _gen_model     = AutoModelForSeq2SeqLM.from_pretrained(GEN_MODEL)
-# banned junk and formatting constraints
-_BANNED_TERMS = {
-    "portal","platform","service","solution","assistant","product","company",
-    "business","website","app","shopping","shop","e-commerce","ecommerce"
-}
-_PUNCT = {":",";","—","–","-",".",",","!","?","“","”","\"","'"}
 _MIN_WORDS, _MAX_WORDS = 2, 8
 def _load_prompt():
     if os.path.exists(PROMPT_PATH):
         with open(PROMPT_PATH, "r", encoding="utf-8") as f:
             return f.read()
-    # fallback if no prompt file shipped
     return (
         "You are a professional slogan writer.\n"
         "Write ONE original startup slogan under 8 words, Title Case, no punctuation.\n"
@@ -137,7 +135,6 @@ def _render_prompt(description: str, retrieved=None) -> str:
         prompt = tmpl.replace("{description}", description)
     else:
         prompt = f"{tmpl}\n\nDescription:\n{description}\nSlogan:"
-    # Optionally add negatives (don’t copy these)
     if retrieved:
         prompt += "\n\nDo NOT copy these existing slogans:\n"
         for s in retrieved[:3]:
@@ -154,10 +151,11 @@ def _title_case(s: str) -> str:
         else: out.append(lw.capitalize())
     return " ".join(out)
-def _looks_ok(s: str) -> bool:
     if not s: return False
-    s = s.strip()
-    if any(p in s for p in _PUNCT): return False
     wc = len(s.split())
     if wc < _MIN_WORDS or wc > _MAX_WORDS: return False
     lo = s.lower()
@@ -165,22 +163,40 @@ def _looks_ok(s: str) -> bool:
     if lo in {"the","a","an"}: return False
     return True
-def _postprocess(cands):
     cleaned, seen = [], set()
-    for c in cands:
-        c = c.replace("Slogan:", "").strip().strip('"').strip("'")
-        c = " ".join(c.split())
-        c = _title_case(c)
-        if _looks_ok(c):
-            k = c.lower()
             if k not in seen:
-                seen.add(k); cleaned.append(c)
     return cleaned
 def _generate_candidates(description: str, retrieved_texts, n: int = NUM_GEN_CANDIDATES):
     prompt = _render_prompt(description, retrieved_texts)
-    # ban generic words at decode time
     bad_ids = _gen_tokenizer(list(_BANNED_TERMS), add_special_tokens=False).input_ids
     inputs = _gen_tokenizer([prompt], return_tensors="pt", padding=True, truncation=True)
     outputs = _gen_model.generate(
         **inputs,
@@ -195,15 +211,19 @@ def _generate_candidates(description: str, retrieved_texts, n: int = NUM_GEN_CAN
         eos_token_id=_gen_tokenizer.eos_token_id,
     )
     texts = _gen_tokenizer.batch_decode(outputs, skip_special_tokens=True)
-    return _postprocess(texts)
 def _pick_best(candidates, retrieved_texts, description):
-    """Weighted relevance to the description minus duplication vs retrieved."""
     if not candidates:
         return None
     c_emb = _encoder.encode(candidates, convert_to_numpy=True, normalize_embeddings=True)
     d_emb = _encoder.encode([description], convert_to_numpy=True, normalize_embeddings=True)[0]
-    rel = c_emb @ d_emb  # cosine similarity to description
     if retrieved_texts:
         R = _encoder.encode(retrieved_texts, convert_to_numpy=True, normalize_embeddings=True)
@@ -217,7 +237,8 @@ def _pick_best(candidates, retrieved_texts, description):
         scores = RELEVANCE_WEIGHT * rel[mask] - NOVELTY_WEIGHT * dup[mask]
         best_idx = np.argmax(scores)
         return [c for i, c in enumerate(candidates) if mask[i]][best_idx]
-    # if all are too close, pick the most relevant that still passes basic novelty threshold
     scores = RELEVANCE_WEIGHT * rel - NOVELTY_WEIGHT * dup
     order = np.argsort(-scores)
     for i in order:

 import os, json, numpy as np, pandas as pd
 import gradio as gr
 import faiss
+import re
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 _gen_tokenizer = AutoTokenizer.from_pretrained(GEN_MODEL)
 _gen_model     = AutoModelForSeq2SeqLM.from_pretrained(GEN_MODEL)
+# keep this list small so we don't nuke relevant outputs
+_BANNED_TERMS = {"portal", "e-commerce", "ecommerce", "shopping", "shop"}
+_PUNCT_CHARS = ":;—–-,.!?“”\"'`"
+_PUNCT_RE = re.compile(f"[{re.escape(_PUNCT_CHARS)}]")
 _MIN_WORDS, _MAX_WORDS = 2, 8
 def _load_prompt():
     if os.path.exists(PROMPT_PATH):
         with open(PROMPT_PATH, "r", encoding="utf-8") as f:
             return f.read()
     return (
         "You are a professional slogan writer.\n"
         "Write ONE original startup slogan under 8 words, Title Case, no punctuation.\n"
         prompt = tmpl.replace("{description}", description)
     else:
         prompt = f"{tmpl}\n\nDescription:\n{description}\nSlogan:"
     if retrieved:
         prompt += "\n\nDo NOT copy these existing slogans:\n"
         for s in retrieved[:3]:
         else: out.append(lw.capitalize())
     return " ".join(out)
+def _strip_punct(s: str) -> str:
+    return _PUNCT_RE.sub("", s)
+def _strict_ok(s: str) -> bool:
     if not s: return False
     wc = len(s.split())
     if wc < _MIN_WORDS or wc > _MAX_WORDS: return False
     lo = s.lower()
     if lo in {"the","a","an"}: return False
     return True
+def _postprocess_strict(texts):
     cleaned, seen = [], set()
+    for t in texts:
+        s = t.replace("Slogan:", "").strip().strip('"').strip("'")
+        s = " ".join(s.split())
+        s = _strip_punct(s)          # remove punctuation instead of rejecting
+        s = _title_case(s)
+        if _strict_ok(s):
+            k = s.lower()
             if k not in seen:
+                seen.add(k); cleaned.append(s)
+    return cleaned
+def _postprocess_relaxed(texts):
+    # fallback if strict returns nothing: keep 2–8 words, strip punctuation, Title Case
+    cleaned, seen = [], set()
+    for t in texts:
+        s = t.strip().strip('"').strip("'")
+        s = _strip_punct(s)
+        s = " ".join(s.split())
+        wc = len(s.split())
+        if _MIN_WORDS <= wc <= _MAX_WORDS:
+            s = _title_case(s)
+            k = s.lower()
+            if k not in seen:
+                seen.add(k); cleaned.append(s)
     return cleaned
 def _generate_candidates(description: str, retrieved_texts, n: int = NUM_GEN_CANDIDATES):
     prompt = _render_prompt(description, retrieved_texts)
+    # only block very generic junk at decode time
     bad_ids = _gen_tokenizer(list(_BANNED_TERMS), add_special_tokens=False).input_ids
     inputs = _gen_tokenizer([prompt], return_tensors="pt", padding=True, truncation=True)
     outputs = _gen_model.generate(
         **inputs,
         eos_token_id=_gen_tokenizer.eos_token_id,
     )
     texts = _gen_tokenizer.batch_decode(outputs, skip_special_tokens=True)
+    cands = _postprocess_strict(texts)
+    if not cands:
+        cands = _postprocess_relaxed(texts)  # <- graceful fallback
+    return cands
 def _pick_best(candidates, retrieved_texts, description):
+    """Weighted relevance to description minus duplication vs retrieved."""
     if not candidates:
         return None
     c_emb = _encoder.encode(candidates, convert_to_numpy=True, normalize_embeddings=True)
     d_emb = _encoder.encode([description], convert_to_numpy=True, normalize_embeddings=True)[0]
+    rel = c_emb @ d_emb  # cosine sim to description
     if retrieved_texts:
         R = _encoder.encode(retrieved_texts, convert_to_numpy=True, normalize_embeddings=True)
         scores = RELEVANCE_WEIGHT * rel[mask] - NOVELTY_WEIGHT * dup[mask]
         best_idx = np.argmax(scores)
         return [c for i, c in enumerate(candidates) if mask[i]][best_idx]
+    # else: pick most relevant that still clears a basic novelty bar, else top score
     scores = RELEVANCE_WEIGHT * rel - NOVELTY_WEIGHT * dup
     order = np.argsort(-scores)
     for i in order: