cantonese-call-transcriber

Running

App Files Files Community

terry-li-hm commited on Sep 6, 2024

Commit

8a46051

1 Parent(s): 9844c20

Update `sv.py`

Browse files

Files changed (1) hide show

sv.py +40 -27

sv.py CHANGED Viewed

@@ -114,31 +114,44 @@ def format_text_with_emojis(s):
     return s.strip()
-def format_str_v3(s):
-    def get_emo(s):
-        return s[-1] if s[-1] in emo_set else None
-    def get_event(s):
-        return s[0] if s[0] in event_set else None
-    s = s.replace("<|nospeech|><|Event_UNK|>", "❓")
-    for lang in lang_dict:
-        s = s.replace(lang, "<|lang|>")
-    s_list = [format_text_with_emojis(s_i).strip(" ") for s_i in s.split("<|lang|>")]
-    new_s = " " + s_list[0]
-    cur_ent_event = get_event(new_s)
-    for i in range(1, len(s_list)):
-        if len(s_list[i]) == 0:
             continue
-        if get_event(s_list[i]) == cur_ent_event and get_event(s_list[i]) != None:
-            s_list[i] = s_list[i][1:]
-        # else:
-        cur_ent_event = get_event(s_list[i])
-        if get_emo(s_list[i]) != None and get_emo(s_list[i]) == get_emo(new_s):
-            new_s = new_s[:-1]
-        new_s += s_list[i].strip().lstrip()
-    new_s = new_s.replace("The.", " ")
-    return new_s.strip()
 def time_to_seconds(time_str):
@@ -306,10 +319,10 @@ def process_audio(audio_path, language="yue", fs=16000):
             )
             text = text[0]["text"]
-            # Print the text before format_str_v3
-            print(f"Text before format_str_v3: {text}")
-            text = format_str_v3(text)
             # Handle empty transcriptions
             if not text.strip():

     return s.strip()
+def clean_and_emoji_annotate_speech(text):
+    def get_emoji(s, emoji_set):
+        return next((char for char in s if char in emoji_set), None)
+    # Replace special tags
+    text = text.replace("<|nospeech|><|Event_UNK|>", "❓")
+    for lang, replacement in lang_dict.items():
+        text = text.replace(lang, replacement)
+    # Process each language segment
+    segments = [
+        format_text_with_emojis(segment.strip()) for segment in text.split("<|lang|>")
+    ]
+    formatted_segments = []
+    prev_event = prev_emotion = None
+    for segment in segments:
+        if not segment:
             continue
+        current_event = get_emoji(segment, event_set)
+        current_emotion = get_emoji(
+            segment, emo_set
+        )  # Check for emotion emoji anywhere in the segment
+        if current_event is not None:
+            segment = segment[1:] if segment.startswith(current_event) else segment
+        # Preserve emotion emoji if it's different from the previous one
+        if current_emotion is not None and current_emotion != prev_emotion:
+            segment = segment.replace(current_emotion, "") + current_emotion
+        formatted_segments.append(segment.strip())
+        prev_event, prev_emotion = current_event, current_emotion
+    result = " ".join(formatted_segments).replace("The.", "").strip()
+    return result
 def time_to_seconds(time_str):
             )
             text = text[0]["text"]
+            # Print the text before clean_and_emoji_annotate_speech
+            print(f"Text before clean_and_emoji_annotate_speech: {text}")
+            text = clean_and_emoji_annotate_speech(text)
             # Handle empty transcriptions
             if not text.strip():