cantonese-call-transcriber

Sleeping

App Files Files Community

terry-li-hm commited on Sep 6, 2024

Commit

a54fc2d

1 Parent(s): 31e1773

Update sv.py

Browse files

Files changed (1) hide show

sv.py +12 -1

sv.py CHANGED Viewed

@@ -92,32 +92,39 @@ event_set = {"🎼", "👏", "😀", "😭", "🤧", "😷"}
 def clean_and_emoji_annotate_speech(text):
     def get_emoji(s, emoji_set):
         return next((char for char in s if char in emoji_set), None)
     def format_text_with_emojis(s):
         sptk_dict = {sptk: s.count(sptk) for sptk in emoji_dict}
         for sptk in emoji_dict:
             s = s.replace(sptk, "")
         emo = "<|NEUTRAL|>"
         for e in emo_dict:
             if sptk_dict.get(e, 0) > sptk_dict.get(emo, 0):
                 emo = e
         s = (
             "".join(event_dict[e] for e in event_dict if sptk_dict.get(e, 0) > 0)
             + s
             + emo_dict[emo]
         )
         for emoji in emo_set.union(event_set):
             s = s.replace(f" {emoji}", emoji).replace(f"{emoji} ", emoji)
         return s.strip()
-    # Replace special tags
     text = text.replace("<|nospeech|><|Event_UNK|>", "❓")
     for lang, replacement in lang_dict.items():
         text = text.replace(lang, replacement)
@@ -130,6 +137,7 @@ def clean_and_emoji_annotate_speech(text):
     formatted_segments = []
     prev_event = prev_emotion = None
     for segment in segments:
         if not segment:
             continue
@@ -137,15 +145,18 @@ def clean_and_emoji_annotate_speech(text):
         current_event = get_emoji(segment, event_set)
         current_emotion = get_emoji(segment, emo_set)
         if current_event is not None:
             segment = segment[1:] if segment.startswith(current_event) else segment
         if current_emotion is not None and current_emotion != prev_emotion:
             segment = segment.replace(current_emotion, "") + current_emotion
         formatted_segments.append(segment.strip())
         prev_event, prev_emotion = current_event, current_emotion
     result = " ".join(formatted_segments).replace("The.", "").strip()
     return result

 def clean_and_emoji_annotate_speech(text):
+    # Helper function to get the first emoji from a string that belongs to a given set
     def get_emoji(s, emoji_set):
         return next((char for char in s if char in emoji_set), None)
+    # Helper function to format text with emojis based on special tokens
     def format_text_with_emojis(s):
+        # Count occurrences of special tokens
         sptk_dict = {sptk: s.count(sptk) for sptk in emoji_dict}
+        # Remove all special tokens from the text
         for sptk in emoji_dict:
             s = s.replace(sptk, "")
+        # Determine the dominant emotion
         emo = "<|NEUTRAL|>"
         for e in emo_dict:
             if sptk_dict.get(e, 0) > sptk_dict.get(emo, 0):
                 emo = e
+        # Add event emojis at the beginning and emotion emoji at the end
         s = (
             "".join(event_dict[e] for e in event_dict if sptk_dict.get(e, 0) > 0)
             + s
             + emo_dict[emo]
         )
+        # Remove spaces around emojis
         for emoji in emo_set.union(event_set):
             s = s.replace(f" {emoji}", emoji).replace(f"{emoji} ", emoji)
         return s.strip()
+    # Replace special tags and language markers
     text = text.replace("<|nospeech|><|Event_UNK|>", "❓")
     for lang, replacement in lang_dict.items():
         text = text.replace(lang, replacement)
     formatted_segments = []
     prev_event = prev_emotion = None
+    # Combine segments, avoiding duplicate emojis
     for segment in segments:
         if not segment:
             continue
         current_event = get_emoji(segment, event_set)
         current_emotion = get_emoji(segment, emo_set)
+        # Remove leading event emoji if it's the same as the previous one
         if current_event is not None:
             segment = segment[1:] if segment.startswith(current_event) else segment
+        # Move emotion emoji to the end if it's different from the previous one
         if current_emotion is not None and current_emotion != prev_emotion:
             segment = segment.replace(current_emotion, "") + current_emotion
         formatted_segments.append(segment.strip())
         prev_event, prev_emotion = current_event, current_emotion
+    # Join segments and remove unnecessary "The." at the end
     result = " ".join(formatted_segments).replace("The.", "").strip()
     return result