Spaces:

litagin
/

make-anime-ser-dataset

Runtime error

App Files Files Community

litagin commited on Nov 18, 2024

Commit

0cd70b9

1 Parent(s): 344cf8a

update

Browse files

Files changed (1) hide show

app.py +53 -29

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import json
 import os
 import warnings
 import gradio as gr
@@ -12,6 +13,7 @@ from loguru import logger
 warnings.filterwarnings("ignore")
 NUM_TAR_FILES = 115
 HF_PATH_TO_DATASET = "litagin/Galgame_Speech_SER_16kHz"
 hf_token = os.getenv("HF_TOKEN")
@@ -77,15 +79,16 @@ def _load_dataset(
 logger.info("Start loading dataset")
 ds = _load_dataset(streaming=True, use_local_dataset=False)
 logger.info("Dataset loaded")
-# seed = random.randint(0, 2**32 - 1)
-# logger.info(f"Seed: {seed}")
-# ds_iter = iter(ds["train"].shuffle(seed=seed))
-ds_iter = iter(ds["train"])
 shortcut_js = """
 <script>
 function shortcuts(e) {
-    if (e.key === "Enter") {
         document.getElementById("btn_skip").click();
     } else if (e.key === "0") {
         document.getElementById("btn_0").click();
@@ -123,7 +126,9 @@ def modify_speed(
     return sr, librosa.effects.time_stretch(array, rate=speed)
-def parse_item(item, speed: float = 1.0) -> dict:
     label_id = item["cls"]
     sampling_rate = item["audio"]["sampling_rate"]
     array = item["audio"]["array"]
@@ -134,13 +139,24 @@ def parse_item(item, speed: float = 1.0) -> dict:
         "text": item["txt"],
         "label": id2rich_label[label_id],
         "label_id": label_id,
     }
-def get_next_parsed_item(speed: float = 1.0) -> dict:
     logger.info("Getting next item")
-    next_item = next(ds_iter)
-    parsed = parse_item(next_item, speed=speed)
     logger.info(
         f"Next item:\nkey={parsed['key']}\ntext={parsed['text']}\nlabel={parsed['label']}"
     )
@@ -150,17 +166,18 @@ def get_next_parsed_item(speed: float = 1.0) -> dict:
 md = """
 # 説明
-- このアプリは、ゲームのセリフを感情ラベル付けして、大規模な感情音声データセットを作成するためのものです
 - **性的な音声が含まれるため、18歳未満の方はご利用をお控えください**
-- 既存のラベルが適切であれば、そのまま「現在の感情ラベルで適切」ボタンを押してください
-- ラベルを修正する場合は、適切なボタンを押してください
-- ショートカットキー（カッコ内）を使うこともできます
-# 補足
 - `🥰 NSFW1` は女性の性的行為中の音声（喘ぎ声等）
-- `🍭 NSFW2` はキスシーンでのリップ音やフェラシーンでのしゃぶる音（チュパ音）を表します
-- 感情が音声からは特に読み取れない場合は `😐 中立` を選択してください
 """
 with gr.Blocks(head=shortcut_js) as app:
@@ -168,16 +185,21 @@ with gr.Blocks(head=shortcut_js) as app:
     with gr.Row():
         with gr.Column():
             btn_init = gr.Button("初期化・再読み込み")
-            speed = gr.Slider(
                 minimum=0.5, maximum=5.0, step=0.1, value=1.0, label="再生速度"
             )
             with gr.Column(variant="panel"):
                 key = gr.Textbox(label="Key")
-                audio = gr.Audio()
                 text = gr.Textbox(label="Text")
                 label = gr.Textbox(label="感情ラベル")
                 label_id = gr.Textbox(visible=False)
-            btn_skip = gr.Button("現在の感情ラベルで適切 (Enter)", elem_id="btn_skip")
         with gr.Column():
             gr.Markdown("# 感情ラベルを修正する場合")
             btn_list = [
@@ -187,21 +209,21 @@ with gr.Blocks(head=shortcut_js) as app:
     def update_current_item(data: dict) -> dict:
         global current_item
         if current_item is None:
-            speed_value = data[speed]
-            current_item = get_next_parsed_item(speed=speed_value)
-        modified_audio = modify_speed(current_item["audio"], speed=data[speed])
         return {
             key: current_item["key"],
             audio: gr.Audio(modified_audio, autoplay=True),
             text: current_item["text"],
             label: current_item["label"],
             label_id: current_item["label_id"],
         }
     def set_next_item(data: dict) -> dict:
         global current_item
-        speed_value = data[speed]
-        current_item = get_next_parsed_item(speed=speed_value)
         return update_current_item(data)
     def put_unmodified(data: dict) -> dict:
@@ -221,13 +243,15 @@ with gr.Blocks(head=shortcut_js) as app:
         return set_next_item(data)
     btn_init.click(
-        update_current_item, inputs={speed}, outputs=[key, audio, text, label, label_id]
     )
     btn_skip.click(
         put_unmodified,
-        inputs={key, label_id, speed},
-        outputs=[key, audio, text, label, label_id],
     )
     functions_list = []
@@ -253,8 +277,8 @@ with gr.Blocks(head=shortcut_js) as app:
     for _id in range(10):
         btn_list[_id].click(
             functions_list[_id],
-            inputs={key, speed},
-            outputs=[key, audio, text, label, label_id],
         )
 app.launch()

 import json
 import os
+import random
 import warnings
 import gradio as gr
 warnings.filterwarnings("ignore")
 NUM_TAR_FILES = 115
+NUM_SAMPLES = 3746131
 HF_PATH_TO_DATASET = "litagin/Galgame_Speech_SER_16kHz"
 hf_token = os.getenv("HF_TOKEN")
 logger.info("Start loading dataset")
 ds = _load_dataset(streaming=True, use_local_dataset=False)
 logger.info("Dataset loaded")
+seed = random.randint(0, 2**32 - 1)
+logger.info(f"Seed: {seed}")
+ds_iter = iter(ds["train"].shuffle(seed=seed))
+# ds_iter = iter(ds["train"])
+counter = 0
 shortcut_js = """
 <script>
 function shortcuts(e) {
+    if (e.key === "a") {
         document.getElementById("btn_skip").click();
     } else if (e.key === "0") {
         document.getElementById("btn_0").click();
     return sr, librosa.effects.time_stretch(array, rate=speed)
+def parse_item(item) -> dict:
+    global counter
     label_id = item["cls"]
     sampling_rate = item["audio"]["sampling_rate"]
     array = item["audio"]["array"]
         "text": item["txt"],
         "label": id2rich_label[label_id],
         "label_id": label_id,
+        "counter": counter,
     }
+def get_next_parsed_item() -> dict:
+    global counter, ds_iter
     logger.info("Getting next item")
+    try:
+        next_item = next(ds_iter)
+        counter += 1
+    except StopIteration:
+        logger.info("StopIteration, re-initializing using new seed")
+        seed = random.randint(0, 2**32 - 1)
+        logger.info(f"New Seed: {seed}")
+        ds_iter = iter(ds["train"].shuffle(seed=seed))
+        next_item = next(ds_iter)
+        counter = 1
+    parsed = parse_item(next_item)
     logger.info(
         f"Next item:\nkey={parsed['key']}\ntext={parsed['text']}\nlabel={parsed['label']}"
     )
 md = """
 # 説明
 - **性的な音声が含まれるため、18歳未満の方はご利用をお控えください**
+- このアプリは [このゲームのセリフ音声データセット](https://huggingface.co/datasets/litagin/Galgame_Speech_SER_16kHz) の感情ラベルを修正して、大規模で高品質な感情音声データセットを作成するためのものです
+- 「**何を言っているか**」ではなく「**どのように言っているか**」に注目して、感情ラベルを付与してください（例: 悲しそうに「とっても楽しいです…」と言っていたら、 `😊 幸せ` ではなく `😢 悲しみ` とする）
+- 既存のラベルが適切であれば、そのまま「現在の感情ラベルで適切」ボタンを押してください（ショートカットキー: `A`）
+- ラベルを修正する場合は、適切なボタンを押してください（ショートカットキー: `0` 〜 `9`）
+# ラベル補足
 - `🥰 NSFW1` は女性の性的行為中の音声（喘ぎ声等）
+- `🍭 NSFW2` はキスシーンでのリップ音やフェラシーンでのしゃぶる音（チュパ音）が多く含まれている音声（セリフ＋チュパ音の場合も含む）（フェラシーン中のセリフだと思われる場合はこれ）
+- 感情が音声からは特に読み取れない場合（普通のテンションの声で「今日はラーメンを食べます」等）は `😐 中立` を選択してください
+- 複数の感情が含まれている場合は、最も多く含まれている感情を選択してください
 """
 with gr.Blocks(head=shortcut_js) as app:
     with gr.Row():
         with gr.Column():
             btn_init = gr.Button("初期化・再読み込み")
+            speed_slider = gr.Slider(
                 minimum=0.5, maximum=5.0, step=0.1, value=1.0, label="再生速度"
             )
+            counter_info = gr.Textbox(label="進捗状況")
             with gr.Column(variant="panel"):
                 key = gr.Textbox(label="Key")
+                audio = gr.Audio(
+                    show_download_button=False,
+                    show_share_button=False,
+                    interactive=False,
+                )
                 text = gr.Textbox(label="Text")
                 label = gr.Textbox(label="感情ラベル")
                 label_id = gr.Textbox(visible=False)
+            btn_skip = gr.Button("現在の感情ラベルで適切 (A)", elem_id="btn_skip")
         with gr.Column():
             gr.Markdown("# 感情ラベルを修正する場合")
             btn_list = [
     def update_current_item(data: dict) -> dict:
         global current_item
         if current_item is None:
+            current_item = get_next_parsed_item()
+        modified_audio = modify_speed(current_item["audio"], speed=data[speed_slider])
+        counter_str = f"{current_item['counter']}/{NUM_SAMPLES}: {current_item['counter'] / NUM_SAMPLES * 100:.2f}%"
         return {
             key: current_item["key"],
             audio: gr.Audio(modified_audio, autoplay=True),
             text: current_item["text"],
             label: current_item["label"],
             label_id: current_item["label_id"],
+            counter_info: counter_str,
         }
     def set_next_item(data: dict) -> dict:
         global current_item
+        current_item = get_next_parsed_item()
         return update_current_item(data)
     def put_unmodified(data: dict) -> dict:
         return set_next_item(data)
     btn_init.click(
+        update_current_item,
+        inputs={speed_slider},
+        outputs=[key, audio, text, label, label_id, counter_info],
     )
     btn_skip.click(
         put_unmodified,
+        inputs={key, label_id, speed_slider},
+        outputs=[key, audio, text, label, label_id, counter_info],
     )
     functions_list = []
     for _id in range(10):
         btn_list[_id].click(
             functions_list[_id],
+            inputs={key, speed_slider},
+            outputs=[key, audio, text, label, label_id, counter_info],
         )
 app.launch()