Spaces:

DigitalHallywood-neoAI
/

DigitalHallywood-TutorAI

Sleeping

App Files Files Community

柿崎透真 commited on Dec 20, 2024

Commit

66a50c8

1 Parent(s): 1b0b08e

feat: 動画教材レコメンド機能 & ストリーム出力

Browse files

Files changed (16) hide show

app.py +3 -1
neollm/llm/llm/google_generativeai/google_generativeai.py +12 -2
src/backend/movie_recommender/movie_recommender.py +66 -0
src/backend/movie_summarizer/movie_summarizer.py +53 -0
src/backend/query_generator/query_generator.py +82 -0
src/backend/tutor/cg/cg_image_tutor/cg_image_tutor.py +6 -0
src/backend/tutor/cg/cg_image_tutor/prompt.py +7 -3
src/backend/tutor/cg/cg_video_tutor/prompt.py +7 -3
src/backend/tutor/graphic/idea_tutor/graphic_idea_tutor.py +5 -0
src/backend/tutor/graphic/poster_tutor/graphic_poster_tutor.py +6 -0
src/backend/tutor/graphic/poster_tutor/prompt.py +7 -1
src/gradio_interface/cg/image.py +15 -5
src/gradio_interface/cg/image_with_movie_recommendation.py +207 -0
src/gradio_interface/graphic/idea.py +16 -5
src/gradio_interface/graphic/poster.py +14 -10
src/gradio_interface/utils.py +86 -20

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from src.gradio_interface.cg.image import create_cg_image_tab
 from src.gradio_interface.cg.video import create_cg_video_tab
 from src.gradio_interface.graphic.idea import create_idea_tab
 from src.gradio_interface.graphic.poster import create_poster_tab
@@ -15,11 +16,12 @@ def main():
         with gr.Tabs():
             create_cg_image_tab()
             create_cg_video_tab()
             create_poster_tab()
             create_idea_tab()
-        demo.launch()
 if __name__ == "__main__":

 import gradio as gr
 from src.gradio_interface.cg.image import create_cg_image_tab
+from src.gradio_interface.cg.image_with_movie_recommendation import create_cg_image_with_movie_recommendation_tab
 from src.gradio_interface.cg.video import create_cg_video_tab
 from src.gradio_interface.graphic.idea import create_idea_tab
 from src.gradio_interface.graphic.poster import create_poster_tab
         with gr.Tabs():
             create_cg_image_tab()
+            create_cg_image_with_movie_recommendation_tab()
             create_cg_video_tab()
             create_poster_tab()
             create_idea_tab()
+        demo.launch(enable_queue=True)
 if __name__ == "__main__":

neollm/llm/llm/google_generativeai/google_generativeai.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from neollm.llm.llm.gpt.openai_gpt import OpenAILLM
 from neollm.types import (
     ChatCompletion,
@@ -11,6 +12,7 @@ from neollm.types import (
 )
 from neollm.types.info import APIPricing
 from neollm.types.mytypes import ClientSettings
 class _GoogleGenerativeLLM(OpenAILLM):
@@ -26,11 +28,19 @@ class _GoogleGenerativeLLM(OpenAILLM):
     def encode(self, text: str) -> list[int]:
         print("Tokens are different from actual tokens because tiktoken for gpt is used.")
-        return super().encode(text)
     def decode(self, encoded: list[int]) -> str:
         print("Tokens are different from actual tokens because tiktoken for gpt is used.")
-        return super().decode(encoded)
     def _convert_to_response(self, platform_response: OpenAIResponse) -> Response:
         platform_response.id = str(platform_response.id)  # IDがnullで出てくるため、strに変換

+import tiktoken
 from neollm.llm.llm.gpt.openai_gpt import OpenAILLM
 from neollm.types import (
     ChatCompletion,
 )
 from neollm.types.info import APIPricing
 from neollm.types.mytypes import ClientSettings
+ALTERNATIVE_MODEL_FOR_ENCODING = "gpt-4o"
 class _GoogleGenerativeLLM(OpenAILLM):
     def encode(self, text: str) -> list[int]:
         print("Tokens are different from actual tokens because tiktoken for gpt is used.")
+        try:
+            return super().encode(text)
+        except KeyError:
+            # NOTE: generative-aiのモデルとtiktokenが対応していないため、実際とは異なるがgpt-4oで代用
+            return tiktoken.encoding_for_model(ALTERNATIVE_MODEL_FOR_ENCODING).encode(text)
     def decode(self, encoded: list[int]) -> str:
         print("Tokens are different from actual tokens because tiktoken for gpt is used.")
+        try:
+            return super().decode(encoded)
+        except KeyError:
+            # NOTE: generative-aiのモデルとtiktokenが対応していないため、実際とは異なるがgpt-4oで代用
+            return tiktoken.encoding_for_model(ALTERNATIVE_MODEL_FOR_ENCODING).decode(encoded)
     def _convert_to_response(self, platform_response: OpenAIResponse) -> Response:
         platform_response.id = str(platform_response.id)  # IDがnullで出てくるため、strに変換

src/backend/movie_recommender/movie_recommender.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import os
+from typing import Final
+from azure.core.credentials import AzureKeyCredential
+from azure.search.documents import SearchClient
+from azure.search.documents._paging import SearchItemPaged
+from azure.search.documents.models import QueryAnswerType, QueryCaptionType, QueryType, VectorizedQuery
+from openai import AzureOpenAI
+SEMANTIC_CONFIG_NAME: Final[str] = "my-semantic-config"
+MODEL: Final[str] = "text-embedding-3-small"
+K_NEAREST_NEIGHBORS: Final[int] = 3
+TOP: Final[int] = 2
+# 検索で取得するフィールド
+SEARCH_FIELDS: Final[list[str]] = [
+    "file_name",
+    "content",
+]
+class MovieRecommender:
+    def generate_embeddings(self, text: list[str]) -> list[float]:
+        azure_openai_client = AzureOpenAI(
+            api_key=os.environ["AZURE_OPENAI_API_KEY"],
+            api_version=os.environ["AZURE_OPENAI_API_VERSION"],
+            azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
+        )
+        response = azure_openai_client.embeddings.create(input=text, model=MODEL)  # type: ignore
+        return response.data[0].embedding
+    def search(self, queries: dict[str, dict[str, list[str]]]) -> dict[str, SearchItemPaged[dict]]:
+        search_client = SearchClient(
+            endpoint=os.environ["AZURE_SEARCH_SERVICE_ENDPOINT"],
+            index_name=os.environ["AZURE_SEARCH_INDEX_NAME"],
+            credential=AzureKeyCredential(os.environ["AZURE_SEARCH_SERVICE_KEY"]),
+        )
+        search_results = {}
+        for view_point, query in queries.items():
+            search_text = query["keyword"]
+            search_results[view_point] = search_client.search(
+                search_text=str(search_text),
+                vector_queries=[
+                    VectorizedQuery(
+                        vector=self.generate_embeddings(search_text),
+                        k_nearest_neighbors=K_NEAREST_NEIGHBORS,
+                        fields="content_vector",
+                    )
+                ],
+                select=SEARCH_FIELDS,
+                top=TOP,
+                query_type=QueryType.SEMANTIC,
+                semantic_configuration_name=SEMANTIC_CONFIG_NAME,
+                query_caption=QueryCaptionType.EXTRACTIVE,
+                query_answer=QueryAnswerType.EXTRACTIVE,
+            )
+        return search_results
+    def format_search_results(self, search_results: dict[str, SearchItemPaged[dict]]) -> str:
+        return "\n".join(
+            [
+                f"## {key}\n### ファイル名：\n- {v['file_name']}\n### 内容：\n- {v['content']}\n"
+                for key, value in search_results.items()
+                for v in value
+            ]
+        )

src/backend/movie_summarizer/movie_summarizer.py ADDED Viewed

	@@ -0,0 +1,53 @@

+from neollm import MyLLM
+from neollm.types import Messages, Response
+SYSTEM_PROMPT_TAG = "system_prompt"
+class MovieSummarizer(MyLLM):
+    def create_system_prompt(self, inputs: dict[str, str]) -> str:
+        prompt = (
+            "あなたは動画キャプションの要約器です。\n"
+            "デザインを学ぶ学生が作った「# 作品の評価」と作品の改善における「# おすすめの動画」が渡されるので、これらを使って文章生成を行なってください。\n"
+            "要約において、以下の「# 入力フォーマット」と「# 出力フォーマット」、また「# 制約条件」を参考にしてください。\n\n"
+            "# 入力フォーマット\n"
+            "## {世界観、モデリングなどのデザイン創作において重視される項目}\n"
+            "### ファイル名：\n"
+            "{おすすめ動画のファイル名}\n"
+            "### 内容：\n"
+            "{おすすめ動画の内容}\n\n"
+            "{他の項目に関しても同様のフォーマットで続いていく}\n\n"
+            "# 出力フォーマット\n"
+            "## {世界観、モデリングなどのデザイン創作において重視される項目}\n"
+            "### ファイル名：\n"
+            "- {おすすめ動画のファイル名。複数ある場合、ここに箇条書きで列挙してください}\n"
+            "### 動画の概要：\n"
+            "{おすすめ動画の内容を要約したもの。ここは小文字で出してください。絶対に「#」などで大文字にしないでください。}\n"
+            "---\n\n"
+            "{次の項目へ。他の項目に関しても同様のフォーマットで続いていく}\n\n"
+            "# 制約条件\n"
+            "- 文章の出力において、「## {世界観、モデリングなどのデザイン創作において重視される項目}」と「### ファイル名：」の部分は変更しないでください。\n"
+            "- 「### 動画の概要」のところでは、入力された「### 内容」を、「改善点を解決するためになぜこの動画がおすすめか」「どんなことが話されているか」「これを見れば何が学べるか」をわかりやすくようやくしてください。\n"
+            "- 「# おすすめの動画」では2つ動画が渡されますが、必ずしも2つおすすめする必要はございません。学生の作品改善に有用だと思われる場合は、複数個おすすめしてください。\n"
+            "- **複数個おすすめする際は、1つの項目で何個も「### ファイル名」「### 動画の概要」を作らず、まとめてファイル名を記述・内容を要約してください。**\n"
+            "- 「# 出力フォーマット」にもありますが、項目ごとに「---」を入れて区切ってください。\n\n"
+            "それでは、生成を開始してください。あなたならできます。\n\n"
+            "# 作品の評価\n"
+            f"{inputs['evaluation_text']}\n\n"
+            "# おすすめの動画\n"
+            f"{inputs['recommendation_text']}"
+        )
+        # タグの追加
+        return f"<{SYSTEM_PROMPT_TAG}>\n{prompt}\n</{SYSTEM_PROMPT_TAG}>"
+    def _preprocess(self, inputs: dict[str, str]) -> Messages:
+        return [
+            {
+                "role": "system",
+                "content": self.create_system_prompt(inputs),
+            },
+            {"role": "user", "content": "<system_prompt>に従い、動画教材の要約を行なってください。"},
+        ]
+    def _postprocess(self, response: Response) -> str:
+        return response.choices[0].message.content

src/backend/query_generator/query_generator.py ADDED Viewed

	@@ -0,0 +1,82 @@

+from neollm import MyLLM
+from neollm.types import Messages, Response
+SYSTEM_PROMPT_TAG = "system_prompt"
+class QueryGenerator(MyLLM):
+    def create_system_prompt(
+        self,
+        evaluation_text: str,
+    ) -> str:
+        # 基本部分・デジハリの説明
+        prompt = "あなたは美術大学の3DCGデザイナー専攻の作品評価AIです。\n"
+        prompt += (
+            "プロ視点で、生徒の作品をより良くするためのキーワードを生成してください。\n"
+            "キーワード生成にあたり、以下の「# 制約条件」は必ず守ってください。\n\n"
+        )
+        # 制約条件
+        prompt += (
+            "# 制約条件\n"
+            "- 美術大学の教授が作品を事前に評価した文章が、「# 評価テキスト」で渡されます。\n"
+            "  - ここでは、項目ごとでの点数付けおよび、良い点・改善点の列挙が行われています。\n"
+            "  - あなたは、「# 評価テキスト」の各項目の改善点をもとに、項目ごとにキーワード生成を行ってください。生成形式の詳細は、後に記述する「# 出力フォーマット」を確認してください。\n"
+            "- あなたが生成したキーワードは、教材検索システムの検索クエリとして使用されます。そのことを念頭に置いてキーワードを生成してください。\n"
+            "- 「# 出力フォーマット」や「# 出力例」を参考に、必ずJSON形式で出力してください。\n\n"
+        )
+        # 評価テキスト
+        prompt += "# 評価テキスト\n" f"{evaluation_text}\n\n"
+        # 出力フォーマット
+        prompt += (
+            "# 出力フォーマット\n"
+            "    {"
+            "        '{「# 評価テキスト」の項目1}': {'keyword': '{項目1の改善点をもとに、キーワードをlist[str]の形式で出力}'},"
+            "        '{「# 評価テキスト」の項目2}': {'keyword': '{項目2の改善点をもとに、キーワードをlist[str]の形式で出力}'},"
+            "        '{「# 評価テキスト」の項目3}': {'keyword': '{項目3の改善点をもとに、キーワードをlist[str]の形式で出力}'},"
+            "        {項目4以降に関しても上記と同様のフォーマットで出力してください}"
+            "    }"
+        )
+        # 出力フォーマット
+        prompt += (
+            "# 出力例\n"
+            "    {"
+            "        'モデリング': {'keyword': ['モデリング', 'ディテール追加', '襖', '掛軸', '細部の精緻化']},"
+            "        'ライティング': {'keyword':  ['ライティング', '陰影強調', '立体感', '照明設定']},"
+            "    }"
+        )
+        # 講義に関するナレッジ
+        prompt += "それでは、生成を開始してください。あなたならできます。"
+        # タグの追加
+        return f"<{SYSTEM_PROMPT_TAG}>\n{prompt}\n</{SYSTEM_PROMPT_TAG}>"
+    def _preprocess(self, inputs: dict[str, str]) -> Messages:
+        return [
+            {
+                "role": "system",
+                "content": self.create_system_prompt(
+                    inputs["evaluation_text"],
+                ),
+            },
+            {
+                "role": "user",
+                "content": [
+                    {
+                        "type": "text",
+                        "text": "<system_prompt>に従って、入力された3DCG作品をよりよくするためのキーワードを生成してください。",
+                    },
+                    {
+                        "type": "image_url",
+                        "image_url": {"url": f"data:image/png;base64,{inputs['image_data']}"},
+                    },
+                ],
+            },
+        ]
+    def _postprocess(self, response: Response) -> str:
+        return response.choices[0].message.content

src/backend/tutor/cg/cg_image_tutor/cg_image_tutor.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from typing import Literal, cast
 from neollm import MyLLM
@@ -43,3 +44,8 @@ class CGImageTutor(MyLLM):
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content

+from collections.abc import Generator
 from typing import Literal, cast
 from neollm import MyLLM
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content
+    def generate_response_stream(
+        self, inputs: dict[str, str | Literal["NORMAL", "HARD"]]
+    ) -> Generator[str, None, None]:
+        yield from super().call_stream(inputs)

src/backend/tutor/cg/cg_image_tutor/prompt.py CHANGED Viewed

@@ -82,12 +82,16 @@ def create_system_prompt(
         "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
-        "    **{項目2}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
-        "    ## 個人能力評価観点\n"
-        "    {「## 個人能力評価観点」について、「## 課題評価観点」と同様のフォーマットで評価してください}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

         "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
+        "    {基本的に項目は1つですが他にも与えられている場合は項目2以降も同様に評価してください}\n\n"
+        "    ## 個人能力評価観点\n"
+        "    {「## 個人能力評価観点」の各項目について評価してください}\n\n"
+        "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
+        "    **{項目2}:{点数}**\n"
+        "    - 良い点：{項目2に関する良い点}\n"
+        "    - 改善点：{項目2に関する改善点}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

src/backend/tutor/cg/cg_video_tutor/prompt.py CHANGED Viewed

@@ -72,12 +72,16 @@ def create_system_prompt(
         "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
-        "    **{項目2}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
-        "    ## 個人能力評価観点\n"
-        "    {「## 個人能力評価観点」について、「## 課題評価観点」と同様のフォーマットで評価してください}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

         "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
+        "    {基本的に項目は1つですが他にも与えられている場合は項目2以降も同様に評価してください}\n\n"
+        "    ## 個人能力評価観点\n"
+        "    {「## 個人能力評価観点」の各項目について評価してください}\n\n"
+        "    **{項目1}:{点数}**\n"
         "    - 良い点：{項目1に関する良い点}\n"
         "    - 改善点：{項目1に関する改善点}\n"
+        "    **{項目2}:{点数}**\n"
+        "    - 良い点：{項目2に関する良い点}\n"
+        "    - 改善点：{項目2に関する改善点}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

src/backend/tutor/graphic/idea_tutor/graphic_idea_tutor.py CHANGED Viewed

@@ -1,3 +1,5 @@
 from neollm import MyLLM
 from neollm.types import Messages, Response
@@ -27,3 +29,6 @@ class GraphicIdeaTutor(MyLLM):
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content

+from collections.abc import Generator
 from neollm import MyLLM
 from neollm.types import Messages, Response
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content
+    def generate_response_stream(self, inputs: dict[str, str | list[str]]) -> Generator[str, None, None]:
+        yield from super().call_stream(inputs)

src/backend/tutor/graphic/poster_tutor/graphic_poster_tutor.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from typing import Literal, cast
 from neollm import MyLLM
@@ -183,3 +184,8 @@ class GraphicPosterTutor(MyLLM):
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content

+from collections.abc import Generator
 from typing import Literal, cast
 from neollm import MyLLM
     def _postprocess(self, response: Response) -> str:
         return response.choices[0].message.content
+    def generate_response_stream(
+        self, inputs: dict[str, str | Literal["NORMAL", "HARD"]]
+    ) -> Generator[str, None, None]:
+        yield from super().call_stream(inputs)

src/backend/tutor/graphic/poster_tutor/prompt.py CHANGED Viewed

@@ -86,7 +86,13 @@ def create_system_prompt(
         "    - 改善点：{項目2に関する改善点,500文字程度}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
         "    ## 技能評価\n"
-        "    {広告物としての評価と同様のフォーマットで各項目について評価}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

         "    - 改善点：{項目2に関する改善点,500文字程度}\n"
         "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
         "    ## 技能評価\n"
+        "    **{項目1}：{点数}**\n"
+        "    - 良い点：{項目1に関する良い点}\n"
+        "    - 改善点：{項目1に関する改善点,500文字程度}\n"
+        "    **{項目2}：{点数}**\n"
+        "    - 良い点：{項目2に関する良い点}\n"
+        "    - 改善点：{項目2に関する改善点,500文字程度}\n"
+        "    {項目3以降に関しても上記と同様のフォーマットで評価してください}\n\n"
         "    ## コメント\n"
         "    {フィードバックした内容を元に、作品の全体的な完成度や、さらにブラッシュアップするために何が重要か、コメントしてください。"
     )

src/gradio_interface/cg/image.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from typing import Literal
 import numpy as np
@@ -7,8 +8,11 @@ from src.backend.tutor.cg.cg_image_tutor.cg_image_tutor import CGImageTutor
 from src.backend.utils import encode_image
 from src.gradio_interface.utils import create_evaluation_tab
-PLATFORM = "google-generativeai"
-MODEL = "gemini-20-flash-exp"
 BACKLOG_IMAGE_PATH_CG = "fig/backlog_CG静止画_動画_20241214.png"
 ASSIGNMENT_DEFAULT = """## 内容: 『写実表現』Ｍayaモデリング静止画課題（3か月課題制作）
@@ -89,7 +93,7 @@ def analyze_cg_image(
     knowledge: str,
     mode_setting: Literal["NORMAL", "HARD"] = "NORMAL",
     color_mode_setting: Literal["カラー", "モノクロ"] = "カラー",
-) -> str:
     """3DCG静止画の評価を実行する関数
     Parameters:
@@ -110,10 +114,12 @@ def analyze_cg_image(
     """
     cg_image_tutor = CGImageTutor(
-        platform=PLATFORM, model=MODEL, client_settings={"api_key": os.getenv("GOOGLE_API_KEY")}
     )
-    return cg_image_tutor(
         inputs={
             "image_data": encode_image(image),
             "evaluation_criteria": evaluation_criteria,
@@ -124,3 +130,7 @@ def analyze_cg_image(
             "color_mode_setting": color_mode_setting,
         }
     )

 import os
+from collections.abc import Generator
 from typing import Literal
 import numpy as np
 from src.backend.utils import encode_image
 from src.gradio_interface.utils import create_evaluation_tab
+# TODO: gemini-20-flash-exp のストリーム出力対応
+# PLATFORM = "google-generativeai"
+# MODEL = "gemini-20-flash-exp"
+PLATFORM = "gcp"
+MODEL = "gemini-1.5-pro-002"
 BACKLOG_IMAGE_PATH_CG = "fig/backlog_CG静止画_動画_20241214.png"
 ASSIGNMENT_DEFAULT = """## 内容: 『写実表現』Ｍayaモデリング静止画課題（3か月課題制作）
     knowledge: str,
     mode_setting: Literal["NORMAL", "HARD"] = "NORMAL",
     color_mode_setting: Literal["カラー", "モノクロ"] = "カラー",
+) -> Generator[str, None, None]:
     """3DCG静止画の評価を実行する関数
     Parameters:
     """
     cg_image_tutor = CGImageTutor(
+        platform=PLATFORM,
+        model=MODEL,
+        # client_settings={"api_key": os.getenv("GOOGLE_API_KEY")}
     )
+    response_generator = cg_image_tutor.generate_response_stream(
         inputs={
             "image_data": encode_image(image),
             "evaluation_criteria": evaluation_criteria,
             "color_mode_setting": color_mode_setting,
         }
     )
+    response = ""
+    for delta_content in response_generator:
+        response += delta_content
+        yield response

src/gradio_interface/cg/image_with_movie_recommendation.py ADDED Viewed

	@@ -0,0 +1,207 @@

+import json
+import os
+import re
+from typing import Literal
+import numpy as np
+from neollm.utils.postprocess import json2dict
+from src.backend.movie_recommender.movie_recommender import MovieRecommender
+from src.backend.movie_summarizer.movie_summarizer import MovieSummarizer
+from src.backend.query_generator.query_generator import QueryGenerator
+from src.backend.tutor.cg.cg_image_tutor.cg_image_tutor import CGImageTutor
+from src.backend.utils import encode_image
+from src.gradio_interface.utils import create_evaluation_tab
+# TODO: gemini-20-flash-exp に変更
+PLATFORM = "gcp"
+MODEL = "gemini-1.5-pro-002"
+# PLATFORM = "google-generativeai"
+# MODEL = "gemini-20-flash-exp"
+# GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
+BACKLOG_IMAGE_PATH_CG = "fig/backlog_CG静止画_動画_20241123.png"
+ASSIGNMENT_DEFAULT = """## 内容: 『写実表現』Ｍayaモデリング静止画課題（3か月課題制作）
+- モチーフは部屋です。部屋での生活感を考えて、そこに置かれている様々な物もレイアウトしてください。
+- 全体的なスケールバランスや質感などもこだわって、写実的に表現しましょう。
+- モチーフ対象とした資料と比較し、遜色の無い再現性を目指して制作にあたって下さい。
+## 目的
+- モデリング方法に慣れる
+- Photoshopを使用したテクスチャ作成に慣れる
+- オブジェクトに適したマテリアル設定やUVマッピングが行えるようになる
+- ライティング&レンダリングの基本を理解する
+- 1年間でプロを目指すために、スキルだけでなく、自身の作品(ポートフォリオ)充実の一環として。
+## 作品規定
+- サイズ=1280×720pix
+- カメラアングルを変えた画像を2枚提出(構図を考えてカメラを配置し、カメラビューにてレンダリング)
+"""
+CRITERIA_DEFAULT = """## 課題評価観点：各項目5段階で評価される
+- 世界観：登場する⼩道具から背景までが、魅⼒的で作品意図に合ったものであるか。
+    5. 舞台設定や背景が詳細かつ魅力的で、作品意図と完全に一致している。細部まで徹底的に構築され、世界観が生きている。
+    4. 魅力的で統一感のある世界観。わずかな不足はあるが、視聴者に十分伝わる。
+    3. 世界観は成立しているが、深みや説得力がやや不足している。
+    2. 世界観に矛盾が多く、魅力に欠ける。設定が浅く、改善が必要。
+    1. 設定が未完成か、ほとんど感じられない。
+## 個人能力評価観点: 各項目5段階で評価される。
+- モデリング: 5.モチーフの構造を理解し、整合性を正しく造型できる。4.アニメーションによる変形に対応したトポロジーで作成できる。3.リアル調かデフォルメのどちらかを造形する事ができる。2.物語を説明するために必要な形状を作成することができる。1.ツールを使うことができない。
+- テクスチャリング: 5.モデルの置かれた状況や状態、これまでの経緯を正しく表現することができる。4.モデルに対して必要なディティールを描き加えることができる。3.テクスチャマップを理解して使い分けることができる。2.作品や周囲の環境に合わせたカラーテクスチャを貼ることができる。1.ツールを使うことができない。
+- ライティング: 5.必要とする演出に合わせて、理論的にライティング&レンダリングを構築できる。4.映像作品のための演出的なライティング⼿法の知識がある。3.イメージベースドライティングを理解してライティングをすることができる。2.照明があてられた状態でレンダリング結果を得ることができている。1.ツールを使うことができない。
+- レイアウト: 5.視線誘導を意識して画面内を構成できる。4.近景、中景、遠景を意識し奥行きを感じさせる表現ができる。3.三分割法を理解し実践できる。2.形の大小、色の強弱、要素の粗密などに注目しバランスが取れるようにフレーミングできる。1.レイアウトを理解していない。
+- レンダリング: 5.計算時間をかけ過ぎずに適切な計算時間でレンダリングできる。4.レンダリングの計算精度の意味を理解し、拡散反射、鏡面反射、透明度、ボリューム、サブサーフェイススキャッタリングごとに画質の向上ができる。2.画質を向上しレンダリング時に発生するノイズの軽減ができる。1.画質の向上ができない
+"""
+ARTWORK_CONTENT_DEFAULT = "- テーマ（一文または短いフレーズ）:\n- 作品の世界観の設定（いつ？どこで？などの状況）：\n- 一番観てもらいたい点・自分の作品の一番のうり： "
+KNOWLEDGE_DEFAULT = """生徒はこの課題の前までに、以下の「学習項目」の内容を学習しています。
+# 学習項目
+- 2Dグラフィックス
+- 様々なモデリング手法
+- マテリアル / UV / テクスチャ
+- ライティング / カメラワーク
+- レンダリング
+3DCGデザイナー専攻の概要やカリキュラムは以下の通りです。
+# 3DCGデザイナー専攻の概要
+- モデリング・アニメーション・コンポジットなど、「3DCGデザイナー」として就職・転職に必要なスキルを1年間で習得する
+- メインで学習するソフトはMayaで、基礎から応用までを網羅する。Mayaはゲーム、映画、CM、VFXスタジオで広く使用され、業界シェアNo.1のソフトウェア。3DCG業界の求人では、Mayaや3ds MAXでのモデリング・アニメーションが求められることが多い。実写映像との相性が良く、映像にエフェクトを加える際にも活用され、ハリウッドでも多く使われている。
+## 想定される受講生の特徴
+- 1.未経験から1年間でCG・映像業界へ就職・転職したい方
+- 2.Mayaでの3DCG制作スキル・映像表現を身に付けたい方
+- 3.基礎からCG・映像の制作スキルを習得したい方
+- 4.大学とのWスクールや仕事との両立を目指す方
+## カリキュラム
+- 1〜3か月
+- CG演習: CG基礎、CGモデリング、CGレンダリング
+- 映像授業・演習: 映像編集演習、2Dグラフィックス演習、CG概論
+- 3か月課題制作: 3DCG静止画課題
+"""
+def convert_json_to_dict(text):
+    """
+    マークダウンのコードブロックからJSONを抽出し、Pythonの辞書に変換する関数
+    Args:
+        text (str): ```json で囲まれたJSON文字列を含むテキスト
+    Returns:
+        dict: 変換された辞書
+    Raises:
+        ValueError: JSONの抽出に失敗した場合
+        json.JSONDecodeError: JSON形式が不正な場合
+    """
+    try:
+        # ```json と ``` の間のテキストを抽出
+        pattern = r"```json\s*([\s\S]*?)\s*```"
+        match = re.search(pattern, text)
+        if not match:
+            raise ValueError("JSONブロックが見つかりませんでした")
+        json_str = match.group(1)
+        # 文字列をPythonの辞書に変換
+        result = json.loads(json_str)
+        return result
+    except json.JSONDecodeError as e:
+        print(f"JSONの解析に失敗しました: {str(e)}")
+        raise
+    except ValueError as e:
+        print(f"エラー: {str(e)}")
+        raise
+def create_cg_image_with_movie_recommendation_tab():
+    return create_evaluation_tab(
+        tab_name="CG/静止画（動画教材レコメンド）",
+        backlog_image_path=BACKLOG_IMAGE_PATH_CG,
+        analyze_fn=analyze_cg_image,
+        recommendation_fn=movie_recommendation,
+        assignment_default=ASSIGNMENT_DEFAULT,
+        criteria_default=CRITERIA_DEFAULT,
+        artwork_content_default=ARTWORK_CONTENT_DEFAULT,
+        knowledge_default=KNOWLEDGE_DEFAULT,
+        description="## 静止画の評価（併せておすすめの動画教材を提示します）",
+        type="image",
+    )
+def analyze_cg_image(
+    image: np.ndarray,
+    evaluation_criteria: str,
+    artwork_content: str,
+    assignment: str,
+    knowledge: str,
+    mode_setting: Literal["NORMAL", "HARD"] = "NORMAL",
+    color_mode_setting: Literal["カラー", "モノクロ"] = "カラー",
+):
+    """3DCG静止画の評価を実行する関数
+    Parameters:
+    -----------
+    image : numpy.ndarray
+        評価する画像
+    evaluation_criteria : str
+        評価観点
+    artwork_content : str
+        作品概要
+    assignment : str
+        課題概要
+    Returns:
+    --------
+    str:
+        評価結果
+    """
+    cg_image_tutor = CGImageTutor(
+        platform=PLATFORM,
+        model=MODEL,
+        client_settings={"api_key": GOOGLE_API_KEY},
+    )
+    image_data = encode_image(image)
+    evaluation_text = cg_image_tutor(
+        inputs={
+            "image_data": image_data,
+            "evaluation_criteria": evaluation_criteria,
+            "artwork_content": artwork_content,
+            "assignment": assignment,
+            "knowledge": knowledge,
+            "mode_setting": mode_setting,
+            "color_mode_setting": color_mode_setting,
+        }
+    )
+    return evaluation_text
+def movie_recommendation(image: np.ndarray, evaluation_text: str):
+    image_data = encode_image(image)
+    # 検索クエリ生成
+    query_generator = QueryGenerator(
+        platform=PLATFORM,
+        model=MODEL,
+        # client_settings={"api_key": GOOGLE_API_KEY},
+    )
+    queries = query_generator(
+        inputs={
+            "evaluation_text": evaluation_text,
+            "image_data": image_data,
+        }
+    )
+    movie_recommender = MovieRecommender()
+    search_results = movie_recommender.search(queries=json2dict(queries))
+    recommendation_text = movie_recommender.format_search_results(search_results)
+    # 作品の改善点と合わせて動画教材を要約
+    movie_summarizer = MovieSummarizer(
+        platform=PLATFORM,
+        model=MODEL,
+        # client_settings={"api_key": GOOGLE_API_KEY},
+    )
+    movie_recommendation = movie_summarizer(
+        inputs={
+            "evaluation_text": evaluation_text,
+            "recommendation_text": recommendation_text,
+        }
+    )
+    return movie_recommendation

src/gradio_interface/graphic/idea.py CHANGED Viewed

@@ -1,10 +1,14 @@
 import os
 from src.backend.tutor.graphic.idea_tutor.graphic_idea_tutor import GraphicIdeaTutor
 from src.gradio_interface.utils import create_chatbot_tab
-PLATFORM = "google-generativeai"
-MODEL = "gemini-20-flash-exp"
 BACKLOG_IMAGE_PATH_IDEA = "fig/backlog_コンセプト壁打ち_20241214.png"
@@ -16,7 +20,7 @@ def create_idea_tab():
     )
-def chat_graphic_idea(user_input: list[str], history: list[str]) -> str:
     """広告ポスターの壁打ちを実行する関数
     Parameters:
@@ -32,12 +36,19 @@ def chat_graphic_idea(user_input: list[str], history: list[str]) -> str:
     """
     graphic_idea_tutor = GraphicIdeaTutor(
-        platform=PLATFORM, model=MODEL, client_settings={"api_key": os.getenv("GOOGLE_API_KEY")}
     )
-    return graphic_idea_tutor(
         inputs={
             "user_input": user_input,
             "history": history,
         }
     )

 import os
+from collections.abc import Generator
 from src.backend.tutor.graphic.idea_tutor.graphic_idea_tutor import GraphicIdeaTutor
 from src.gradio_interface.utils import create_chatbot_tab
+# TODO: gemini-20-flash-exp のストリーム出力対応
+# PLATFORM = "google-generativeai"
+# MODEL = "gemini-20-flash-exp"
+PLATFORM = "gcp"
+MODEL = "gemini-1.5-pro-002"
 BACKLOG_IMAGE_PATH_IDEA = "fig/backlog_コンセプト壁打ち_20241214.png"
     )
+def chat_graphic_idea(user_input: list[str], history: list[str]) -> Generator[str, None, None]:
     """広告ポスターの壁打ちを実行する関数
     Parameters:
     """
     graphic_idea_tutor = GraphicIdeaTutor(
+        platform=PLATFORM,
+        model=MODEL,
+        # client_settings={"api_key": os.getenv("GOOGLE_API_KEY")}
     )
+    response_generator = graphic_idea_tutor.generate_response_stream(
         inputs={
             "user_input": user_input,
             "history": history,
         }
     )
+    response = ""
+    for delta_content in response_generator:
+        response += delta_content
+        yield response

src/gradio_interface/graphic/poster.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from typing import Literal
 import numpy as np
@@ -8,8 +9,11 @@ from src.backend.tutor.graphic.poster_tutor.graphic_transcription import Graphic
 from src.backend.utils import encode_image
 from src.gradio_interface.utils import create_evaluation_tab
-PLATFORM = "google-generativeai"
-MODEL = "gemini-20-flash-exp"
 BACKLOG_IMAGE_PATH_GRAPHIC = "fig/backlog_グラフィック広告ポスター_20241214.png"
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
@@ -140,7 +144,7 @@ def analyze_graphic_poster(
     assignment: str,
     knowledge: str,
     mode_setting: Literal["NORMAL", "HARD"] = "HARD",
-) -> str:
     """広告ポスターの評価を実行する関数
     Parameters:
@@ -160,16 +164,12 @@ def analyze_graphic_poster(
         評価結果
     """
-    graphic_transcription = GraphicTranscription(
-        platform=PLATFORM, model=MODEL, client_settings={"api_key": GOOGLE_API_KEY}
-    )
     transcription = graphic_transcription(inputs=encode_image(image))
-    graphic_poster_tutor = GraphicPosterTutor(
-        platform=PLATFORM, model=MODEL, client_settings={"api_key": GOOGLE_API_KEY}
-    )
-    return graphic_poster_tutor(
         inputs={
             "transcription": transcription,
             "image_data": encode_image(image),
@@ -180,3 +180,7 @@ def analyze_graphic_poster(
             "mode_setting": mode_setting,
         }
     )

 import os
+from collections.abc import Generator
 from typing import Literal
 import numpy as np
 from src.backend.utils import encode_image
 from src.gradio_interface.utils import create_evaluation_tab
+# TODO: gemini-20-flash-exp のストリーム出力対応
+# PLATFORM = "google-generativeai"
+# MODEL = "gemini-20-flash-exp"
+PLATFORM = "gcp"
+MODEL = "gemini-1.5-pro-002"
 BACKLOG_IMAGE_PATH_GRAPHIC = "fig/backlog_グラフィック広告ポスター_20241214.png"
 GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
     assignment: str,
     knowledge: str,
     mode_setting: Literal["NORMAL", "HARD"] = "HARD",
+) -> Generator[str, None, None]:
     """広告ポスターの評価を実行する関数
     Parameters:
         評価結果
     """
+    graphic_transcription = GraphicTranscription(platform=PLATFORM, model=MODEL)
     transcription = graphic_transcription(inputs=encode_image(image))
+    graphic_poster_tutor = GraphicPosterTutor(platform=PLATFORM, model=MODEL)
+    response_generator = graphic_poster_tutor.generate_response_stream(
         inputs={
             "transcription": transcription,
             "image_data": encode_image(image),
             "mode_setting": mode_setting,
         }
     )
+    response = ""
+    for delta_content in response_generator:
+        response += delta_content
+        yield response

src/gradio_interface/utils.py CHANGED Viewed

@@ -20,7 +20,7 @@ IDEA_TUTOR_INSTRUCTION = """## テンプレートを利用して、AI を活用
 def create_evaluation_tab(
-    tab_name: Literal["グラフィック/広告ポスター", "CG/静止画", "CG/動画"],
     backlog_image_path: str,
     analyze_fn,
     assignment_default: str,
@@ -28,6 +28,7 @@ def create_evaluation_tab(
     artwork_content_default: str,
     knowledge_default: str,
     description: str,
     type: Literal["image", "video"] = "image",
 ):
     """評価用タブを作成する共通関数
@@ -42,10 +43,14 @@ def create_evaluation_tab(
         課題概要の初期値
     criteria_default : str
         評価観点の初期値
     artwork_content_default : str
         作品概要の初期値
     description : str
         タブの説明文
     Returns:
     --------
@@ -54,7 +59,7 @@ def create_evaluation_tab(
     """
     with gr.TabItem(tab_name):
         gr.Markdown(description + "\n### ※提出した作品はAIの再学習に利用されません\n### 作品をアップロード")
-        if tab_name == "CG/静止画":
             color_mode_setting = gr.Radio(
                 ["カラー", "モノクロ"],
                 label="作品の状態を選択してください",
@@ -112,12 +117,17 @@ def create_evaluation_tab(
                 artwork_content_input.value,
                 knowledge_input.value,
                 "",
             ]
         output_text = gr.Markdown(label="評価結果")
-        if tab_name == "CG/静止画":
-            submit_button.click(
                 analyze_fn,
                 inputs=[
                     artwork_input,
@@ -130,38 +140,94 @@ def create_evaluation_tab(
                 ],
                 outputs=output_text,
             )
-        else:
-            submit_button.click(
-                analyze_fn,
-                inputs=[
                     artwork_input,
                     assignment_input,
                     criteria_input,
                     artwork_content_input,
                     knowledge_input,
-                    mode_setting,
                 ],
-                outputs=output_text,
             )
-        cancel_button.click(
-            fn=clear_inputs,
-            inputs=[],
-            outputs=[
                 artwork_input,
                 assignment_input,
                 criteria_input,
                 artwork_content_input,
                 knowledge_input,
                 output_text,
-            ],
-        )
-        gr.Markdown("---")
-        gr.Markdown("# 改善施策・改善履歴バックログ")
-        gr.Image(backlog_image_path)
-        return artwork_input, assignment_input, criteria_input, artwork_content_input, knowledge_input, output_text
 def create_chatbot_tab(

 def create_evaluation_tab(
+    tab_name: Literal["グラフィック/広告ポスター", "CG/静止画", "CG/動画", "CG/静止画（動画教材レコメンド）"],
     backlog_image_path: str,
     analyze_fn,
     assignment_default: str,
     artwork_content_default: str,
     knowledge_default: str,
     description: str,
+    recommendation_fn=None,
     type: Literal["image", "video"] = "image",
 ):
     """評価用タブを作成する共通関数
         課題概要の初期値
     criteria_default : str
         評価観点の初期値
+    knowledge_default : str
+        デザイン関連の知識の初期値
     artwork_content_default : str
         作品概要の初期値
     description : str
         タブの説明文
+    recommendation_fn : callable or None
+        おすすめ動画のレコメンド関数
     Returns:
     --------
     """
     with gr.TabItem(tab_name):
         gr.Markdown(description + "\n### ※提出した作品はAIの再学習に利用されません\n### 作品をアップロード")
+        if tab_name == "CG/静止画" or tab_name == "CG/静止画（動画教材レコメンド）":
             color_mode_setting = gr.Radio(
                 ["カラー", "モノクロ"],
                 label="作品の状態を選択してください",
                 artwork_content_input.value,
                 knowledge_input.value,
                 "",
+                "",
             ]
+        gr.Markdown("# 評価結果")
         output_text = gr.Markdown(label="評価結果")
+        if tab_name == "CG/静止画（動画教材レコメンド）":
+            gr.Markdown("---")
+            gr.Markdown("# おすすめ動画")
+            output_recommendation_text = gr.Markdown(label="おすすめ動画")
+            analyze_event = submit_button.click(
                 analyze_fn,
                 inputs=[
                     artwork_input,
                 ],
                 outputs=output_text,
             )
+            # 作品評価が終わったら、おすすめ動画のレコメンド処理を実行
+            analyze_event.then(
+                recommendation_fn,
+                inputs=[artwork_input, output_text],
+                outputs=[output_recommendation_text],
+            )
+            cancel_button.click(
+                fn=clear_inputs,
+                inputs=[],
+                outputs=[
                     artwork_input,
                     assignment_input,
                     criteria_input,
                     artwork_content_input,
                     knowledge_input,
+                    output_text,
+                    output_recommendation_text,
                 ],
             )
+            gr.Markdown("---")
+            gr.Markdown("# 改善施策・改善履歴バックログ")
+            gr.Image(backlog_image_path)
+            return (
                 artwork_input,
                 assignment_input,
                 criteria_input,
                 artwork_content_input,
                 knowledge_input,
                 output_text,
+                output_recommendation_text,
+            )
+        else:
+            if tab_name == "CG/静止画":
+                submit_button.click(
+                    analyze_fn,
+                    inputs=[
+                        artwork_input,
+                        assignment_input,
+                        criteria_input,
+                        artwork_content_input,
+                        knowledge_input,
+                        mode_setting,
+                        color_mode_setting,
+                    ],
+                    outputs=output_text,
+                )
+            else:
+                submit_button.click(
+                    analyze_fn,
+                    inputs=[
+                        artwork_input,
+                        assignment_input,
+                        criteria_input,
+                        artwork_content_input,
+                        knowledge_input,
+                        mode_setting,
+                    ],
+                    outputs=output_text,
+                )
+            cancel_button.click(
+                fn=clear_inputs,
+                inputs=[],
+                outputs=[
+                    artwork_input,
+                    assignment_input,
+                    criteria_input,
+                    artwork_content_input,
+                    knowledge_input,
+                    output_text,
+                ],
+            )
+            gr.Markdown("---")
+            gr.Markdown("# 改善施策・改善履歴バックログ")
+            gr.Image(backlog_image_path)
+            return (
+                artwork_input,
+                assignment_input,
+                criteria_input,
+                artwork_content_input,
+                knowledge_input,
+                output_text,
+            )
 def create_chatbot_tab(