Spaces:

Detomo
/

aisatsu-api

Sleeping

App Files Files Community

vumichien commited on Mar 27, 2023

Commit

c1ec7d2

1 Parent(s): 678d0c9

Update main.py

Browse files

Files changed (1) hide show

main.py +71 -31

main.py CHANGED Viewed

@@ -45,6 +45,7 @@ def client_settings_api():
 async def camera_picture_api(
         file: UploadFile = File(...),
         last_seen: Optional[Union[str, UploadFile]] = Form(None),
 ):
     # parameters
     total_time = time.time()
@@ -71,12 +72,18 @@ async def camera_picture_api(
     # check detect people or not
     if out_img is None:
-        return {
-            "status": "No face detected",
-            "text": None,
-            "voice": None,
-            "image": None
-        }
     else:
         if ZIP:
             image_bot_path = pil_to_base64(out_img, encode=False)
@@ -109,44 +116,77 @@ async def camera_picture_api(
                 headers={"Content-Disposition": f"attachment;filename=%s" % zip_filename}
             )
         else:
-            voice_bot_path = tts(default_bot_voice, language="ja", encode=True)
             print("Total time", time.time() - total_time)
             return {
-                "status": "New people",
-                "text": default_bot_voice,
-                "voice": voice_bot_path,
-                "image": image_bot_path
             }
-    else:
-        print("Total time", time.time() - total_time)
-        return {
-            "status": "Old people",
-            "text": None,
-            "voice": None,
-            "image": image_bot_path,
-        }
 @app.post("/human_input/")
 async def human_input_api(
-        input_data: Union[str, bytes],
-        temperature: float = 0.7,
-        max_tokens: int = 1000,
 ):
-    print("Input data type", type(input_data))
-    if type(input_data) != str:
-        upload_audio = ffmpeg_read(input_data, sampling_rate=24000)
         sf.write('temp.wav', upload_audio, 24000, subtype='PCM_16')
         text = stt('temp.wav')
     else:
-        text = input_data
     prompt_msg = {"role": "user", "content": text}
     messages = system_prompt + [prompt_msg]
     completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, temperature=temperature,
                                               max_tokens=max_tokens)
     print(completion['usage']['total_tokens'])
-    return {
-        "human_text": str(text),
-        "robot_text": completion.choices[0].message.content,
-        "robot_voice": tts(completion.choices[0].message.content, language="ja", encode=True)
-    }

 async def camera_picture_api(
         file: UploadFile = File(...),
         last_seen: Optional[Union[str, UploadFile]] = Form(None),
+        return_voice: Annotated[bool, Form()] = True,
 ):
     # parameters
     total_time = time.time()
     # check detect people or not
     if out_img is None:
+        if return_voice:
+            return {
+                "status": "No face detected",
+                "text": None,
+                "voice": None,
+                "image": None
+            }
+        else:
+            return {
+                "status": "No face detected",
+                "image": None
+            }
     else:
         if ZIP:
             image_bot_path = pil_to_base64(out_img, encode=False)
                 headers={"Content-Disposition": f"attachment;filename=%s" % zip_filename}
             )
         else:
+            if return_voice:
+                print("Total time", time.time() - total_time)
+                return {
+                    "status": "New people",
+                    "text": default_bot_voice,
+                    "voice": tts(default_bot_voice, language="ja", encode=True),
+                    "image": image_bot_path
+                }
+            else:
+                print("Total time", time.time() - total_time)
+                return {
+                    "status": "New people",
+                    "image": image_bot_path
+                }
+    else:
+        if return_voice:
             print("Total time", time.time() - total_time)
             return {
+                "status": "Old people",
+                "text": None,
+                "voice": None,
+                "image": image_bot_path,
+            }
+        else:
+            print("Total time", time.time() - total_time)
+            return {
+                "status": "Old people",
+                "image": image_bot_path,
             }
 @app.post("/human_input/")
 async def human_input_api(
+        voice_input:  bytes = File(None),
+        text_input: str = Form(None),
+        temperature: Annotated[float, Form()] = 0.7,
+        max_tokens: Annotated[int, Form()] = 100,
+        return_voice: Annotated[bool, Form()] = False,
 ):
+    if text_input:
+        text = text_input
+    elif text_input is None and voice_input is not None:
+        upload_audio = ffmpeg_read(voice_input, sampling_rate=24000)
         sf.write('temp.wav', upload_audio, 24000, subtype='PCM_16')
         text = stt('temp.wav')
+        print(text)
     else:
+        if return_voice:
+            return {
+                "human_text": None,
+                "robot_text": None,
+                "robot_voice": None
+            }
+        else:
+            return {
+                "human_text": None,
+                "robot_text": None,
+            }
     prompt_msg = {"role": "user", "content": text}
     messages = system_prompt + [prompt_msg]
     completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages, temperature=temperature,
                                               max_tokens=max_tokens)
     print(completion['usage']['total_tokens'])
+    if return_voice:
+        return {
+            "human_text": text,
+            "robot_text": completion.choices[0].message.content,
+            "robot_voice": tts(completion.choices[0].message.content, language="ja", encode=True)
+        }
+    else:
+        return {
+            "human_text": text,
+            "robot_text": completion.choices[0].message.content,
+        }