Spaces:

mohamedrady
/

clockwork-temptation

Runtime error

App Files Files Community

mohamedrady commited on Jul 18, 2024

Commit

dde43be

verified ·

1 Parent(s): bbe3161

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -23

app.py CHANGED Viewed

@@ -2,13 +2,15 @@ import os
 import re
 import torch
 from collections import Counter
-from transformers import pipeline, AutoModel, AutoTokenizer, AutoModelForTokenClassification, AutoModelForCausalLM
 import PyPDF2
 import openai
 import docx
 from arabert.preprocess import ArabertPreprocessor
 import gradio as gr
 # التحقق من توفر GPU واستخدامه
 device = 0 if torch.cuda.is_available() else -1
@@ -121,10 +123,8 @@ def extract_dialogues(text):
     return dialogues
 # دالة لمعالجة الملفات وتقسيمها بناءً على عدد التوكنز
-def process_files(input_directory, output_directory_950):
-    for file_name in os.listdir(input_directory):
-        file_path = os.path.join(input_directory, file_name)
         if os.path.isdir(file_path):  # التأكد من أن الملف ليس مجلدًا
             continue
@@ -138,15 +138,14 @@ def process_files(input_directory, output_directory_950):
         # تقسيم النص إلى أجزاء لا تتجاوز 950 توكنز
         chunks_950 = split_text_into_chunks(text, gpt2_tokenizer, 950)
         for i, chunk in enumerate(chunks_950):
-            output_file_950 = os.path.join(output_directory_950, f"{os.path.splitext(file_name)[0]}_part_{i+1}.txt")
             with open(output_file_950, "w", encoding="utf-8") as file:
                 file.write(chunk)
 # دالة لتحليل النصوص واستخراج المعلومات وحفظ النتائج
-def analyze_files(input_directory, output_directory, tokenizer, max_length):
-    for file_name in os.listdir(input_directory):
-        file_path = os.path.join(input_directory, file_name)
         if os.path.isdir(file_path):  # التأكد من أن الملف ليس مجلدًا
             continue
@@ -166,31 +165,45 @@ def analyze_files(input_directory, output_directory, tokenizer, max_length):
             dialogues = extract_dialogues(chunk)
             scene_details = [extract_scene_details(scene) for scene in scenes]
             # حفظ النتائج
-            with open(os.path.join(output_directory, f"{file_name}_sentences.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(sentences))
-            with open(os.path.join(output_directory, f"{file_name}_quotes.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(quotes))
-            with open(os.path.join(output_directory, f"{file_name}_token_count.txt"), "a", encoding="utf-8") as file:
                 file.write(str(token_count))
-            with open(os.path.join(output_directory, f"{file_name}_scenes.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(scenes))
-            with open(os.path.join(output_directory, f"{file_name}_scene_details.txt"), "a", encoding="utf-8") as file:
                 file.write(str(scene_details))
-            with open(os.path.join(output_directory, f"{file_name}_ages.txt"), "a", encoding="utf-8") as file:
                 file.write(str(ages))
-            with open(os.path.join(output_directory, f"{file_name}_character_descriptions.txt"), "a", encoding="utf-8") as file:
                 file.write(str(character_descriptions))
-            with open(os.path.join(output_directory, f"{file_name}_dialogues.txt"), "a", encoding="utf-8") as file:
                 file.write(str(dialogues))
 # تحديد المسارات
 input_directory = "/Volumes/CLOCKWORK T/clockworkspace/first pro/in"
@@ -211,13 +224,22 @@ analyze_files(input_directory_950, output_directory_950_out, gpt2_tokenizer, 950
 print("تمت معالجة الملفات وتحليلها بنجاح.")
 # تعريف واجهة Gradio
 interface = gr.Interface(
-    fn=analyze_files,
-    inputs=gr.File(file_count="multiple", type="filepath"),
-    outputs=gr.JSON(),
     title="Movie Script Analyzer and Completer",
     description="Upload text, PDF, or DOCX files to analyze and complete the movie script."
 )
 if __name__ == "__main__":
-    interface.launch()

 import re
 import torch
 from collections import Counter
+from transformers import pipeline, AutoModel, AutoTokenizer, AutoModelForCausalLM, AutoModelForTokenClassification
 import PyPDF2
 import openai
 import docx
 from arabert.preprocess import ArabertPreprocessor
 import gradio as gr
+# تعيين التوكن الخاص بـ OpenAI
+openai.api_key = "sk-proj-62TDbO5KABSdkZaFPPD4T3BlbkFJkhqOYpHhL6OucTzNdWSU"
 # التحقق من توفر GPU واستخدامه
 device = 0 if torch.cuda.is_available() else -1
     return dialogues
 # دالة لمعالجة الملفات وتقسيمها بناءً على عدد التوكنز
+def process_files(input_files, output_directory_950):
+    for file_path in input_files:
         if os.path.isdir(file_path):  # التأكد من أن الملف ليس مجلدًا
             continue
         # تقسيم النص إلى أجزاء لا تتجاوز 950 توكنز
         chunks_950 = split_text_into_chunks(text, gpt2_tokenizer, 950)
         for i, chunk in enumerate(chunks_950):
+            output_file_950 = os.path.join(output_directory_950, f"{os.path.splitext(os.path.basename(file_path))[0]}_part_{i+1}.txt")
             with open(output_file_950, "w", encoding="utf-8") as file:
                 file.write(chunk)
 # دالة لتحليل النصوص واستخراج المعلومات وحفظ النتائج
+def analyze_files(input_files, output_directory, tokenizer, max_length):
+    results = []
+    for file_path in input_files:
         if os.path.isdir(file_path):  # التأكد من أن الملف ليس مجلدًا
             continue
             dialogues = extract_dialogues(chunk)
             scene_details = [extract_scene_details(scene) for scene in scenes]
+            result = {
+                "sentences": sentences,
+                "quotes": quotes,
+                "token_count": token_count,
+                "scenes": scenes,
+                "scene_details": scene_details,
+                "ages": ages,
+                "character_descriptions": character_descriptions,
+                "dialogues": dialogues
+            }
+            results.append(result)
             # حفظ النتائج
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_sentences.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(sentences))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_quotes.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(quotes))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_token_count.txt"), "a", encoding="utf-8") as file:
                 file.write(str(token_count))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_scenes.txt"), "a", encoding="utf-8") as file:
                 file.write("\n".join(scenes))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_scene_details.txt"), "a", encoding="utf-8") as file:
                 file.write(str(scene_details))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_ages.txt"), "a", encoding="utf-8") as file:
                 file.write(str(ages))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_character_descriptions.txt"), "a", encoding="utf-8") as file:
                 file.write(str(character_descriptions))
+            with open(os.path.join(output_directory, f"{os.path.basename(file_path)}_dialogues.txt"), "a", encoding="utf-8") as file:
                 file.write(str(dialogues))
+    return results
 # تحديد المسارات
 input_directory = "/Volumes/CLOCKWORK T/clockworkspace/first pro/in"
 print("تمت معالجة الملفات وتحليلها بنجاح.")
 # تعريف واجهة Gradio
+def analyze_and_complete(input_files):
+    # معالجة الملفات وتقسيمها
+    process_files(input_files, output_directory_950)
+    # تحليل الملفات المقسمة إلى 950 توكنز
+    results = analyze_files(input_directory_950, output_directory_950_out, gpt2_tokenizer, 950)
+    return results
 interface = gr.Interface(
+    fn=analyze_and_complete,
+    inputs=gr.File(file_count="multiple", type="file"),
+    outputs="json",
     title="Movie Script Analyzer and Completer",
     description="Upload text, PDF, or DOCX files to analyze and complete the movie script."
 )
 if __name__ == "__main__":
+    interface.launch(share=True)