Spaces:

daswer123
/

markdown_to_docx

Running

App Files Files Community

daswer123 commited on Jun 20

Commit

0ebae9a

verified ·

1 Parent(s): 078908e

Upload 7 files

Browse files

Files changed (2) hide show

app.py +40 -15
converter.py +49 -34

app.py CHANGED Viewed

@@ -2,20 +2,39 @@ import gradio as gr
 from converter import MarkdownToDocxConverter
 from datetime import datetime
 import os
 converter = MarkdownToDocxConverter()
-def convert_markdown_to_docx(markdown_text: str, file_input: str):
-    if file_input:
-        with open(file_input, "r") as file:
             markdown_text = file.read()
     output_dir = "output"
     os.makedirs(output_dir, exist_ok=True)
     output_filename = f"output_{datetime.now().strftime('%Y%m%d_%H%M%S')}.docx"
-    converter.convert(markdown_text, os.path.join(output_dir, output_filename))
-    return os.path.join(output_dir, output_filename)
 demo = gr.Blocks(title="Markdown to DOCX Converter")
@@ -24,15 +43,21 @@ with demo:
     with gr.Row():
         with gr.Column():
             with gr.Tab("Текст"):
-                markdown_input = gr.TextArea(label="Markdown Input", value="")
-            with gr.Tab("Файл (в приоритете)"):
-                file_input = gr.File(label="Markdown Input")
         with gr.Column():
-            gr.Markdown("Output:")
-            docx_output = gr.File(label="DOCX Output")
-    convert_button = gr.Button("Convert")
-    convert_button.click(convert_markdown_to_docx, inputs=[markdown_input, file_input], outputs=docx_output)
 if __name__ == "__main__":
-    demo.launch()

 from converter import MarkdownToDocxConverter
 from datetime import datetime
 import os
+import requests
 converter = MarkdownToDocxConverter()
+def convert_markdown_to_docx(markdown_text: str, file_input: str, url_input: str):
+    # Приоритет: URL > Файл > Текст
+    if url_input:
+        try:
+            response = requests.get(url_input)
+            response.raise_for_status()
+            # Пытаемся получить "сырое" содержимое для таких сайтов, как GitHub Gist
+            if "gist.github.com" in url_input and not url_input.endswith("/raw"):
+                raw_url = url_input + "/raw"
+                response = requests.get(raw_url)
+                response.raise_for_status()
+            markdown_text = response.text
+        except requests.exceptions.RequestException as e:
+            raise gr.Error(f"Ошибка при скачивании файла по URL: {e}")
+    elif file_input:
+        with open(file_input.name, "r", encoding='utf-8') as file:
             markdown_text = file.read()
+    if not markdown_text.strip():
+        raise gr.Error("Нет входных данных для конвертации. Введите текст, загрузите файл или укажите URL.")
     output_dir = "output"
     os.makedirs(output_dir, exist_ok=True)
     output_filename = f"output_{datetime.now().strftime('%Y%m%d_%H%M%S')}.docx"
+    output_path = os.path.join(output_dir, output_filename)
+    converter.convert(markdown_text, output_path)
+    return output_path
 demo = gr.Blocks(title="Markdown to DOCX Converter")
     with gr.Row():
         with gr.Column():
             with gr.Tab("Текст"):
+                markdown_input = gr.TextArea(label="Markdown Input", value="", lines=15)
+            with gr.Tab("Файл"):
+                file_input = gr.File(label="Загрузите Markdown файл")
+            with gr.Tab("URL"):
+                url_input = gr.Textbox(label="Введите URL Markdown файла", placeholder="https://gist.github.com/...")
         with gr.Column():
+            gr.Markdown("### Результат")
+            docx_output = gr.File(label="Скачать DOCX")
+    convert_button = gr.Button("Конвертировать", variant="primary")
+    convert_button.click(
+        convert_markdown_to_docx,
+        inputs=[markdown_input, file_input, url_input],
+        outputs=docx_output
+    )
 if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=8010)

converter.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import re
 import json
 import io
-import requests
 import base64
 from pathlib import Path
 from typing import List, Dict, Any, Optional, Tuple
 import markdown
@@ -21,7 +21,6 @@ class MarkdownToDocxConverter:
     def __init__(self):
         self.doc = None
-        self.styles_created = False
         # Цветовая схема для подсветки кода
         self.code_colors = {
@@ -35,9 +34,6 @@ class MarkdownToDocxConverter:
     def create_styles(self):
         """Создание пользовательских стилей для документа"""
-        if self.styles_created:
-            return
         # Стиль для блоков кода
         code_style = self.doc.styles.add_style('CodeBlock', WD_STYLE_TYPE.PARAGRAPH)
         code_style.font.name = 'Consolas'
@@ -65,8 +61,6 @@ class MarkdownToDocxConverter:
             heading_style.font.color.rgb = RGBColor(0, 0, 0)
             heading_style.font.bold = True
             heading_style.font.size = Pt(26 - i * 3)
-        self.styles_created = True
     def parse_code_block(self, code_text: str, language: str = '') -> List[Tuple[str, str]]:
         """Простая подсветка синтаксиса для кода"""
@@ -198,17 +192,19 @@ class MarkdownToDocxConverter:
         elif element.name == 'pre':
             code_element = element.find('code')
             if code_element:
-                # Извлекаем язык из класса
                 classes = code_element.get('class', [])
-                language = ''
-                for cls in classes:
-                    if cls.startswith('language-'):
-                        language = cls.replace('language-', '')
-                        break
                 code_text = code_element.get_text()
-                if language == 'mermaid':
                     self.add_mermaid_diagram(code_text)
                 else:
                     self.add_code_block(code_text, language)
             else:
                 self.add_code_block(element.get_text())
@@ -248,11 +244,11 @@ class MarkdownToDocxConverter:
                 self.process_html_element(child, parent_paragraph)
     def add_mermaid_diagram(self, code: str):
-        """Рендеринг и вставка диаграммы Mermaid"""
         try:
-            # Кодируем код диаграммы в base64
-            graphbytes = code.encode("ascii")
-            base64_bytes = base64.b64encode(graphbytes)
             base64_string = base64_bytes.decode("ascii")
             # Формируем URL для запроса
@@ -327,30 +323,49 @@ class MarkdownToDocxConverter:
     def convert(self, markdown_text: str, output_path: str):
         """Конвертация Markdown текста в DOCX файл"""
-        # Создаем новый документ
         self.doc = Document()
         self.create_styles()
-        # Конвертируем Markdown в HTML
         md = markdown.Markdown(extensions=[
-            'fenced_code',
-            'codehilite',
-            'tables',
-            'toc',
-            'nl2br',
-            'sane_lists'
         ])
         html = md.convert(markdown_text)
-        # Парсим HTML с BeautifulSoup
         soup = BeautifulSoup(html, 'html.parser')
-        # Обрабатываем каждый элемент
         for element in soup.children:
-            self.process_html_element(element)
-        # Сохраняем документ
         self.doc.save(output_path)
         print(f"Документ успешно сохранен: {output_path}")

 import re
 import json
 import io
 import base64
+import requests
 from pathlib import Path
 from typing import List, Dict, Any, Optional, Tuple
 import markdown
     def __init__(self):
         self.doc = None
         # Цветовая схема для подсветки кода
         self.code_colors = {
     def create_styles(self):
         """Создание пользовательских стилей для документа"""
         # Стиль для блоков кода
         code_style = self.doc.styles.add_style('CodeBlock', WD_STYLE_TYPE.PARAGRAPH)
         code_style.font.name = 'Consolas'
             heading_style.font.color.rgb = RGBColor(0, 0, 0)
             heading_style.font.bold = True
             heading_style.font.size = Pt(26 - i * 3)
     def parse_code_block(self, code_text: str, language: str = '') -> List[Tuple[str, str]]:
         """Простая подсветка синтаксиса для кода"""
         elif element.name == 'pre':
             code_element = element.find('code')
             if code_element:
                 classes = code_element.get('class', [])
                 code_text = code_element.get_text()
+                # Check if it's a mermaid diagram
+                if 'mermaid' in classes or 'language-mermaid' in classes:
                     self.add_mermaid_diagram(code_text)
                 else:
+                    # It's a regular code block, find the language
+                    language = ''
+                    for cls in classes:
+                        if cls.startswith('language-'):
+                            language = cls.replace('language-', '')
+                            break
                     self.add_code_block(code_text, language)
             else:
                 self.add_code_block(element.get_text())
                 self.process_html_element(child, parent_paragraph)
     def add_mermaid_diagram(self, code: str):
+        """Рендеринг и вставка диаграммы Mermaid через mermaid.ink"""
         try:
+            # Кодируем код диаграммы в URL-безопасный base64
+            graphbytes = code.encode("utf-8")
+            base64_bytes = base64.urlsafe_b64encode(graphbytes)
             base64_string = base64_bytes.decode("ascii")
             # Формируем URL для запроса
     def convert(self, markdown_text: str, output_path: str):
         """Конвертация Markdown текста в DOCX файл"""
+        # 1. Извлекаем диаграммы Mermaid и заменяем их плейсхолдерами
+        mermaid_diagrams = {}
+        def replace_mermaid(match):
+            key = f"%%MERMAID_DIAGRAM_{len(mermaid_diagrams)}%%"
+            # Сохраняем только код диаграммы
+            mermaid_diagrams[key] = match.group(1).strip()
+            # Возвращаем плейсхолдер в виде параграфа, чтобы он не был удален
+            return f"\n<p>{key}</p>\n"
+        # Регулярное выражение для поиска блоков ```mermaid ... ```
+        markdown_text = re.sub(r'```mermaid\n(.*?)\n```', replace_mermaid, markdown_text, flags=re.DOTALL)
+        # 2. Создаем новый документ и стили
         self.doc = Document()
         self.create_styles()
+        # 3. Конвертируем оставшийся Markdown в HTML
         md = markdown.Markdown(extensions=[
+            'fenced_code', 'codehilite', 'tables', 'toc', 'nl2br', 'sane_lists'
         ])
         html = md.convert(markdown_text)
+        # 4. Парсим HTML и обрабатываем элементы
         soup = BeautifulSoup(html, 'html.parser')
         for element in soup.children:
+            # Проверяем, содержит ли элемент плейсхолдер Mermaid
+            if isinstance(element, NavigableString):
+                # Пропускаем пустые строки
+                if not str(element).strip():
+                    continue
+            text_content = element.get_text().strip()
+            if "%%MERMAID_DIAGRAM_" in text_content:
+                key = text_content
+                if key in mermaid_diagrams:
+                    self.add_mermaid_diagram(mermaid_diagrams[key])
+                else:
+                    # Если плейсхолдер найден, но нет диаграммы, просто пропускаем
+                    continue
+            else:
+                self.process_html_element(element)
+        # 5. Сохраняем документ
         self.doc.save(output_path)
         print(f"Документ успешно сохранен: {output_path}")