Spaces:
Sleeping
Sleeping
import json | |
import re | |
from gematria import HEBREW_GEMATRIA_VALUES, calculate_gematria | |
def load_torah_corpus(as_sentences=False): | |
"""Lädt die gesamte Tora und gibt sie als Liste von Wörtern oder Sätzen zurück.""" | |
all_words = [] | |
all_sentences = [] | |
for i in range(1, 6): # Bücher 1 bis 5 | |
try: | |
with open(f"texts/torah/{i:02}.json", 'r', encoding='utf-8') as file: | |
data = json.load(file) | |
full_text = ' '.join([' '.join(block) for block in data["text"]]) | |
text_no_brackets = re.sub(r"\[.*?\]", "", full_text, flags=re.DOTALL) | |
clean_text = re.sub(r"[^\u05D0-\u05EA\s]+", "", text_no_brackets) | |
words = clean_text.split() | |
if words: | |
all_words.extend(words) | |
# Für Word2Vec brauchen wir eine Satzstruktur (Liste von Listen von Wörtern) | |
all_sentences.append(words) | |
except FileNotFoundError: | |
continue | |
return all_sentences if as_sentences else all_words | |
# Konstanten für die Wiederverwendung | |
SORTED_GEMATRIA = sorted(HEBREW_GEMATRIA_VALUES.items(), key=lambda item: item[1], reverse=True) | |