Spaces:

neuralworm
/

xor_tanakh_2

Sleeping

App Files Files Community

xor_tanakh_2 / build_indices.py

neuralworm

initial commit

f054e62 9 days ago

raw

history blame contribute delete

4.6 kB

	import json
	import logging
	import re
	import os
	from collections import defaultdict
	import pickle
	import time
	import shutil
	from gematria import calculate_gematria

	# --- Konfiguration ---
	logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

	BOOK_RANGE = range(1, 40)
	MAX_PHRASE_WORDS = 20
	TEXTS_DIR = "texts/torah"
	CACHE_FILE = "tanakh_phrasedict.cache"
	OLD_INDICES_DIR = "indices_by_book"

	def clean_text(text):
	"""Bereinigt den hebräischen Text."""
	text = re.sub(r'\[.*?\]', '', text)
	text = re.sub(r"[^\u05D0-\u05EA\s]+", "", text)
	text = re.sub(r"\s+", " ", text).strip()
	return text

	def cleanup_old_files():
	"""Löscht alte, inkompatible Dateien und Verzeichnisse."""
	if os.path.isdir(OLD_INDICES_DIR):
	logging.warning(f"Lösche altes Index-Verzeichnis: '{OLD_INDICES_DIR}'...")
	shutil.rmtree(OLD_INDICES_DIR)
	# Die alte Cache-Datei muss ebenfalls gelöscht werden, da sie das neue Format nicht hat
	if os.path.exists(CACHE_FILE):
	logging.warning(f"Lösche alte Cache-Datei für Re-Indizierung: '{CACHE_FILE}'...")
	os.remove(CACHE_FILE)

	def main():
	"""Erstellt ein globales Phrasen-Wörterbuch mit Wortanzahl und Frequenz."""
	logging.info("Starte den globalen Index-Builder...")
	start_time = time.time()

	temp_phrases = []
	phrase_frequencies = defaultdict(int)

	# --- Phase 1: Alle Phrasen sammeln und Frequenzen zählen ---
	logging.info("Phase 1: Sammle Phrasen und zähle Frequenzen...")
	for book_num in BOOK_RANGE:
	filepath = os.path.join(TEXTS_DIR, f"{book_num:02}.json")
	if not os.path.exists(filepath):
	continue

	logging.info(f" -> Verarbeite Buch {book_num:02}...")
	with open(filepath, 'r', encoding='utf-8') as f:
	data = json.load(f)

	for chap_idx, chapter in enumerate(data.get("text", []), start=1):
	for verse_idx, verse_text in enumerate(chapter, start=1):
	words = clean_text(verse_text).split()
	if not words:
	continue

	for length in range(1, min(len(words), MAX_PHRASE_WORDS) + 1):
	for start in range(len(words) - length + 1):
	phrase_words = words[start:start+length]
	phrase_text = " ".join(phrase_words)

	gematria_val = calculate_gematria("".join(phrase_words))
	if gematria_val > 0:
	source_ref = f"B{book_num:02d},K{chap_idx:02d},V{verse_idx:02d}"

	# Speichere alle relevanten Daten temporär
	temp_phrases.append({
	"gematria": gematria_val,
	"text": phrase_text,
	"source": source_ref,
	"words": length
	})
	# Zähle die Häufigkeit jeder einzigartigen Phrase
	phrase_frequencies[phrase_text] += 1

	logging.info(f"Phase 1 abgeschlossen. {len(temp_phrases):,} Phrasen-Instanzen gefunden.")

	# --- Phase 2: Finales Wörterbuch mit Frequenzdaten erstellen ---
	logging.info("Phase 2: Erstelle finales Phrasen-Wörterbuch...")
	final_phrase_dict = defaultdict(list)

	# Set, um Duplikate (gleiche Phrase, gleiche Gematria) zu vermeiden
	seen_phrases = set()

	for phrase in temp_phrases:
	# Einzigartiger Schlüssel, um zu verhindern, dass die gleiche Phrase mehrfach pro Gematria-Wert gespeichert wird
	phrase_key = (phrase['gematria'], phrase['text'])
	if phrase_key in seen_phrases:
	continue

	seen_phrases.add(phrase_key)

	final_phrase_dict[phrase['gematria']].append({
	"text": phrase['text'],
	# Wichtig: Wir speichern jetzt auch Wortanzahl und Frequenz!
	"words": phrase['words'],
	"freq": phrase_frequencies[phrase['text']],
	"source": phrase['source'] # Quelle der ersten Begegnung
	})

	logging.info("Phase 2 abgeschlossen.")

	# --- Phase 3: Speichern ---
	logging.info(f"Phase 3: Speichere das Phrasen-Wörterbuch in Cache-Datei: {CACHE_FILE}")
	with open(CACHE_FILE, 'wb') as f:
	pickle.dump(dict(final_phrase_dict), f)

	end_time = time.time()
	logging.info(f"\nIndizierung erfolgreich abgeschlossen. Gesamtdauer: {(end_time - start_time):.2f} Sekunden.")

	if __name__ == "__main__":
	cleanup_old_files()
	main()