Spaces:

Sakalti
/

ma5765ai

Runtime error

App Files Files Community

Sakalti commited on 22 days ago

Commit

3dfb9ec

verified ·

1 Parent(s): a3ec89c

Create app.py

Browse files

Files changed (1) hide show

app.py +62 -0

app.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import os
+from dotenv import load_dotenv
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
+from huggingface_hub import login
+# === トークン読み込み ===
+load_dotenv()
+HF_TOKEN = os.getenv("HF_TOKEN")
+if not HF_TOKEN:
+    raise ValueError("Hugging Faceのトークンが見つかりません。`.env`ファイルまたは環境変数を確認してください。")
+login(HF_TOKEN)
+# === 設定 ===
+BASE_MODEL = "Sakalti/Template-4"
+HF_REPO = "Sakalti/Template-4"
+# === データ読み込み ===
+dataset = load_dataset("Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus", split="train")
+# === トークナイザー & モデル準備 ===
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)
+# === データ前処理 ===
+def preprocess(examples):
+    texts = [f"英語: {ex['en']}\n日本語:" for ex in examples]
+    model_inputs = tokenizer(texts, max_length=256, truncation=True)
+    model_inputs["labels"] = model_inputs["input_ids"]
+    return model_inputs
+tokenized_dataset = dataset.map(preprocess, batched=True, remove_columns=dataset.column_names)
+# === トレーニング設定 ===
+training_args = TrainingArguments(
+    output_dir="./results",
+    evaluation_strategy="no",
+    learning_rate=2e-5,
+    per_device_train_batch_size=2,
+    num_train_epochs=3,
+    save_total_limit=2,
+    save_steps=500,  # 500ステップごとに保存（ご要望通り）
+    push_to_hub=True,
+    hub_model_id=HF_REPO,
+    hub_token=HF_TOKEN,
+    logging_steps=100,
+)
+# === Trainerで学習 & アップロード ===
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset,
+)
+trainer.train()
+trainer.push_to_hub()
+tokenizer.push_to_hub(HF_REPO)
+print("アップロード完了！")