{ "cells": [ { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "#Terminalden huggingface-cli login komutuyla login oldum." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "c:\\Users\\Şerife GÖKDAŞ\\AppData\\Local\\Programs\\Python\\Python310\\lib\\site-packages\\tqdm\\auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n", " from .autonotebook import tqdm as notebook_tqdm\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "100 veri işlendi.\n", "200 veri işlendi.\n", "300 veri işlendi.\n", "400 veri işlendi.\n", "500 veri işlendi.\n", "600 veri işlendi.\n", "700 veri işlendi.\n", "800 veri işlendi.\n", "900 veri işlendi.\n", "1000 veri işlendi.\n", "1100 veri işlendi.\n", "1200 veri işlendi.\n", "1300 veri işlendi.\n", "1400 veri işlendi.\n", "1500 veri işlendi.\n", "1600 veri işlendi.\n", "1700 veri işlendi.\n", "1800 veri işlendi.\n", "1900 veri işlendi.\n", "2000 veri işlendi.\n", "2100 veri işlendi.\n", "2200 veri işlendi.\n", "2300 veri işlendi.\n", "2400 veri işlendi.\n", "2500 veri işlendi.\n", "2600 veri işlendi.\n", "2700 veri işlendi.\n", "2800 veri işlendi.\n", "2900 veri işlendi.\n", "3000 veri işlendi.\n", "3100 veri işlendi.\n", "3200 veri işlendi.\n", "3300 veri işlendi.\n", "3400 veri işlendi.\n", "3500 veri işlendi.\n", "3600 veri işlendi.\n", "3700 veri işlendi.\n", "3800 veri işlendi.\n", "3900 veri işlendi.\n", "4000 veri işlendi.\n", "4100 veri işlendi.\n", "4200 veri işlendi.\n", "4300 veri işlendi.\n", "4400 veri işlendi.\n", "4500 veri işlendi.\n", "4600 veri işlendi.\n", "4700 veri işlendi.\n", "4800 veri işlendi.\n", "4900 veri işlendi.\n", "5000 veri işlendi.\n", "5100 veri işlendi.\n", "5200 veri işlendi.\n", "5300 veri işlendi.\n", "5400 veri işlendi.\n", "5500 veri işlendi.\n", "5600 veri işlendi.\n", "5700 veri işlendi.\n", "5800 veri işlendi.\n", "5900 veri işlendi.\n", "6000 veri işlendi.\n", "6100 veri işlendi.\n", "6200 veri işlendi.\n", "6300 veri işlendi.\n", "6400 veri işlendi.\n", "6500 veri işlendi.\n", "6600 veri işlendi.\n", "6700 veri işlendi.\n", "6800 veri işlendi.\n", "6900 veri işlendi.\n", "7000 veri işlendi.\n", "7100 veri işlendi.\n", "7200 veri işlendi.\n", "7300 veri işlendi.\n", "7400 veri işlendi.\n", "7500 veri işlendi.\n", "7600 veri işlendi.\n", "7700 veri işlendi.\n", "7800 veri işlendi.\n", "7900 veri işlendi.\n", "8000 veri işlendi.\n", "8100 veri işlendi.\n", "8200 veri işlendi.\n", "8300 veri işlendi.\n", "8400 veri işlendi.\n", "8500 veri işlendi.\n", "8600 veri işlendi.\n", "8700 veri işlendi.\n", "8800 veri işlendi.\n", "8900 veri işlendi.\n", "9000 veri işlendi.\n", "9100 veri işlendi.\n", "9200 veri işlendi.\n", "9300 veri işlendi.\n", "9400 veri işlendi.\n", "9500 veri işlendi.\n", "9600 veri işlendi.\n", "9700 veri işlendi.\n", "9800 veri işlendi.\n", "9900 veri işlendi.\n", "10000 veri işlendi.\n", "10100 veri işlendi.\n", "10200 veri işlendi.\n", "10300 veri işlendi.\n", "10400 veri işlendi.\n", "10500 veri işlendi.\n", "10600 veri işlendi.\n", "10700 veri işlendi.\n", "10800 veri işlendi.\n", "10900 veri işlendi.\n", "11000 veri işlendi.\n", "11100 veri işlendi.\n", "11200 veri işlendi.\n", "11300 veri işlendi.\n", "11400 veri işlendi.\n", "11500 veri işlendi.\n", "11600 veri işlendi.\n", "11700 veri işlendi.\n", "11800 veri işlendi.\n", "11900 veri işlendi.\n", "12000 veri işlendi.\n", "12100 veri işlendi.\n", "12200 veri işlendi.\n", "12300 veri işlendi.\n", "12400 veri işlendi.\n", "12500 veri işlendi.\n", "12600 veri işlendi.\n", "12700 veri işlendi.\n", "Tokenize işlemi tamamlandı ve yeni CSV dosyasına kaydedildi.\n" ] } ], "source": [ "import pandas as pd\n", "from transformers import AutoTokenizer\n", "\n", "# Tokenizer'ı başlatıyoruz\n", "tokenizer = AutoTokenizer.from_pretrained(\"alibayram/tr_tokenizer\", use_fast=True)\n", "\n", "# CSV dosyasını okuyalım\n", "df = pd.read_csv(\"data_all_news.csv\")\n", "\n", "# Başlıkları (Title) ve etiketleri (Label) alıyoruz\n", "titles = df['Title'].tolist() # 'Title' sütununu al\n", "labels = df['Label'].tolist() # 'Label' sütununu al\n", "\n", "# Tokenize edilmiş başlıklar ve etiketleri saklamak için liste oluşturuyoruz\n", "tokenized_titles = []\n", "encoded_labels = []\n", "\n", "# Tokenize işlemine başlıyoruz\n", "for i, (title, label) in enumerate(zip(titles, labels)):\n", " tokens = tokenizer.tokenize(title) # Başlığı tokenize ediyoruz\n", " tokenized_titles.append(tokens) # Tokenize edilmiş başlıkları listeye ekliyoruz\n", " encoded_labels.append(label) # Etiketi listeye ekliyoruz\n", "\n", " # Her 100. veri işlendiğinde ekrana yazdırıyoruz\n", " if (i + 1) % 100 == 0:\n", " print(f\"{i + 1} veri işlendi.\")\n", "\n", "# Tokenize edilmiş başlıklar ve etiketlerle DataFrame oluşturuyoruz\n", "tokenized_df = pd.DataFrame({\n", " 'Title': tokenized_titles, # Tokenize edilmiş başlıklar\n", " 'Label': encoded_labels # Etiketler\n", "})\n", "\n", "# CSV dosyasına kaydediyoruz\n", "tokenized_df.to_csv('data_tokenized.csv', index=False)\n", "\n", "print(\"Tokenize işlemi tamamlandı ve yeni CSV dosyasına kaydedildi.\")\n" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.10" } }, "nbformat": 4, "nbformat_minor": 2 }