cenkersisman commited on
Commit
0bbd5ca
·
1 Parent(s): 208f9b0

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +76 -0
README.md ADDED
@@ -0,0 +1,76 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ widget:
3
+ - text: 'fransa''nın başkenti'
4
+ example_title: fransa'nın başkenti
5
+ - text: 'ingiltere''nın başkenti'
6
+ example_title: ingiltere'nin başkenti
7
+ - text: 'italya''nın başkenti'
8
+ example_title: italya'nın başkenti
9
+ - text: 'moğolistan''ın başkenti'
10
+ example_title: moğolistan'ın başkenti
11
+ - text: 'amazon ormanlarının bulunduğu ülke olan'
12
+ example_title: amazon ormanlarının bulunduğu ülke olan
13
+ - text: 'avrupa''yı asya''ya bağlayan şehir'
14
+ example_title: avrupa'yı asya'ya bağlayan şehir
15
+ - text: 'zebraların yaşadığı kıta olan'
16
+ example_title: zebraların yaşadığı kıta olan
17
+ - text: 'fenerbahçe''nin ezeli rakibi olan'
18
+ example_title: fenerbahçe'nin ezeli rakibi olan
19
+ - text: 'tek bacaklı kurbağa'
20
+ example_title: tek bacaklı kurbağa
21
+ - text: 'rize''de yağmur'
22
+ example_title: rize'de yağmur
23
+ - text: 'hayatın anlamı'
24
+ example_title: hayatın anlamı
25
+ - text: 'saint-joseph'
26
+ example_title: saint-joseph
27
+ - text: 'renk isimleri şunlardır'
28
+ example_title: renk isimleri şunlardır
29
+ - text: 'iklim değişikliği'
30
+ example_title: iklim değişikliği
31
+ - text: 'tuzlu yiyecekler arasında'
32
+ example_title: tuzlu yiyecekler arasında
33
+ language:
34
+ - tr
35
+ ---
36
+ # Model
37
+
38
+ GPT-2 Türkçe Modeli
39
+
40
+ ### Model Açıklaması
41
+
42
+ GPT-2 Türkçe Modeli, Türkçe diline özelleştirilmiş olan GPT-2 mimarisi temel alınarak oluşturulmuş bir dil modelidir. Belirli bir başlangıç metni temel alarak insana benzer metinler üretme yeteneğine sahiptir ve geniş bir Türkçe metin veri kümesi üzerinde eğitilmiştir.
43
+ Modelin eğitimi için 900 milyon karakterli Vikipedi seti kullanılmıştır. Eğitim setindeki cümleler maksimum 256 tokendan (token = kelime kökü ve ekleri) oluşmuştur bu yüzden oluşturacağı cümlelerin boyu sınırlıdır..
44
+ Türkçe heceleme yapısına uygun tokenizer kullanılmış ve model 7.5 milyon adımda yaklaşık 154 epoch eğitilmiştir.
45
+ Eğitim için 4GB hafızası olan Nvidia Geforce RTX 3050 GPU kullanılmaktadır. 16GB Paylaşılan GPU'dan da yararlanılmakta ve eğitimin devamında toplamda 20GB hafıza kullanılmaktadır.
46
+
47
+ ## Model Nasıl Kullanılabilir
48
+ ÖNEMLİ: model harf büyüklüğüne duyarlı olduğu için, prompt tamamen küçük harflerle yazılmalıdır.
49
+
50
+ ```python
51
+ # Model ile çıkarım yapmak için örnek kod
52
+
53
+ from transformers import GPT2Tokenizer, GPT2LMHeadModel
54
+
55
+ model_name = "cenkersisman/gpt2-turkish-256-token"
56
+ tokenizer = GPT2Tokenizer.from_pretrained(model_name)
57
+ model = GPT2LMHeadModel.from_pretrained(model_name)
58
+
59
+ prompt = "okyanusun derinliklerinde bulunan"
60
+ input_ids = tokenizer.encode(prompt, return_tensors="pt")
61
+ output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
62
+ generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
63
+ print(generated_text)
64
+
65
+ ```
66
+ ## Eğitim Süreci Eğrisi
67
+
68
+ ![image/png](https://huggingface.co/cenkersisman/gpt2-turkish-128-token/resolve/main/1.png)
69
+
70
+ ![image/png](https://huggingface.co/cenkersisman/gpt2-turkish-128-token/resolve/main/2.png)
71
+ ## Sınırlamalar ve Önyargılar
72
+ Bu model, bir özyineli dil modeli olarak eğitildi. Bu, temel işlevinin bir metin dizisi alıp bir sonraki belirteci tahmin etmek olduğu anlamına gelir. Dil modelleri bunun dışında birçok görev için yaygın olarak kullanılsa da, bu çalışmayla ilgili birçok bilinmeyen bulunmaktadır.
73
+
74
+ Model, küfür, açık saçıklık ve aksi davranışlara yol açan metinleri içerdiği bilinen bir veri kümesi üzerinde eğitildi. Kullanım durumunuza bağlı olarak, bu model toplumsal olarak kabul edilemez metinler üretebilir.
75
+
76
+ Tüm dil modellerinde olduğu gibi, bu modelin belirli bir girişe nasıl yanıt vereceğini önceden tahmin etmek zordur ve uyarı olmaksızın saldırgan içerik ortaya çıkabilir. Sonuçları yayınlamadan önce hem istenmeyen içeriği sansürlemek hem de sonuçların kalitesini iyileştirmek için insanların çıktıları denetlemesini veya filtrelemesi önerilir.