DataPilot commited on
Commit
20829a4
·
verified ·
1 Parent(s): 8eff484
Files changed (1) hide show
  1. README.md +70 -0
README.md CHANGED
@@ -1,3 +1,73 @@
1
  ---
2
  license: apache-2.0
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
+ inference: false
4
+ language: ja
5
  ---
6
+
7
+ ## 概要
8
+
9
+ 「LOCAL AI HACKATHON」における、チームDataPilot,5つめの成果品です。Line社が開発した「japanese-large-lm-1.7b-instruction-sft」をウィキブックの内容をもとに中学、高校範囲に加え、インストラクションデータセットを用いファインチューニングを行いました。
10
+
11
+ ## how to use
12
+
13
+ ```python
14
+
15
+ #pip install transformer
16
+ #pip install pipline
17
+ #pip install protobu
18
+ #pip install accelerate
19
+ #pip install sentencepiece
20
+ #pip install torch
21
+
22
+ import torch
23
+ from transformers import AutoModelForSequenceClassification
24
+ from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline #transformerとtorchがインストールされていることを前提とします。
25
+
26
+ model = AutoModelForCausalLM.from_pretrainedmodel = AutoModelForCausalLM.from_pretrained("DataPilot/ArrowSmart_1.7b_instraction")
27
+ tokenizer = AutoTokenizer.from_pretrained("DataPilot/ArrowSmart_1.7b_instraction")
28
+
29
+ generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)
30
+
31
+ torch.cuda.empty_cache()
32
+
33
+ input_text = """有機物とは"""
34
+ text = generator(
35
+ f"ユーザー: {input_text} システム: ",
36
+ max_length = 100,
37
+ do_sample = True,
38
+ temperature = 0.7,
39
+ top_p = 0.9,
40
+ top_k = 0,
41
+ repetition_penalty = 1.1,
42
+ num_beams = 1,
43
+ pad_token_id = tokenizer.pad_token_id,
44
+ num_return_sequences = 1,
45
+ )
46
+
47
+ print(text)
48
+
49
+ ```
50
+
51
+ ## トークン化:
52
+
53
+ ユニグラム言語モデルとバイトフォールバックを備えたセンテンスピーストークナイザー(sentencepiece tokenizer)を使用します。日本語トークナイザーによる事前トークン化は適用されません。したがって、ユーザーは生の文をトークナイザーに直接フィードできます。
54
+
55
+ ## ライセンス:
56
+
57
+ 当LLMはオープンソースソフトウェアです。詳しくは下記のリンクをご覧ください。
58
+ https://www.apache.org/licenses/LICENSE-2.0
59
+
60
+ ## 謝辞:
61
+
62
+ 機材を貸していただいた Witnessさん 、このような機会を与えてくださった さるどらさん 、その他助言を与えてくださった「ローカルLLMに向き合う会」のみなさま、そしてすべての関係者の皆様に感謝を申し上げます。
63
+
64
+ witnessさん:
65
+ https://twitter.com/i_witnessed_it
66
+
67
+
68
+ さるどらさん:
69
+ https://twitter.com/sald_ra
70
+
71
+
72
+ ローカルLLMに向き合う会:
73
+ https://discord.com/invite/VuYCYkYaHK