Safetensors
qwen2
stardust-eques commited on
Commit
f282f77
·
verified ·
1 Parent(s): c5b95a0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +65 -2
README.md CHANGED
@@ -3,12 +3,11 @@ license: apache-2.0
3
  base_model:
4
  - cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
5
  datasets:
6
- - HuggingFaceH4/ultrachat_200k
7
  ---
8
 
9
  # TinyDeepSeek-JP-1.5B
10
 
11
- **性能悪い!ボツ!**
12
 
13
  本モデルは, DeepSeek-R1の小型蒸留モデルに日本語を追加学習した[cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese)に対し、
14
  SakanaAI社が提案した新たな蒸留手法TAIDを適用して小型化したものです.
@@ -24,7 +23,69 @@ This model is provided for research and development purposes only and should be
24
 
25
  ### Output Examples
26
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
27
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
28
 
29
 
30
  ### Sample Usage
@@ -64,6 +125,8 @@ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
64
  print(response)
65
  ```
66
 
 
 
67
  ### License
68
  Apache-2.0
69
 
 
3
  base_model:
4
  - cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
5
  datasets:
6
+ - EQUES/japanese_ultrachat_6.6k
7
  ---
8
 
9
  # TinyDeepSeek-JP-1.5B
10
 
 
11
 
12
  本モデルは, DeepSeek-R1の小型蒸留モデルに日本語を追加学習した[cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese)に対し、
13
  SakanaAI社が提案した新たな蒸留手法TAIDを適用して小型化したものです.
 
23
 
24
  ### Output Examples
25
 
26
+ <details><summary>大規模言語モデルについて教えて。</summary>
27
+
28
+ ```
29
+ まず、大規模言語モデルの学習には、膨大な量のデータが必要です。例えば、GPT-3(OpenAI)の場合、1750億パラメータを持ち、約2兆単語のテキストデータで訓練されています。この大量のデータから、モデルはパターンや構造を学びます。次に、モデルは複数の層(レイヤー)で構成され、各層は前層の出力を元に新たな表現を作成します。例えば、Transformerアーキテクチャでは、Attention Mechanismを使用して、入力文脈全体を考慮に入れることで、長距離依存関係を捉えることが可能です。さらに、これらのモデルは継続的に更新されており、最新の研究では、モデルの精度と性能が向上しています。これにより、大規模言語モデルは多様なタスクに対応できるようになります。 ただし、大規模言語モデルの学習には多くの計算リソースが必要です。特に、トレーニング中に必要となるGPUやTPUなどのハードウェア資源がコストがかかります。また、データのプライバシーとセキュリティも重要な課題です。今後の研究では、より効率的で持続可能な学習方法を開発する必要があります。
30
+
31
+ これらは大規模言語モデルの学習における主な要素ですが、他にも多くの要素があります。例えば、モデルの最適化や検証といったプロセスもあります。これらの要素全てが、モデルの精度と実用性を高めるために不可欠です。
32
+ ```
33
+
34
+ </details>
35
+
36
+ <details><summary>以下は算数の問題です。よく考えて回答してください。 正六角形は六つの正三角形に分割できます。もしそのうちの一つの三角形の周の長さが21インチである場合、正六角形の周の長さは何インチですか?</summary>
37
+
38
+ ```
39
+ まず、正六角形は6つの正三角形で構成されています。つまり、各正三角形の周の長さは30.54インチ(約78.9cm)になります。
40
 
41
+ 次に、この一つの三角形の周の長さから、正六角形の周の長さを求めます。ただし、その計算には他の情報が必要です。例えば、正六角形の内角や辺の数などの情報を知り、それらを使って計算します。
42
+
43
+ ただし、問題文では「正六角形の周の長さ」という表現があるので、全体の周長を考えています。正六角形の周の長さは、すべての六つの三角形の周の長さを合計したものになります。
44
+
45
+ したがって、正六角形の周の長さは 30.54 × 6 = 183.24インチ(約55.42cm)となります。
46
+
47
+ 答え: 183.24インチ(約55.42cm)
48
+ ```
49
+
50
+ </details>
51
+
52
+
53
+ <details><summary>Pythonでスクレイピングを行うコードを生成して。</summary>
54
+
55
+ ```
56
+ テキストから情報を抽出するためには、まずHTML構造を理解する必要があります。例えば、次のような場合があります。
57
+
58
+ 画像が含まれている
59
+ リンクやアンカーが存在する
60
+ サブセクションがある
61
+ これらは全てHTMLの要素として扱い、それぞれに対応するメソッドを使用します。
62
+
63
+ このタスクでは、次の手順に従います:
64
+
65
+ HTML文書を読み込みます
66
+ 要素を特定
67
+ パラメータを指定
68
+ 値を取得
69
+ 各ステップについて説明してください。
70
+
71
+ また、必要なライブラリをインポートします。
72
+
73
+ 例: テキストからURLを抽出する場合、以下のように実装できます。
74
+
75
+ from bs4 import BeautifulSoup
76
+ import requests
77
+
78
+ url = "https://example.com"
79
+ response = requests.get(url)
80
+ soup = BeautifulSoup(response.content, 'html.parser')
81
+ urls = soup.find_all('a')
82
+
83
+ for link in urls:
84
+ print(link.get('href'))
85
+
86
+ このコードは、requests.get()を使ってURLを取得し、BeautifulSoup()でHTMLを解析します。その後、find_all('a')を使ってすべてのリンクを検索します。これにより、すべてのリンクのURLを取得できます。
87
+
88
+ ただし、この方法では複数の階層構造(サブセクション)を処理できません。その場合は、さらに深く解析が���要です。
89
 
90
 
91
  ### Sample Usage
 
125
  print(response)
126
  ```
127
 
128
+ </details>
129
+
130
  ### License
131
  Apache-2.0
132