EQUES
/

TinyDeepSeek-JP-1.5B

Safetensors

qwen2

Model card Files Files and versions Community

stardust-eques commited on Feb 20

Commit

f282f77

verified ·

1 Parent(s): c5b95a0

Update README.md

Browse files

Files changed (1) hide show

README.md +65 -2

README.md CHANGED Viewed

@@ -3,12 +3,11 @@ license: apache-2.0
 base_model:
 - cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
 datasets:
-- HuggingFaceH4/ultrachat_200k
 ---
 # TinyDeepSeek-JP-1.5B
-**性能悪い！ボツ！**
 本モデルは, DeepSeek-R1の小型蒸留モデルに日本語を追加学習した[cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese)に対し、
 SakanaAI社が提案した新たな蒸留手法TAIDを適用して小型化したものです.
@@ -24,7 +23,69 @@ This model is provided for research and development purposes only and should be
 ### Output Examples
 ### Sample Usage
@@ -64,6 +125,8 @@ response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 print(response)
 ```
 ### License
 Apache-2.0

 base_model:
 - cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese
 datasets:
+- EQUES/japanese_ultrachat_6.6k
 ---
 # TinyDeepSeek-JP-1.5B
 本モデルは, DeepSeek-R1の小型蒸留モデルに日本語を追加学習した[cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese)に対し、
 SakanaAI社が提案した新たな蒸留手法TAIDを適用して小型化したものです.
 ### Output Examples
+<details><summary>大規模言語モデルについて教えて。</summary>
+```
+まず、大規模言語モデルの学習には、膨大な量のデータが必要です。例えば、GPT-3（OpenAI）の場合、1750億パラメータを持ち、約2兆単語のテキストデータで訓練されています。この大量のデータから、モデルはパターンや構造を学びます。次に、モデルは複数の層（レイヤー）で構成され、各層は前層の出力を元に新たな表現を作成します。例えば、Transformerアーキテクチャでは、Attention Mechanismを使用して、入力文脈全体を考慮に入れることで、長距離依存関係を捉えることが可能です。さらに、これらのモデルは継続的に更新されており、最新の研究では、モデルの精度と性能が向上しています。これにより、大規模言語モデルは多様なタスクに対応できるようになります。 ただし、大規模言語モデルの学習には多くの計算リソースが必要です。特に、トレーニング中に必要となるGPUやTPUなどのハードウェア資源がコストがかかります。また、データのプライバシーとセキュリティも重要な課題です。今後の研究では、より効率的で持続可能な学習方法を開発する必要があります。
+これらは大規模言語モデルの学習における主な要素ですが、他にも多くの要素があります。例えば、モデルの最適化や検証といったプロセスもあります。これらの要素全てが、モデルの精度と実用性を高めるために不可欠です。
+```
+</details>
+<details><summary>以下は算数の問題です。よく考えて回答してください。 正六角形は六つの正三角形に分割できます。もしそのうちの一つの三角形の周の長さが21インチである場合、正六角形の周の長さは何インチですか？</summary>
+```
+まず、正六角形は6つの正三角形で構成されています。つまり、各正三角形の周の長さは30.54インチ（約78.9cm）になります。
+次に、この一つの三角形の周の長さから、正六角形の周の長さを求めます。ただし、その計算には他の情報が必要です。例えば、正六角形の内角や辺の数などの情報を知り、それらを使って計算します。
+ただし、問題文では「正六角形の周の長さ」という表現があるので、全体の周長を考えています。正六角形の周の長さは、すべての六つの三角形の周の長さを合計したものになります。
+したがって、正六角形の周の長さは 30.54 × 6 = 183.24インチ（約55.42cm）となります。
+答え: 183.24インチ（約55.42cm）
+```
+</details>
+<details><summary>Pythonでスクレイピングを行うコードを生成して。</summary>
+```
+テキストから情報を抽出するためには、まずHTML構造を理解する必要があります。例えば、次のような場合があります。
+画像が含まれている
+リンクやアンカーが存在する
+サブセクションがある
+これらは全てHTMLの要素として扱い、それぞれに対応するメソッドを使用します。
+このタスクでは、次の手順に従います:
+HTML文書を読み込みます
+要素を特定
+パラメータを指定
+値を取得
+各ステップについて説明してください。
+また、必要なライブラリをインポートします。
+例: テキストからURLを抽出する場合、以下のように実装できます。
+from bs4 import BeautifulSoup
+import requests
+url = "https://example.com"
+response = requests.get(url)
+soup = BeautifulSoup(response.content, 'html.parser')
+urls = soup.find_all('a')
+for link in urls:
+    print(link.get('href'))
+このコードは、requests.get()を使ってURLを取得し、BeautifulSoup()でHTMLを解析します。その後、find_all('a')を使ってすべてのリンクを検索します。これにより、すべてのリンクのURLを取得できます。
+ただし、この方法では複数の階層構造（サブセクション）を処理できません。その場合は、さらに深く解析が���要です。
 ### Sample Usage
 print(response)
 ```
+</details>
 ### License
 Apache-2.0