Model card
This is a tokenizer for deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B. This tokenizer simply maps simplified chinese to traditional chinese without modifying weights of the original model.
Usage
import torch, transformers
from transformers import TextStreamer
def generate_response_fp():
# load this tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained("benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw", use_fast=False)
model = transformers.AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", torch_dtype=torch.bfloat16, device_map=device,attn_implementation="flash_attention_2")
streamer = TextStreamer(tokenizer, skip_prompt=True)
while(1):
prompt = input('USER:')
if prompt == "exit":
break
print("Assistant: ")
message = [
{'content': prompt, 'role': 'user'},
]
tokenized_chat = tokenizer.apply_chat_template(message,tokenize=True,add_generation_prompt=True,return_tensors='pt').to(device)
_ = model.generate(tokenized_chat,use_cache=True,max_new_tokens=model.config.max_position_embeddings,do_sample=False,temperature=0.5,repetition_penalty=1.2,streamer=streamer)
if __name__ == '__main__':
device = 'cuda' if torch.cuda.is_available() else 'cpu'
generate_response_fp()
Example
Using tokenizer from deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
User:
简单介绍 LLM
Assistant:
嗯,用户让我简单介绍一下LLM。首先,我得弄清楚什么是LLM。“LLM”可能有不同的意思吧?比如“大语言模型”,或者是其他什么术语。
我记得在机器学习和自然语言处理领域,“大型语言模型(Large Language Model)”这个词挺常见的。它通常用于生成文本、对话系统或者内容推荐之类的应用中。这些模型通过大量的数据训练后,可以理解人类的语言,并能够生成新的句子或回应。
那为什么叫“大型”的呢?因为它们需要处理大量的人工知识库,所以规模很大。这包括了大量的上下文信息,像书籍、网页上的文档等等。这样,当一个LLM遇到新输入时,它可以结合各种已有的知识来回答问题。
接下来,LLMs有什么特点呢?他们具备很强的可解释性吗?好像不是特别强,但有时候人们会说它们能模拟人类思维的能力。不过,具体来说,LLMs是否真的有这种能力还不确定,毕竟它们只是基于现有的数据进行预测和推理。
然后是应用场景。除了生成文本之外,LLMs还可以用来做问答系统,提供实时服务,甚至作为聊天机器人。此外,在医疗诊断方面也有用处,因为它可以根据患者的上下文给出更准确的回答。
我还记得听说有些公司开发了专门的大语言模型,比如OpenAI的GPT-3.5T,这个模型非常强大,可以在多种任务上表现出色。当然,这只是其中一部分,整个领域还有很多未完成的工作,比如如何提高模型的速度以及使其更加安全可靠。
总结一下,LLMs是一个强大的工具,广泛应用于多个领域,帮助我们理解和生成复杂的信息。虽然有很多挑战,但在未来可能会有更多的创新和发展。
</think>
**大型语言模型 (Large Language Models, LLMs)**
大型语言模型(Large Language Model,简称LLM)是一种人工智能技术,主要用于生成文本、对话系统或其他形式的应用程序。这类模型通过分析大规模的数据集,学习并模仿人类的语言表达方式,从而能够在给定上下文中生成合理的文本输出。
### 核心概念:
1. **大数据训练**:LLMs依赖于海量的人类知识库,如书籍、文章、社交媒体帖子等,以获取丰富的语料资源。
2. **自监督学习**:尽管传统的方法依赖人工标注数据,但许多研究采用自监督学习策略,利用 unlabeled 数据(例如图像数据)来训练模型。
3. **多模态交互**:LLMs可以通过语音、文本和其他互动手段与用户提供反馈,进一步优化其性能。
### 应用场景:
- **生成文本**:从任何输入开始,生成符合上下文的完整句子或段落。
- **问答系统**:支持快速响应,解答用户提出的问题。
- **聊天机器人**:构建智能客服,根据用户的意图提供相应的建议或解决方案。
- **内容创作**:辅助撰写报告、文章或创意写作。
- **医疗诊断**:基于患者的历史记录和症状,为医生提供专业指导。
### 技术优势:
- **高精度**:通过学习历史数据,模型能够捕捉到复杂的语义关系。
- **灵活性**:适用于多种需求,无论是日常交流还是高级数据分析。
- **扩展性**:随着对更多数据的积累,模型性能持续提升。
### 挑战与发展:
- **计算效率**:当前模型速度较慢,需进一步优化。
- **安全性**:防止恶意输入攻击,确保不泄露敏感信息。
- **伦理问题**:关注隐私保护和社会影响,避免滥用。
### 未来发展:
随着深度学习技术和算法的进步,LLMs有望在更多领域发挥重要作用。研究人员正在探索如何让模型更快、更鲁棒地工作,同时保持其高度的安全性和透明度。
总之,大型语言模型代表了一种突破人机界面的技术进步,具有广阔的应用前景,但也面临诸多挑战,将继续推动科技的发展。<|end▁of▁sentence|>
Ours
User:
簡單介紹 LLM
Assistant:
嗯,使用者讓我簡單介紹一下LLM。首先,我得弄清楚什麼是LLM。“LLM”可能有不同的意思吧?比如“大語言模型”,或者是其他什麼術語。
我記得在機器學習和自然語言處理領域,“大型語言模型(Large Language Model)”這個詞挺常見的。它通常用於生成文字、對話系統或者內容推薦之類的應用中。這些模型透過大量的資料訓練後,可以理解人類的語言,並能夠生成新的句子或回應。
那為什麼叫“大型”的呢?因為它們需要處理大量的人工知識庫,所以規模很大。這包括了大量的上下文資訊,像書籍、網頁上的文件等等。這樣,當一個LLM遇到新輸入時,它可以結合各種已有的知識來回答問題。
接下來,LLMs有什麼特點呢?他們具備很強的可解釋性嗎?好像不是特別強,但有時候人們會說它們能模擬人類思維的能力。不過,具體來說,LLMs是否真的有這種能力還嗎確定,畢竟它們只是基於現有的資料進行預測和推理。
然後是應用場景。除了生成文字之外,LLMs還可以用來做問答系統,提供实时服務,甚至作為聊天機器人。此外,在醫療診斷方面也有用處,因為它可以根據患者的上下文給出更準確的回答。
我還記得聽說有些公司開發了專門的大語言模型,比如OpenAI的GPT-3.5T,這個模型非常強大,可以在多種任務上表現出色。當然,這只是其中一部分,整個領域還有很多未完成的工作,比如如何提高模型的速度以及使其更加安全可靠。
總結一下,LLMs是一個強大的工具,廣泛應用於多個領域,幫助我們理解和生成複雜的資訊。雖然有很多挑戰,但在未來可能會有更多的創新和發展。
</think>
**大型語言模型 (Large Language Models, LLMs)**
大型語言模型(Large Language Model,簡稱LLM)是一種人工智慧技術,主要用於生成文字、對話系統或其他形式的應用程式。這類模型透過分析大規模的數據集,學習並模仿人類的語言表達方式,從而能夠在給定上下文中生成合理的文字輸出。
### 核心概念:
1. **大數據訓練**:LLMs依賴於巨量的人類知識庫,如書籍、文章、社交媒體帖子等,以獲取豐富的語料資源。
2. **自監督學習**:儘管傳統的方法依賴人工標註資料,但許多研究採用自監督學習策略,利用 unlabeled 數據(例如圖像資料)來訓練模型。
3. **多模態交互**:LLMs可以通過語音、文字和其他互動手段與用戶提供反饋,進一步最佳化其效能。
### 应用場景:
- **生成文字**:從任何輸入開始,生成符合上下文的完整句子或段落。
- **問答系統**:支援快速響應,解答使用者提出的問題。
- **聊天機器人**:構建智慧客服,根據用戶的意圖提供相應的建議或解決方案。
- **內容創作**:輔助撰寫報告、文章或創意寫作。
- **醫療診斷**:基於患者的歷史記錄和症狀,為醫生提供專業指導。
### 技術優勢:
- **高精度**:透過學習歷史資料,模型能夠捕捉到複雜的語義關係。
- **靈活性**:适用於多種需求,無論是日常交流還是高級數據分析。
- **擴展性**:隨著對更多資料的積累,模型效能持續提升。
### 挑戰與發展:
- **計算效率**:當前模型速度較慢,需進一步最佳化。
- **安全性**:防止惡意輸入攻擊,確保不洩露敏感資訊。
- **倫理問題**:關注隱私保護和社會影響,避免濫用。
### 未來發展:
隨著深度學習技術和算法的進步,LLMs有望在更多領域發揮重要作用。研究人員正在探索如何讓模型更快、更魯棒地工作,同時保持其高度的安全性和透明度。
總之,大型語言模型代表了一種突破人機界面的技術進步,具有廣闊的應用前景,但也面臨諸多挑戰,將繼續推動科技的發展。<|end▁of▁sentence|>
Note
This project is still under development, some simplified chinese aren't converted, be careful!
Word Converted
For word converted, please rever to converter.txt
Known Issues
Some word can't be converted since multiple simplified Chinese vocabularies collide with the same traditional Chinese vocabulary. These simplified Chinese vocabulary is not converted:
資料 -> 資料
線上 -> 線上
麽 -> 麼
運行 -> 執行
打開 -> 開啟
資訊 -> 資訊
台灣 -> 臺灣
檔案 -> 檔案
設定 -> 設定
聯絡 -> 聯絡
通過 -> 透過
透過 -> 透過
交互 -> 互動
裏 -> 裡
查找 -> 查詢
傳送 -> 傳送
登錄 -> 登入
爲 -> 為
數據 -> 資料
社區 -> 社群
用戶 -> 使用者
聲明 -> 宣告
網絡 -> 網路
什麽 -> 什麼
缐 -> 線
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no pipeline_tag.
Model tree for benchang1110/DeepSeek-R1-Distill-Qwen-1.5B-zhtw
Base model
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B