Spaces:

menu
/

testspace

Runtime error

App Files Files Community

caidanfeng commited on Dec 26, 2023

Commit

5120594

1 Parent(s): c198907

add

Browse files

Files changed (1) hide show

app.py +1 -94

app.py CHANGED Viewed

@@ -6,12 +6,6 @@
 # In[ ]:
-在第3讲里面. 通过colpletion接口, 实现一个聊天机器人
-我们采用的是自己将整个对话拼接起来，将整个上下文都发送给 OpenAI的 Completion API 的方式。
-因为 ChatGPT 的火热，OpenAI 放出了一个直接可以进行对话聊天的接口。
-这个接口叫做 ChatCompletion，对应的模型叫做 gpt3.5-turbo，不但用起来更容易了，速度还快，而且价格也是我们之前使用的 text-davinci-003 的十分之一，
-可谓是物美价廉了。
 # In[ ]:
@@ -28,37 +22,12 @@ openai.ChatCompletion.create(
 )
-# In[ ]:
-需要传入的参数，从一段Prompt 变成了一个数组，数组的每个元素都有 role 和 content 两个字段
-role 这个字段一共有三个角色可以选择，其中 system 代表系统，user 代表用户，而assistant 则代表 AI 的回答
-# In[ ]:
-当 role 是 system 的时候，content 里面的内容代表我们给 AI 的一个指令.是告诉AI 应该怎么回答用户的问题
-比如我们希望 AI 都通过中文回答我们就可以在content 里面写 "你只能用中文回答"
-而当 role 是 user 或者 assistant 的时候
-content 里面的内容就代表用户和ai对话的内容
-和我们第 03 讲里做的聊天机器人一样,你需要把历史上的对话一起发送给OpenAI 的接口，它才能有理解整个对话的上下文的能力。
-# In[ ]:
-# In[1]:
 import openai
 import os
-OPENAI_API_KEY='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'
 openai.api_key = OPENAI_API_KEY
 # 封装了一个 Conversation 类
 class Conversation:
@@ -123,47 +92,17 @@ print("User : %s" % question4)
 print("Assistant : %s\n" % conv1.ask(question4))
-# In[ ]:
-如果我们重新再问一遍“我问你的第一个问题是什么”，你会发现回答变了。
-上一轮已经是第四轮了，而我们设置记住的 num_of_round 是 3。
-在上一轮的问题回答完了之后，第一轮的关于“你是谁”的问答，被我们从 ChatGPT 的对话历史里去掉了。
-所以这个时候，它会告诉我们，第一个问题是“鱼香肉丝怎么做”。
-# In[4]:
 question5 = "我问你的第一个问题是什么？"
 print("User : %s" % question5)
 print("Assistant : %s\n" % conv1.ask(question5))
-# In[ ]:
-ChatGPT 的对话模型用起来很方便，但是也有一点需要注意。就是在这个需要传送大量上下文的情况下，这个费用会比你想象的高。
-OpenAI 是通过模型处理的 Token 数量来收费的，但是要注意，这个收费是“双向收费”。
-它是按照你发送给它的上下文，加上它返回给你的内容的总 Token 数来计算花费的 Token 数量的。
-# In[ ]:
-第一轮对话是只消耗了 100 个 Token，但是第二轮因为要把前面的上下文都发送出去，所以需要 200 个
-# ### 通过API计算Token数量
-# In[ ]:
-第一种计算 Token 数量的方式，是从 API 返回的结果里面获取。我们修改一下刚才的Conversation 类，重新创建一个 Conversation2 类。
-和之前只有一个不同，ask 函数除了返回回复的消息之外，还会返回这次请求消耗的 Token 数
-# In[2]:
 class Conversation2:
@@ -206,16 +145,8 @@ for question in questions:
     print("询问 {%s} 消耗的token数量是 : %d" % (question, num_of_tokens))
-# ### 通过Tiktoken库计算Token数量
-# In[ ]:
-第二种方式，我们在上一讲用过，就是使用 Tiktoken 这个 Python 库，将文本分词，然后数一数 Token 的数量。
-# In[3]:
 import tiktoken
 encoding = tiktoken.get_encoding("cl100k_base")
@@ -232,17 +163,6 @@ total_count = prompt_count + question1_count + answer1_count
 print("Prompt消耗 %d Token, 问题消耗 %d Token，回答消耗 %d Token，总共消耗 %d Token" % (prompt_count, question1_count, answer1_count, total_count))
-# In[ ]:
-我们通过 API 获得了消耗的 Token 数，然后又通过 Tiktoken 分别计算了 System 的指示内
-容、用户的问题和 AI 生成的回答，发现了两者还有小小的差异。这个是因为，我们没有计算
-OpenAI 去拼接它们内部需要的格式的 Token 数量。很多时候，我们都需要通过 Tiktoken 预
-先计算一下 Token 数量，避免提交的内容太多，导致 API 返回报错。
-# In[8]:
 system_start_count = len(encoding.encode("<|im_start|>system\n"))
 print(encoding.encode("<|im_start|>system\n"))
@@ -257,20 +177,7 @@ total_mark_count = system_start_count + user_start_count + assistant_start_count
 print("系统拼接的标记消耗 %d Token" % total_mark_count)
-# ## Gradio帮你快速搭建一个聊天界面
-# In[ ]:
-我们直接选用 Gradio 这个 Python 库来开发这个聊天机器人的界面，因为它有这样几个好处。
-1,我们现有的代码都是用 Python 实现的，你不需要再去学习 JavaScript、TypeScript 以及相关的前端框架了
-2,Gradio ��染出来的界面可以直接在 Jupyter Notebook 里面显示出来，对于不了解技术的同学，也不再需要解决其他环境搭建的问题。
-3,Gradio 这个公司，已经被目前最大的开源机器学习模型社区 HuggingFace 收购了。你可以免费把 Gradio 的应用部署到 HuggingFace 上。
-https://www.gradio.app/guides/creating-a-custom-chatbot-with-blocks  Gradio官方也有用其他开源预训练模型创建Chatbot的教程
-# In[5]:
 get_ipython().run_line_magic('pip', 'install gradio')

 # In[ ]:
 # In[ ]:
 )
 import openai
 import os
+OPENAI_API_KEY=os.environ.get("OPENAI_API_KEY")
 openai.api_key = OPENAI_API_KEY
 # 封装了一个 Conversation 类
 class Conversation:
 print("Assistant : %s\n" % conv1.ask(question4))
 question5 = "我问你的第一个问题是什么？"
 print("User : %s" % question5)
 print("Assistant : %s\n" % conv1.ask(question5))
 class Conversation2:
     print("询问 {%s} 消耗的token数量是 : %d" % (question, num_of_tokens))
 import tiktoken
 encoding = tiktoken.get_encoding("cl100k_base")
 print("Prompt消耗 %d Token, 问题消耗 %d Token，回答消耗 %d Token，总共消耗 %d Token" % (prompt_count, question1_count, answer1_count, total_count))
 system_start_count = len(encoding.encode("<|im_start|>system\n"))
 print(encoding.encode("<|im_start|>system\n"))
 print("系统拼接的标记消耗 %d Token" % total_mark_count)
 get_ipython().run_line_magic('pip', 'install gradio')