subheading" style="box-sizing: border-box; color: var(--gray-900); font-size: 12px; font-weight: 700; letter-spacing: 0.08em; line-height: 16px; text-transform: uppercase;">系统
您将获得客户服务查询。将每个查询分类为主要类别和次要类别。以 json 格式提供输出以及键:主键和辅助键。 主要类别:计费、技术支持、帐户管理或一般查询。 计费二级类别: - 取消订阅或升级 - 添加付款方式 - 收费说明 - 对指控提出异议 技术支持二级类别: -故障 排除 - 设备兼容性 - 软件更新 账户管理二级类别: - 密码重置 - 更新个人信息 - 关闭账户 - 账户安全 一般查询次要类别: - 产品信息 -定价 -反馈 - 与人交谈
用户
我需要让我的互联网再次工作。
在操场上开放

根据客户查询的分类,可以向 GPT 模型提供一组更具体的指令来处理后续步骤。例如,假设客户需要“故障排除”方面的帮助。

系统
您将获得需要在技术支持上下文中进行故障排除的客户服务查询。通过以下方式帮助用户: - 要求他们检查与路由器之间的所有电缆是否已连接。请注意,电缆会随着时间的推移而松动是很常见的。 - 如果所有电缆都已连接,但问题仍然存在,请询问他们使用的是哪种路由器型号 - 现在您将建议他们如何重新启动设备: -- 如果型号为 MTD-327J,建议他们按下红色按钮并按住 5 秒钟,然后等待 5 分钟再测试连接。 -- 如果型号为 MTD-327S,建议他们拔下插头并重新插入,然后等待 5 分钟再测试连接。 - 如果重新启动设备并等待 5 分钟后客户的问题仍然存在,请通过输出 {“请求的 IT 支持”} 将其连接到 IT 支持。 - 如果用户开始提出与此主题无关的问题,请确认他们是否要结束有关故障排除的当前聊天,并根据以下方案对其请求进行分类: <在此处插入上面的一级/二级分类方案>
用户
我需要让我的互联网再次工作。
在操场上开放

请注意,已指示模型发出特殊字符串以指示会话状态何时更改。这使我们能够将系统变成状态机,状态决定注入哪些指令。通过跟踪状态,哪些指令在该状态相关,以及可以选择允许从该状态转换哪些状态,我们可以围绕用户体验设置护栏,而使用结构化程度较低的方法很难实现。

策略:对于需要很长对话的对话应用程序,总结或过滤以前的对话

由于 GPT 具有固定的上下文长度,因此用户和助理之间的对话(整个对话都包含在上下文窗口中)不能无限期地继续下去。

此问题有多种解决方法,其中之一是总结对话中的先前轮次。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,该查询汇总了部分会话,并且先前会话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话中在后台异步总结先前的对话。

另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。

策略:分段总结长文档,递归构建完整摘要

由于 GPT 具有固定的上下文长度,因此它们不能用于汇总长度超过上下文长度减去单个查询中生成的摘要长度的文本。

要总结一个很长的文档,例如一本书,我们可以使用一系列查询来总结文档的每个部分。部分摘要可以连接和汇总,生成摘要的摘要。此过程可以递归进行,直到汇总整个文档。如果有必要使用有关前面部分的信息来理解后面的部分,那么另一个有用的技巧是在总结该点的内容时,包括书中任何给定点之前的文本的运行摘要。OpenAI 使用 GPT-3 的变体在之前的研究中研究了这种总结书籍的程序的有效性。

策略:给 GPT 时间“思考”

策略:指示模型在匆忙得出结论之前制定自己的解决方案

有时,当我们明确指示模型在得出结论之前从第一原理推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题的最明显方法是简单地询问模型学生的解决方案是否正确。

系统
确定学生的解决方案是否正确。
用户
问题陈述:我正在建造一个太阳能装置,我需要帮助解决财务状况。 - 土地成本$ 100 /平方英尺 - 我可以以$250/平方英尺的价格购买太阳能电池板 - 我谈判了一份维护合同,每年将花费我 100 万美元,每平方英尺额外支付 10 美元 作为平方英尺数的函数,运营第一年的总成本是多少。 学生解决方案:设x为装置的大小(以平方英尺为单位)。 1.土地成本:100倍 2.太阳能电池板成本:250倍 3.维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
助理
学生的解决方案是正确的。
在操场上开放

但学生的解决方案其实是不正确的!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。

系统
首先制定出自己的问题解决方案。然后将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在你自己做题之前,不要决定学生的解决方案是否正确。
用户
问题陈述:我正在建造一个太阳能装置,我需要帮助解决财务状况。 - 土地成本$ 100 /平方英尺 - 我可以以$250/平方英尺的价格购买太阳能电池板 - 我谈判了一份维护合同,每年将花费我 100 万美元,每平方英尺额外支付 10 美元 作为平方英尺数的函数,运营第一年的总成本是多少。 学生解决方案:设x为装置的大小(以平方英尺为单位)。 1.土地成本:100倍 2.太阳能电池板成本:250倍 3.维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
助理
设 x 为安装的大小(以平方英尺为单位)。 1.土地成本:100倍 2.太阳能电池板成本:250倍 3.维护成本:100,000 + 10x 总成本:100x + 250x + 100,000 + 10x = 360x + 100,000 学生的解决方案不正确。他们在维护成本计算中犯了一个错误,使用 100 倍而不是 10 倍。运营第一年的正确总成本为 360x + 100,000。
在操场上开放

策略:使用内心独白或一系列查询来隐藏模型的推理过程

前面的策略表明,模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导申请中,我们可能希望鼓励学生制定自己的答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。

内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将输出中要对用户隐藏的部分放入结构化格式中,以便于解析它们。然后,在向用户呈现输出之前,将解析输出,并且仅使部分输出可见。

系统
请按照以下步骤回答用户查询。 步骤1 - 首先制定自己的问题解决方案。不要依赖学生的解决方案,因为它可能是不正确的。将此步骤的所有工作括在三引号 (“”“) 内。 第 2 步 - 将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。将此步骤的所有工作括在三引号 (“”“) 内。 第 3 步 - 如果学生犯了错误,请确定您可以在不泄露答案的情况下给学生什么提示。将此步骤的所有工作括在三引号 (“”“) 内。 第 4 步 - 如果学生犯了错误,请向学生提供上一步的提示(三引号之外)。而不是写“步骤 4 - ...”写“提示:”。
用户
问题陈述:<插入问题陈述> 学生解决方案:<插入学生解决方案>
在操场上开放

或者,这可以通过一系列查询来实现,其中除最后一个查询外的所有查询都对最终用户隐藏其输出。

首先,我们可以要求模型自己解决问题。由于此初始查询不需要学生的解决方案,因此可以省略。这提供了额外的优势,即模型的解决方案不会因学生尝试的解决方案而产生偏差。

用户
<插入问题陈述>
在操场上开放

接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。

系统
将您的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。
用户
问题陈述:“”“<插入问题陈述>”“” 您的解决方案:“”“<插入模型生成的解决方案>”“” 学生的解决方案:“”“<插入学生的解决方案>”“”
在操场上开放

最后,我们可以让模型使用自己的分析来构建一个有用的导师的角色。

系统
你是一名数学导师。如果学生犯了错误,请以不透露答案的方式向学生提供提示。如果学生没有犯错误,只需给他们一个鼓励的评论。
用户
问题陈述:“”“<插入问题陈述>”“” 您的解决方案:“”“<插入模型生成的解决方案>”“” 学生的解决方案:“”“<插入学生的解决方案>”“” 分析:“”“<插入上一步生成的分析>”“”
在操场上开放

策略:询问模型在之前的传递中是否遗漏了任何内容

假设我们正在使用一个模型来列出与特定问题相关的来源摘录。列出每个摘录后,模型需要确定是应该开始编写另一个摘录还是应该停止。如果源文档很大,则模型通常会过早停止并且无法列出所有相关摘录。在这种情况下,通常可以通过使用后续查询提示模型来查找它在以前的传递中遗漏的任何摘录,从而获得更好的性能。

系统
您将获得一份由三引号分隔的文件。你的任务是选择与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。 确保摘录包含解释它们所需的所有相关上下文 - 换句话说,不要提取缺少重要上下文的小片段。以 JSON 格式提供输出,如下所示: [{“摘录”: “...”}, ... {“摘录”: “...”}]
用户
“”“<在此处插入文档>”“”
助理
[{“摘录”: “模型在这里写了一个摘录”}, ... {“摘录”: “模型在这里写了另一个摘录”}]
用户
还有更多相关的摘录吗?注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文 - 换句话说,不要提取缺少重要上下文的小片段。
在操场上开放

策略:使用外部工具

策略:使用基于嵌入的搜索来实现高效的知识检索

如果模型作为其输入的一部分提供,则可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,则在模型的输入中添加有关电影的高质量信息(例如演员、导演等)可能很有用。嵌入可用于实现高效的知识检索,以便可以在运行时将相关信息动态添加到模型输入中。

文本嵌入是可以测量文本字符串之间相关性的向量。相似或相关的字符串将比不相关的字符串更紧密地结合在一起。这一事实,加上快速矢量搜索算法的存在,意味着嵌入可用于实现有效的知识检索。特别是,文本语料库可以拆分为块,并且每个块都可以嵌入和存储。然后可以嵌入给定的查询并执行矢量搜索,以从语料库中查找与查询最相关的嵌入文本块(即在嵌入空间中最接近)。

示例实现可以在 OpenAI 说明书中找到。有关如何使用知识检索来最大程度地减少模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。

策略:使用代码执行来执行更准确的计算或调用外部 API

不能依靠 GPT 自行准确地执行算术或长计算。如果需要,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定的格式,例如三重背流。生成输出后,可以提取并运行代码。最后,如有必要,代码执行引擎(即 Python 解释器)的输出可以作为下一个查询的模型输入提供。

系统
你可以通过将 Python 代码括在三重反引号中来编写和执行它,例如“代码转到此处”。使用它来执行计算。
用户
查找以下多项式的所有实值根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。
在操场上开放

代码执行的另一个很好的用例是调用外部 API。如果指示模型正确使用 API,它可以编写使用它的代码。可以通过向模型提供演示如何使用 API 的文档和/或代码示例来指导模型如何使用 API。

系统
您可以通过将 Python 代码括在三重反引号中来编写和执行它。另请注意,您可以访问以下模块来帮助用户向其朋友发送消息: '''蟒蛇 导入消息 message.write(to=“John”, message=“嘿,想下班后见面吗?”)```
在操场上开放

警告:执行模型生成的代码本质上并不安全,在任何试图执行此操作的应用程序中都应采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。

策略:授予模型访问特定函数的权限

聊天完成 API 允许在请求中传递函数说明列表。这使模型能够根据提供的架构生成函数参数。生成的函数参数由 API 以 JSON 格式返回,可用于执行函数调用。然后,函数调用提供的输出可以在以下请求中反馈到模型中以关闭循环。这是使用 GPT 模型调用外部函数的推荐方法。要了解更多信息,请参阅我们的 GPT 入门指南中的函数调用部分以及 OpenAI 说明书中的更多函数调用示例

策略:系统地测试更改

有时很难判断更改(例如,新指令或新设计)是否会使您的系统变得更好或更差。查看一些示例可能会暗示哪个更好,但是对于较小的样本量,可能很难区分真正的改善或随机运气。也许这种变化有助于某些输入的性能,但会损害其他输入的性能。

评估程序(或“评估”)对于优化系统设计非常有用。好的评估是:

要检测的差异95% 置信度所需的样本量
30%~10
10%~100
3%~1,000
1%~10,000

输出的评估可以由计算机、人类或混合完成。计算机可以使用客观标准(例如,具有单个正确答案的问题)以及一些主观或模糊标准(其中模型输出由其他模型查询进行评估)来自动评估。OpenAI Evals 是一个开源软件框架,提供用于创建自动化 evals 的工具。

当存在一系列被认为质量同样高的可能输出时(例如,对于具有长答案的问题),基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人类评估的内容之间的界限是模糊的,并且随着模型变得更加强大而不断变化。我们鼓励进行实验,以确定基于模型的评估对您的用例的适用程度。

策略:参考黄金标准答案评估模型输出

假设已知问题的正确答案应参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含多少必需的事实。

例如,使用以下系统消息:

系统
您将获得由三引号分隔的文本,这些文本应该是问题的答案。检查答案中是否直接包含以下信息: - 尼尔·阿姆斯特朗是第一个在月球上行走的人。 尼尔·阿姆斯特朗第一次登上月球的日期是21年1969月1日。 对于其中每个点,请执行以下步骤: 2 - 重申要点。 3 - 提供最接近这一点的答案的引用。 4 - 考虑一下阅读引文但不知道该主题的人是否可以直接推断出这一点。在下定决心之前解释为什么或为什么不。 3 - 如果 <> 的答案是“是”,则写“是”,否则写“否”。 最后,提供有多少个“是”答案。将此计数提供为 {“count”:<在此处插入计数>}。

下面是满足两点的示例输入:

系统
<插入上面的系统消息>
用户
“”尼尔·阿姆斯特朗以第一个踏上月球的人类而闻名。这一历史性事件发生在21年1969月11日,在阿波罗<>号任务期间。
在操场上开放

下面是一个仅满足一个点的示例输入:

系统
<插入上面的系统消息>
用户
“”尼尔·阿姆斯特朗走下登月舱创造了历史,成为第一个在月球上行走的人。
在操场上开放

下面是一个不满足的示例输入:

系统
<插入上面的系统消息>
用户
“”“69年夏天,一次盛大的航行, 阿波罗11号,大胆如传奇之手。 阿姆斯特朗迈出了一步,历史展开了, “一小步,”他说,为了一个新世界。
在操场上开放

这种类型的基于模型的评估有许多可能的变体。考虑以下变体,它跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选人答案是否与黄金标准答案的任何部分相矛盾。

系统
使用以下步骤响应用户输入。在继续之前,请完全重述每个步骤。即“第 1 步:原因...”。 第 1 步:逐步推理提交的答案中的信息与专家答案相比是:不相交、相等、子集、超集还是重叠(即某些交集但不是子集/超集)。 第 2 步:逐步推理提交的答案是否与专家答案的任何方面相矛盾。 第 3 步:输出一个 JSON 对象,结构如下:{“type_of_overlap”:“不相交”或“相等”或“子集”或“超集”或“重叠”,“矛盾”:真或假}

下面是一个示例输入,其中包含不合标准的答案,但与专家答案并不矛盾:

系统
<插入上面的系统消息>
用户
问题:“”“尼尔·阿姆斯特朗最出名的事件是什么,发生在哪一天?假定 UTC 时间。 提交的答案:“”“他不是在月球上行走吗?”“” 专家回答:“”尼尔·阿姆斯特朗最著名的是第一个在月球上行走的人。这一历史性事件发生在21年1969月<>日。
在操场上开放

下面是一个示例输入,其答案与专家答案直接矛盾:

系统
<插入上面的系统消息>
用户
问题:“”“尼尔·阿姆斯特朗最出名的事件是什么,发生在哪一天?假定 UTC 时间。 提交的答案:“”“21年1969月21日,尼尔·阿姆斯特朗成为继巴兹·奥尔德林之后第二个在月球上行走的人。 专家回答:“”尼尔·阿姆斯特朗最著名的是第一个在月球上行走的人。这一历史性事件发生在1969年<>月<>日。
在操场上开放

下面是一个带有正确答案的示例输入,该输入还提供了比必要内容更多的详细信息:

系统
<插入上面的系统消息>
用户
问题:“”“尼尔·阿姆斯特朗最出名的事件是什么,发生在哪一天?假定 UTC 时间。 提交的答案:“”“02年56月21日1969:21 UTC左右,尼尔·阿姆斯特朗成为第一个踏上月球表面的人,标志着人类历史上的一项不朽成就。 专家回答:“”尼尔·阿姆斯特朗最著名的是第一个在月球上行走的人。这一历史性事件发生在1969年<>月<>日。
在操场上开放


  1. 上一篇:centos安装DOCKER
  2. 下一篇:centos7防火墙、ssh端口修改相关命令
发表评论