本指南分享了从 GPT 中获得更好结果的策略和战术。此处描述的方法有时可以组合部署以获得更大的效果。我们鼓励进行实验,以找到最适合您的方法。
此处演示的一些示例目前仅适用于我们功能最强大的模型 .如果您还没有权限,请考虑加入候补名单。通常,如果您发现 GPT 模型在任务中失败,并且有功能更强大的模型可用,则通常值得使用功能更强大的模型再次尝试。gpt-4
gpt-4
GPT 无法读懂你的心思。如果输出太长,请要求简短回复。如果输出太简单,请要求专家级写作。如果您不喜欢该格式,请演示您希望看到的格式。GPT 对您想要的内容猜测得越少,您获得它的可能性就越大。
策略:
GPT 可以自信地发明虚假答案,尤其是在被问及深奥主题或引文和 URL 时。就像一张笔记可以帮助学生在考试中做得更好一样,向 GPT 提供参考文本可以帮助以更少的捏造来回答。
策略:
正如软件工程中的良好做法是将复杂系统分解为一组模块化组件一样,提交给 GPT 的任务也是如此。 复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以重新定义为简单任务的工作流,其中早期任务的输出用于构造后续任务的输入。
策略:
如果被要求将 17 乘以 28,您可能不会立即知道,但仍然可以随着时间的推移计算出来。同样,GPT 在尝试立即回答时会犯更多的推理错误,而不是花时间找出答案。在回答之前要求一系列推理可以帮助 GPT 更可靠地推理正确答案。
策略:
通过向 GPT 提供其他工具的输出来弥补它们的弱点。例如,文本检索系统可以告诉 GPT 相关文档。代码执行引擎可以帮助 GPT 进行数学运算和运行代码。如果一项任务可以通过工具而不是 GPT 更可靠或更高效地完成,请卸载它以充分利用两者。
策略:
如果可以衡量性能,则提高性能会更容易。在某些情况下,对提示的修改将在几个孤立的示例中实现更好的性能,但在更具代表性的一组示例上会导致整体性能变差。因此,为了确保更改对性能是净积极的,可能需要定义一个全面的测试套件(也称为“eval”)。
策略:
上面列出的每个策略都可以使用特定的策略实例化。这些策略旨在为尝试的事情提供想法。它们绝不是完全全面的,您应该随意尝试此处未代表的创意。
为了获得高度相关的响应,请确保请求提供任何重要的详细信息或上下文。否则,您将由模型来猜测您的意思。
更 糟 | 更好 |
如何在 Excel 中添加数字? | 如何在Excel中将一行美元金额相加?我想自动为整张行执行此操作,所有总计最终位于名为“总计”的列的右侧。 |
谁是总统? | 谁是 2021 年的墨西哥总统,选举多久举行一次? |
编写代码以计算斐波那契数列。 | 编写一个 TypeScript 函数来有效地计算斐波那契数列。自由地注释代码,以解释每个部分的作用以及为什么以这种方式编写。 |
总结会议记录。 | 在一个段落中总结会议记录。然后写下演讲者及其每个关键点的降价列表。最后,列出发言者建议的后续步骤或行动项目(如果有)。 |
系统消息可用于指定模型在其回复中使用的角色。
分隔符,如三引号、XML 标记、节标题等。可以帮助划分要区别对待的文本部分。
对于此类简单的任务,使用分隔符可能不会对输出质量产生影响。但是,任务越复杂,消除任务详细信息的歧义就越重要。不要让 GPT 来准确理解您对他们的要求。
某些任务最好指定为一系列步骤。显式写出步骤可以使模型更容易遵循这些步骤。
提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效,但在某些情况下,提供示例可能更容易。例如,如果您打算让模型复制难以明确描述的用户查询的特定样式。这称为“少数镜头”提示。
您可以要求模型生成具有给定目标长度的输出。可以根据字数、句子、段落、项目符号等的数量来指定目标输出长度。但请注意,指示模型生成特定数量的单词并不能实现高精度。该模型可以更可靠地生成具有特定数量的段落或项目符号的输出。
如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来撰写其答案。
鉴于 GPT 的上下文窗口有限,为了应用这种策略,我们需要某种方法来动态查找与所问问题相关的信息。嵌入可用于实现高效的知识检索。有关如何实现此策略的更多详细信息,请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。
如果输入已补充相关知识,则可以直接请求模型通过引用所提供文档中的段落来为其答案添加引用。请注意,然后可以通过提供文档中的字符串匹配以编程方式验证输出中的引文。
对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。此过程也可以递归应用,以将任务分解为一系列阶段。这种方法的优点是,每个查询将仅包含执行任务的下一阶段所需的那些指令,与使用单个查询执行整个任务相比,这可以降低错误率。这还可以降低成本,因为较大的提示运行成本更高(请参阅定价信息)。
例如,假设对于客户服务应用程序,查询可以有效地分类如下:
根据客户查询的分类,可以向 GPT 模型提供一组更具体的指令来处理后续步骤。例如,假设客户需要“故障排除”方面的帮助。
请注意,已指示模型发出特殊字符串以指示会话状态何时更改。这使我们能够将系统变成状态机,状态决定注入哪些指令。通过跟踪状态,哪些指令在该状态相关,以及可以选择允许从该状态转换哪些状态,我们可以围绕用户体验设置护栏,而使用结构化程度较低的方法很难实现。
由于 GPT 具有固定的上下文长度,因此用户和助理之间的对话(整个对话都包含在上下文窗口中)不能无限期地继续下去。
此问题有多种解决方法,其中之一是总结对话中的先前轮次。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,该查询汇总了部分会话,并且先前会话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话中在后台异步总结先前的对话。
另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。
由于 GPT 具有固定的上下文长度,因此它们不能用于汇总长度超过上下文长度减去单个查询中生成的摘要长度的文本。
要总结一个很长的文档,例如一本书,我们可以使用一系列查询来总结文档的每个部分。部分摘要可以连接和汇总,生成摘要的摘要。此过程可以递归进行,直到汇总整个文档。如果有必要使用有关前面部分的信息来理解后面的部分,那么另一个有用的技巧是在总结该点的内容时,包括书中任何给定点之前的文本的运行摘要。OpenAI 使用 GPT-3 的变体在之前的研究中研究了这种总结书籍的程序的有效性。
有时,当我们明确指示模型在得出结论之前从第一原理推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题的最明显方法是简单地询问模型学生的解决方案是否正确。
但学生的解决方案其实是不正确的!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。
前面的策略表明,模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导申请中,我们可能希望鼓励学生制定自己的答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。
内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将输出中要对用户隐藏的部分放入结构化格式中,以便于解析它们。然后,在向用户呈现输出之前,将解析输出,并且仅使部分输出可见。
或者,这可以通过一系列查询来实现,其中除最后一个查询外的所有查询都对最终用户隐藏其输出。
首先,我们可以要求模型自己解决问题。由于此初始查询不需要学生的解决方案,因此可以省略。这提供了额外的优势,即模型的解决方案不会因学生尝试的解决方案而产生偏差。
接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。
最后,我们可以让模型使用自己的分析来构建一个有用的导师的角色。
假设我们正在使用一个模型来列出与特定问题相关的来源摘录。列出每个摘录后,模型需要确定是应该开始编写另一个摘录还是应该停止。如果源文档很大,则模型通常会过早停止并且无法列出所有相关摘录。在这种情况下,通常可以通过使用后续查询提示模型来查找它在以前的传递中遗漏的任何摘录,从而获得更好的性能。
如果模型作为其输入的一部分提供,则可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,则在模型的输入中添加有关电影的高质量信息(例如演员、导演等)可能很有用。嵌入可用于实现高效的知识检索,以便可以在运行时将相关信息动态添加到模型输入中。
文本嵌入是可以测量文本字符串之间相关性的向量。相似或相关的字符串将比不相关的字符串更紧密地结合在一起。这一事实,加上快速矢量搜索算法的存在,意味着嵌入可用于实现有效的知识检索。特别是,文本语料库可以拆分为块,并且每个块都可以嵌入和存储。然后可以嵌入给定的查询并执行矢量搜索,以从语料库中查找与查询最相关的嵌入文本块(即在嵌入空间中最接近)。
示例实现可以在 OpenAI 说明书中找到。有关如何使用知识检索来最大程度地减少模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。
不能依靠 GPT 自行准确地执行算术或长计算。如果需要,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定的格式,例如三重背流。生成输出后,可以提取并运行代码。最后,如有必要,代码执行引擎(即 Python 解释器)的输出可以作为下一个查询的模型输入提供。
代码执行的另一个很好的用例是调用外部 API。如果指示模型正确使用 API,它可以编写使用它的代码。可以通过向模型提供演示如何使用 API 的文档和/或代码示例来指导模型如何使用 API。
警告:执行模型生成的代码本质上并不安全,在任何试图执行此操作的应用程序中都应采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。
聊天完成 API 允许在请求中传递函数说明列表。这使模型能够根据提供的架构生成函数参数。生成的函数参数由 API 以 JSON 格式返回,可用于执行函数调用。然后,函数调用提供的输出可以在以下请求中反馈到模型中以关闭循环。这是使用 GPT 模型调用外部函数的推荐方法。要了解更多信息,请参阅我们的 GPT 入门指南中的函数调用部分以及 OpenAI 说明书中的更多函数调用示例。
有时很难判断更改(例如,新指令或新设计)是否会使您的系统变得更好或更差。查看一些示例可能会暗示哪个更好,但是对于较小的样本量,可能很难区分真正的改善或随机运气。也许这种变化有助于某些输入的性能,但会损害其他输入的性能。
评估程序(或“评估”)对于优化系统设计非常有用。好的评估是:
代表现实世界的用法(或至少是多种用法)
包含许多测试用例以获得更大的统计功效(有关指南,请参见下表)
易于自动化或重复
要检测的差异 | 95% 置信度所需的样本量 |
---|---|
30% | ~10 |
10% | ~100 |
3% | ~1,000 |
1% | ~10,000 |
输出的评估可以由计算机、人类或混合完成。计算机可以使用客观标准(例如,具有单个正确答案的问题)以及一些主观或模糊标准(其中模型输出由其他模型查询进行评估)来自动评估。OpenAI Evals 是一个开源软件框架,提供用于创建自动化 evals 的工具。
当存在一系列被认为质量同样高的可能输出时(例如,对于具有长答案的问题),基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人类评估的内容之间的界限是模糊的,并且随着模型变得更加强大而不断变化。我们鼓励进行实验,以确定基于模型的评估对您的用例的适用程度。
假设已知问题的正确答案应参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含多少必需的事实。
例如,使用以下系统消息:
下面是满足两点的示例输入:
下面是一个仅满足一个点的示例输入:
下面是一个不满足的示例输入:
这种类型的基于模型的评估有许多可能的变体。考虑以下变体,它跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选人答案是否与黄金标准答案的任何部分相矛盾。
下面是一个示例输入,其中包含不合标准的答案,但与专家答案并不矛盾:
下面是一个示例输入,其答案与专家答案直接矛盾:
下面是一个带有正确答案的示例输入,该输入还提供了比必要内容更多的详细信息: