两篇关于大模型 (LLMs) prompt 的论文
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
The following is generated by AI
这篇论文对大型语言模型(LLMs)中的提示工程技术进行了系统性的调查,并按照应用领域对这些技术进行了分类和概述。论文的主要观点可以总结为以下几点:
-
提示工程技术的重要性:
- 提示工程作为一种无需修改模型参数即可提升模型性能的技术,在扩展LLMs和视觉语言模型(VLMs)能力方面发挥着不可或缺的作用。
- 通过精心设计的任务特定指令(提示),提示工程能够引导模型行为,使其在无需重新训练或进行大量微调的情况下,在各种任务和领域中表现出色。
- 提示工程技术改变了传统的模型训练方式,推动了人工智能的发展,并开启了无限的可能性。
-
提示工程技术的发展:
- 论文详细介绍了从零样本提示、少样本提示到“思维链”提示等最新的提示工程技术,并对其应用领域、模型和数据进行了解析。
- 论文分析了每种技术的优缺点,并探讨了其相对效能。
- 论文还揭示了一个全面的分类图,展示了这些技术在LLM能力范围内的应用情况。
-
提示工程技术的应用:
- 无需大量训练的新任务: 零样本提示和少样本提示等技术在处理新任务时无需大量训练数据,具有很高的灵活性。
- 推理和逻辑: “思维链”提示、自动思维链提示、自洽性、逻辑思维链提示等技术能够提升LLMs在复杂推理任务中的表现。
- 减少幻觉: 检索增强生成(RAG)、ReAct提示、思维链验证提示等技术能够减少LLMs在生成文本时的幻觉和错误。
- 用户界面: 主动提示技术能够提升LLMs在复杂问答任务中的表现。
- 微调和优化: 自动提示工程师(APE)能够自动生成和选择最佳的提示,提升LLMs的性能。
- 基于知识的推理和生成: 自动推理和工具使用(ART)技术能够使LLMs进行多步推理并整合外部工具的知识。
- 提高一致性和连贯性: 对比思维链提示(CCoT)技术能够通过学习错误来提升LLMs的推理能力。
- 管理情绪和语调: 情感提示技术能够增强LLMs对情绪线索的理解和处理能力。
- 代码生成和执行: 程序思维提示(PoT)、结构化思维链提示(SCoT)、代码链提示(CoC)等技术能够提升LLMs在代码生成任务中的表现。
- 优化和效率: 优化提示(OPRO)技术能够利用LLMs进行优化任务。
- 理解用户意图: 重述和响应(RaR)提示技术能够提升LLMs对用户意图的理解。
- 元认知和自我反思: 退一步提示技术能够提升LLMs在复杂推理任务中的表现。
-
提示工程技术的未来:
- 论文指出,尽管提示工程技术取得了显著的成功,但仍面临着一些挑战,例如偏见、事实不准确和可解释性不足等。
- 论文认为,未来提示工程技术的方向包括元学习和混合提示架构等,这些技术有望进一步提升LLMs的能力。
- 论文强调了在发展提示工程技术时需要考虑伦理问题,确保其以负责任的方式应用于我们的生活。
Large Language Models are Zero-Shot Reasoners
The following is generated by AI
这篇论文的主要观点是,大型语言模型(LLMs)即使在没有微调或提供示例的情况下,也能在需要复杂推理的任务中表现出色。论文的核心发现是,通过添加一个简单的提示“让我们一步步思考”,LLMs 就能生成合理的推理路径并得出正确答案。
-
论文证据和分析
- 链式思维提示(CoT)的局限性:
- 论文指出,尽管 CoT 提示在需要多步推理的任务中取得了显著的性能提升,但它依赖于人工设计的示例,并且对每个任务需要进行特定的提示设计。这使得 CoT 提示的通用性和效率受限。
- 零样本链式思维(Zero-shot-CoT)的优势:
- 论文提出了 Zero-shot-CoT,它通过添加“让我们一步步思考”提示来引导 LLM 进行推理。与 CoT 提示相比,Zero-shot-CoT 具有以下优势:
- 通用性: Zero-shot-CoT 可以应用于各种推理任务,包括算术、符号推理、常识推理和其他逻辑推理任务,而无需为每个任务修改提示。
- 效率: Zero-shot-CoT 无需人工设计示例,因此更高效且可扩展。
- 鲁棒性: 论文通过实验表明,Zero-shot-CoT 对不同的提示模板和示例类型具有鲁棒性。
- 实验结果:
- 论文在多个推理任务上评估了 Zero-shot-CoT,并与标准零样本提示、少样本提示和 CoT 提示进行了比较。主要发现如下:
- Zero-shot-CoT 在算术推理任务(如 MultiArith 和 GSM8K)上取得了显著的性能提升,将准确率从 17.7% 提高到 78.7% 和 10.4% 提高到 40.7%。
- Zero-shot-CoT 在符号推理任务和逻辑推理任务上也取得了显著的性能提升。
- Zero-shot-CoT 在常识推理任务上的性能提升不如算术和逻辑推理任务,但生成的推理路径仍然具有逻辑性和合理性。
- Zero-shot-CoT 的性能随着模型规模的增加而提高,这表明 LLM 的推理能力随着模型复杂度的增加而增强。
- 论文在多个推理任务上评估了 Zero-shot-CoT,并与标准零样本提示、少样本提示和 CoT 提示进行了比较。主要发现如下:
- 错误分析:
- 论文对 Zero-shot-CoT 生成的推理路径进行了错误分析,发现其主要错误类型包括:
- 不必要的推理步骤: 在得到正确预测后,Zero-shot-CoT 有时会继续进行不必要的推理步骤,导致最终预测错误。
- 未开始推理: Zero-shot-CoT 有时只是重述输入问题,而没有进行推理。
- 符号映射错误和计算错误: 这些错误通常是由于 LLM 的计算能力有限导致的。
- 论文对 Zero-shot-CoT 生成的推理路径进行了错误分析,发现其主要错误类型包括:
- 提示选择的影响:
- 论文研究了不同提示模板对 Zero-shot-CoT 性能的影响,发现鼓励推理的提示模板可以显著提高性能,而误导或不相关的提示模板则会导致性能下降。
- 与其他工作的比较:
- 论文将 Zero-shot-CoT 与其他推理研究进行了比较,例如基于微调和少样本提示的研究。结果表明,Zero-shot-CoT 在不需要微调和人工设计示例的情况下,就能取得显著的推理性能提升。
- 链式思维提示(CoT)的局限性:
-
论文结论
- 这篇论文表明,LLMs 具有强大的零样本推理能力,并且可以通过简单的提示来激发这种能力。
- Zero-shot-CoT 是一种简单而有效的零样本提示方法,可以应用于各种推理任务,并显著提高 LLM 的推理性能。这项研究为进一步探索 LLM 的零样本能力提供了新的思路,并为开发更通用的语言模型奠定了基础。