ChatGPT

什么是大语言模型幻觉

众所周知，大型语言模型（LLM）有“幻觉”。这是一种行为，因为模型说出错误的知识，就好像它是准确的一样。在这篇文章中，您将了解为什么幻觉

ygtu

Jun 25, 2023 • 5 min read

在线工具推荐：三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务

什么是大语言模型幻觉

众所周知，大型语言模型（LLM）有“幻觉”。这是一种行为，因为模型说出错误的知识，就好像它是准确的一样。在这篇文章中，您将了解为什么幻觉是法学硕士的本质。具体来说，您将学习：

为什么法学硕士会出现幻觉
如何让幻觉为你工作
如何减轻幻觉

让我们开始吧。

大语言模型中
幻觉的温和介绍作者使用稳定扩散生成的图片。保留部分权利。

概述

这篇文章分为三个部分;他们是

什么是大语言模型中的幻觉
使用幻觉
减轻幻觉

什么是大语言模型中的幻觉

大型语言模型是一种经过训练的机器学习模型，可根据提供的提示生成文本。模型的训练为其配备了从我们提供的训练数据中获得的一些知识。很难说一个模型记住了什么知识，或者没有记住什么知识。事实上，当模型生成文本时，它无法判断生成是否准确。

在LLM的上下文中，“幻觉”是指模型生成不正确，无意义或不真实的文本的现象。由于LLM不是数据库或搜索引擎，他们不会引用他们的回应基于哪里。这些模型根据您提供的提示生成文本作为外推。外推的结果不一定得到任何训练数据的支持，但与提示最相关。

要理解幻觉，您可以从一些文本中构建一个双字母双字母的马尔可夫模型：提取一长段文本，构建每对相邻字母的表格并计算计数。例如，“大语言模型中的幻觉”会产生“HA”、“AL”、“LL”、“LU”等。还有一项“LU”和两项“LA”计数。现在，如果您从提示符“L”开始，则产生“LA”的可能性是“LL”或“LS”的两倍。然后，在提示“LA”的情况下，您生成“AL”、“AT”、“AR”或“AN”的概率相等。然后，您可以尝试使用“LAT”提示并继续此过程。最终，这个模型发明了一个不存在的新词。这是统计模式的结果。你可能会说你的马尔可夫模型出现了拼写幻觉。

LLM中的幻觉并不比这复杂得多，即使模型要复杂得多。从高层次来看，幻觉是由有限的上下文理解引起的，因为模型有义务将提示和训练数据转换为抽象，其中某些信息可能会丢失。此外，训练数据中的噪声也可能提供偏斜的统计模式，导致模型以您意想不到的方式做出响应。

使用幻觉

您可能会认为幻觉是大型语言模型中的一个特征。如果你想让他们有创造力，你就希望看到模特产生幻觉。例如，如果您要求 ChatGPT 或其他大型语言模型为您提供一个幻想故事的情节，您希望它不是从任何现有故事复制，而是生成新的角色、场景和故事情节。仅当模型未查找训练它们的数据时，才有可能这样做。

你可能想要幻觉的另一个原因是在寻找多样性时，例如，询问想法。这就像让模特为你集思广益。您希望从训练数据中可能找到的现有想法派生，但不完全相同。幻觉可以帮助你探索不同的可能性。

许多语言模型都有一个“温度”参数。您可以使用 API 而不是 Web 界面来控制 ChatGPT 中的温度。这是随机性的参数。较高的温度会引入更多的幻觉。

减轻幻觉

语言模型不是搜索引擎或数据库。幻觉是不可避免的。令人讨厌的是，模型生成的文本包含难以发现的错误。

如果受污染的训练数据导致了幻觉，则可以清理数据并重新训练模型。但是，大多数模型太大，无法在自己的设备上进行训练。在商用硬件上，甚至微调现有模型也是不可能的。最好的缓解措施可能是人为干预结果，并要求模型在严重错误时重新生成。

避免幻觉的另一种解决方案是控制生成。这意味着在对模型的提示中提供足够的详细信息和约束。因此，该模型产生幻觉的自由有限。提示工程的原因是指定模型的角色和场景来指导生成，使其不会无限产生幻觉。

总结

在这篇文章中，你了解了LLM是如何产生幻觉的。特别

为什么幻觉会有用
如何限制幻觉

值得注意的是，虽然幻觉可以减轻，但可能不会完全消除。在创造力和准确性之间有一个权衡。

由3D建模学习工作室翻译整理，转载请注明出处！