什么是大型语言模型
大型语言模型(LLM)是深度学习模型在人类语言上的最新进展。LLM的一些很好的用例已经得到证明。大型语言模型是一种经过训练的深度学习模型,它以类似人类的方式理解和生成文本。在幕后,它是一个大型变压器模型,可以完成所有魔术。
推荐:将NSDT场景编辑器加入你的3D工具链
3D工具集:NSDT简石数字孪生
什么是大型语言模型
大型语言模型(LLM)是深度学习模型在人类语言上的最新进展。LLM的一些很好的用例已经得到证明。大型语言模型是一种经过训练的深度学习模型,它以类似人类的方式理解和生成文本。在幕后,它是一个大型变压器模型,可以完成所有魔术。
在这篇文章中,您将了解大型语言模型的结构及其工作原理。特别是,您将知道:
- 什么是变压器型号
- 转换器模型如何读取文本并生成输出
- 大型语言模型如何以类似人类的方式生成文本。
什么是大型语言模型。
作者使用稳定扩散生成的图片。保留部分权利。
让我们开始吧。
概述
这篇文章分为三个部分;它们是:
- 从转换器模型到大型语言模型
- 为什么变压器可以预测文本?
- 如何构建大型语言模型?
从转换器模型到大型语言模型
作为人类,我们将文本视为单词的集合。句子是单词的序列。文档是章节、节和段落的序列。但是,对于计算机,文本只是字符序列。为了使机器能够理解文本,可以构建基于递归神经网络的模型。此模型一次处理一个单词或字符,并在使用整个输入文本后提供输出。这个模型工作得很好,除了当到达结尾时,它有时会“忘记”序列开头发生的事情。
2017年,Vaswani等人发表了一篇论文“注意力是你所需要的一切”,以建立一个变压器模型。它基于注意力机制。与递归神经网络相反,注意力机制允许您一次看到整个句子(甚至段落),而不是一次看到一个单词。这使转换器模型能够更好地理解单词的上下文。许多最先进的语言处理模型都基于转换器。
若要使用转换器模型处理文本输入,首先需要将其标记化为单词序列。然后将这些标记编码为数字并转换为嵌入,嵌入是保留其含义的标记的向量空间表示。接下来,转换器中的编码器将所有令牌的嵌入转换为上下文向量。
下面是文本字符串、其标记化和向量嵌入的示例。注意,标记化可以是子词,例如文本中的单词“nosegay”被标记为“nose”和“gay”。
1 | As she said this, she looked down at her hands, and was surprised to find that she had put on one of the rabbit's little gloves while she was talking. "How can I have done that?" thought she, "I must be growing small again." She got up and went to the table to measure herself by it, and found that, as nearly as she could guess, she was now about two feet high, and was going on shrinking rapidly: soon she found out that the reason of it was the nosegay she held in her hand: she dropped it hastily, just in time to save herself from shrinking away altogether, and found that she was now only three inches high. |
1 | ['As', ' she', ' said', ' this', ',', ' she', ' looked', ' down', ' at', ' her', ' hands', ',', ' and', ' was', ' surprised', ' to', ' find', ' that', ' she', ' had', ' put', ' on', ' one', ' of', ' the', ' rabbit', "'s", ' little', ' gloves', ' while', ' she', ' was', ' talking', '.', ' "', 'How', ' can', ' I', ' have', ' done', ' that', '?"', ' thought', ' she', ',', ' "', 'I', ' must', ' be', ' growing', ' small', ' again', '."', ' She', ' got', ' up', ' and', ' went', ' to', ' the', ' table', ' to', ' measure', ' herself', ' by', ' it', ',', ' and', ' found', ' that', ',', ' as', ' nearly', ' as', ' she', ' could', ' guess', ',', ' she', ' was', ' now', ' about', ' two', ' feet', ' high', ',', ' and', ' was', ' going', ' on', ' shrinking', ' rapidly', ':', ' soon', ' she', ' found', ' out', ' that', ' the', ' reason', ' of', ' it', ' was', ' the', ' nose', 'gay', ' she', ' held', ' in', ' her', ' hand', ':', ' she', ' dropped', ' it', ' hastily', ',', ' just', ' in', ' time', ' to', ' save', ' herself', ' from', ' shrinking', ' away', ' altogether', ',', ' and', ' found', ' that', ' she', ' was', ' now', ' only', ' three', ' inches', ' high', '.'] |
1 2 3 4 5 | [ 2.49 0.22 -0.36 -1.55 0.22 -2.45 2.65 -1.6 -0.14 2.26 -1.26 -0.61 -0.61 -1.89 -1.87 -0.16 3.34 -2.67 0.42 -1.71 ... 2.91 -0.77 0.13 -0.24 0.63 -0.26 2.47 -1.22 -1.67 1.63 1.13 0.03 -0.68 0.8 1.88 3.05 -0.82 0.09 0.48 0.33] |
上下文向量就像整个输入的本质。使用此向量,转换器解码器根据线索生成输出。例如,您可以提供原始输入作为线索,并让转换器解码器生成自然跟随的后续单词。然后,您可以重复使用相同的解码器,但这次的线索将是之前生成的下一个单词。可以重复此过程以创建整个段落,从前导句开始。
变压器架构
此过程称为自回归生成。这就是大型语言模型的工作方式,除了这样的模型是一个转换器模型,可以接受很长的输入文本,上下文向量很大,因此它可以处理非常复杂的概念,并且其编码器和解码器中有许多层。
为什么变压器可以预测文本?
在他的博客文章“递归神经网络的不合理有效性”中,Andrej Karpathy证明了递归神经网络可以很好地预测文本的下一个单词。不仅因为人类语言中的规则(即语法)限制了句子中不同位置的单词使用,还因为语言存在冗余。
根据克劳德·香农(Claude Shannon)颇具影响力的论文《印刷英语的预测和熵》(Prediction and Entropy of Printed English),尽管英语有2个字母(包括空格),但英语的熵为每个字母1.27位。如果随机使用字母,熵将为4.8位,从而更容易预测人类语言文本中的下一步。机器学习模型,尤其是转换器模型,擅长做出这样的预测。
通过重复此过程,转换器模型可以逐字生成整个段落。但是,转换器模型看到的语法是什么?从本质上讲,语法表示单词如何在语言中使用,将它们分类为词性的各个部分,并要求在句子中具有特定的顺序。尽管如此,列举所有的语法规则还是很有挑战性的。实际上,转换器模型不会显式存储这些规则,而是通过示例隐式获取它们。模型可以学习的不仅仅是语法规则,扩展到这些示例中提出的想法,但转换器模型必须足够大。
如何构建大型语言模型?
大型语言模型是大规模的转换器模型。它是如此之大,以至于通常无法在一台计算机上运行。因此,它自然是通过API或Web界面提供的服务。正如你所料,这样一个大型模型是在能够记住语言的模式和结构之前从大量的文本中学习的。
例如,支持 ChatGPT 服务的 GPT-3 模型是在来自互联网的大量文本数据上进行训练的。这包括书籍、文章、网站和各种其他来源。在训练过程中,模型学习单词、短语和句子之间的统计关系,使其能够在给定提示或查询时生成连贯且上下文相关的响应。
从这些大量的文本中提炼出来,GPT-3 模型因此可以理解多种语言并拥有各种主题的知识。这就是为什么它可以生成不同风格的文本。虽然您可能会惊讶于大型语言模型可以执行翻译、文本摘要和问答,但如果您认为这些是与前导文本(也称为提示)匹配的特殊“语法”,也就不足为奇了。
总结
开发了多种大型语言模型。例子包括OpenAI的GPT-3和GPT-4,Meta的LLaMA和Google的PaLM2。这些是可以理解语言并可以生成文本的模型。在这篇文章中,您了解到:
- 大语言模型基于变压器架构
- 注意力机制允许LLM捕获单词之间的长期依赖关系,因此模型可以理解上下文
- 大型语言模型基于以前生成的标记以自动回归方式生成文本
由3D建模学习工作室 翻译整理,转载请注明出处!