大型语言模型的用途是什么？

大型语言模型识别、汇总、翻译、预测和生成文本和其他形式的内容。

Jun 28, 2023 • 8 min read

推荐：将NSDT场景编辑器加入你的3D工具链

3D工具集：NSDT简石数字孪生

人工智能应用程序正在总结文章、撰写故事和进行长时间的对话——而大型语言模型正在承担繁重的工作。

大型语言模型（LLM）是一种深度学习算法，可以根据从海量数据集中获得的知识来识别，总结，翻译，预测和生成文本和其他形式的内容。

大型语言模型是转换器模型最成功的应用之一。它们不仅用于教授人工智能的人类语言，还用于理解蛋白质、编写软件代码等等。

除了加速自然语言处理应用程序（如翻译、聊天机器人和人工智能助手）之外，大型语言模型还用于医疗保健、软件开发和许多其他领域的用例。

语言不仅仅用于人类交流。

代码是计算机的语言。蛋白质和分子序列是生物学的语言。大型语言模型可以应用于需要不同类型通信的语言或场景。

这些模型扩大了人工智能在行业和企业中的覆盖范围，并有望实现新一波的研究、创造力和生产力，因为它们可以帮助为世界上最棘手的问题生成复杂的解决方案。

例如，使用大型语言模型的人工智能系统可以从分子和蛋白质结构数据库中学习，然后利用这些知识提供可行的化合物，帮助科学家开发突破性的疫苗或治疗方法。

大型语言模型也有助于创建重新设计的搜索引擎、辅导聊天机器人、歌曲、诗歌、故事和营销材料的创作工具等。

大型语言模型如何工作？

大型语言模型从大量数据中学习。顾名思义，LLM 的核心是它所训练的数据集的大小。但“大”的定义正在增长，随着人工智能的发展。

现在，大型语言模型通常在足够大的数据集上进行训练，以包含几乎所有在很长一段时间内在互联网上编写的内容。

如此大量的文本使用无监督学习输入人工智能算法——当一个模型被赋予一个数据集而没有明确的指令如何处理它时。通过这种方法，大型语言模型学习单词，以及它们之间的关系和背后的概念。例如，它可以学会根据上下文区分“树皮”一词的两种含义。

就像掌握一门语言的人可以猜测句子或段落中接下来会发生什么，甚至自己想出新的单词或概念一样，大型语言模型可以应用其知识来预测和生成内容。

大型语言模型也可以针对特定用例进行定制，包括通过微调或提示调整等技术，这是向模型提供少量数据以关注以针对特定应用程序进行训练的过程。

由于其并行处理序列的计算效率，变压器模型架构是最大和最强大的LLM背后的构建块。

大型语言模型正在搜索引擎、自然语言处理、医疗保健、机器人和代码生成等领域开启新的可能性。

流行的ChatGPT AI聊天机器人是大型语言模型的一个应用。它可以用于无数的自然语言处理任务。

LLM几乎无限的应用还包括：

在生产中高效运行这些大型模型是资源密集型的，需要专业知识，以及其他挑战，因此企业转向 NVIDIA Triton 推理服务器，该软件有助于标准化模型部署并在生产中提供快速且可扩展的 AI。

许多组织都希望使用针对其用例和品牌声音量身定制的定制LLM。这些基于特定领域数据的自定义模型为企业提供了改善内部运营和提供新客户体验的机会。自定义模型比通用LLM更小，更高效，更快。

自定义模型为涉及大量专有数据的应用程序提供了最佳解决方案。定制LLM的一个例子是BloombergGPT，由Bloomberg本土开发。它有50亿个参数，针对金融应用。

2020 年 3 月，OpenAI 发布了 GPT-175 即服务，由 <> 亿个参数模型提供支持，该模型可以通过简短的书面提示生成文本和代码。

2021 年，NVIDIA 和 Microsoft开发了威震天-图灵自然语言生成 530B，这是世界上最大的阅读理解和自然语言推理模型之一，可简化摘要和内容生成等任务。

HuggingFace去年推出了BLOOM，这是一种开放的大型语言模型，能够以46种自然语言和十几种编程语言生成文本。

另一个LLM，Codex，为软件工程师和其他开发人员将文本转换为代码。

NVIDIA 提供的工具可简化大型语言模型的构建和部署：

NVIDIA NeMo LLM 服務提供了一條快速途徑來定制大型語言模型，並使用 NVIDIA 的托管雲端 API 或私有麗和公有雲進行大規模部署。
NVIDIA NeMo 框架是 NVIDIA AI 平台的一部分，可实现轻松、高效、经济高效的大型语言模型训练和部署。NeMo 专为企业应用程序开发而设计，为自动化分布式数据处理提供端到端工作流程;训练大规模定制模型类型，包括 GPT-3 和 T5;并部署这些模型以进行大规模推理。
NVIDIA BioNeMo 是针对蛋白质组学、小分子、DNA 和 RNA 中大型语言模型的特定领域托管服务和框架。它基于 NVIDIA NeMo 构建，用于在超级计算规模上训练和部署大型生物分子转换器 AI 模型。

扩展和维护大型语言模型可能既困难又昂贵。

构建基础大型语言模型通常需要数月的培训时间和数百万美元。

由于LLM需要大量的训练数据，开发人员和企业可能会发现访问足够大的数据集是一个挑战。

由于大型语言模型的规模，部署它们需要技术专长，包括对深度学习、转换器模型和分布式软件和硬件的深刻理解。

许多技术领导者正在努力推进开发并构建资源，以扩大对大型语言模型的访问，使各种规模的消费者和企业都能从中受益。

3D建模学习工作室翻译整理，转载请注明出处！