生成式AI

语音AI技术实现与服务机器人的自然交互

能够快速理解人类并模仿人类语音的准确语音 AI 或语音 AI 界面对于服务机器人的易用性至关重要。开发人员正在将自动语音识别（ASR）和文本到语音转换（TTS）与服务机器人集成，以实现基本技能，例如理解和回答自然语言中的人类问题。这些基于语音的技术构成了语音AI。

ygtu

Jun 30, 2023 • 12 min read

推荐：将NSDT场景编辑器加入你的3D工具链

3D工具集：NSDT简石数字孪生

语音AI技术实现与服务机器人的自然交互

从在餐厅接受订单和为您提供食物到与您一起玩扑克，服务机器人变得越来越普遍。在全球范围内，您可以在医院、机场和零售店找到这些服务机器人。

根据Gartner的数据，到2030年，由于智能机器人在智能，社交互动和人类增强能力方面的进步，80%的人类将每天与智能机器人互动，高于今天的不到10%。

这篇文章解释了如何在服务机器人应用中使用 ASR 和 TTS。我提供了一个演练，介绍如何使用语音 AI 软件工具针对行业特定的行话、语言和方言自定义它们，具体取决于机器人的部署位置。

为什么要将语音 AI 添加到服务机器人应用程序中？

服务机器人就像元宇宙中的数字人类，只是它们在物理世界中运行。这些服务机器人可以帮助支持仓库工人，在遵循人类指示的同时执行危险任务，甚至协助需要非接触式服务的活动。例如，酒店业的服务机器人可以迎接客人、搬运行李和接受订单。

为了使所有这些服务机器人以类似人类的方式理解和响应，开发人员必须结合实时运行的高精度语音AI。

支持语音AI的服务机器人应用示例

如今，服务机器人已广泛应用于各行各业。

餐馆

在线送餐服务在全球范围内越来越受欢迎。为了在不影响质量的情况下处理不断增长的客户需求，服务机器人可以协助员工完成诸如接受订单或亲自向客户交付食物等任务。

医院

在医院中，服务机器人可以通过处理与患者相关的任务来支持和授权患者护理团队。例如，支持语音AI的服务机器人可以善解人意地与患者交谈，以提供陪伴或帮助改善他们的心理健康状态。

环境辅助生活

在环境辅助生活环境中，技术主要用于支持老年人或弱势成年人的独立性和安全性。服务机器人可以协助日常活动，例如将食物托盘从一个位置运输到另一个位置，或使用智能机器人药丸分配器及时管理药物。借助语音AI技能，服务机器人还可以提供情感支持。

服务机器人参考架构

服务机器人通过多种方式帮助企业改善质量保证并提高生产力：

协助一线员工在餐厅或制造环境中完成日常重复性任务
帮助客户在零售店找到所需的商品
为医生和护士提供医院患者医疗服务

在这些设置中，机器人必须能够准确地处理和理解用户正在传递的内容。对于可能存在危险或严重伤害的情况尤其如此，例如医院。可以自然地与人类交谈的服务机器人也有助于为应用程序提供积极的整体用户体验。

Workflow architecture diagram showing how speech inputs map to robot tasks through a dialog manager and back out as text converted to speech. — *图1.服务机器人设计评审工作流架构*

图 1 显示，服务机器人使用语音识别来理解用户在说什么，并使用 TTS 通过合成语音响应用户。其他组件（如NLP和对话管理器）用于帮助服务机器人理解上下文并为用户的问题生成适当的答案。

此外，机器人任务下的模块，如感知、导航和映射，帮助机器人了解其物理环境并朝着正确的方向移动。

服务机器人的语音用户界面

语音用户界面包括两个主要组件：自动语音识别和文本到语音转换。自动语音识别，也称为语音转文本，是将原始语音转换为文本的过程。文本到语音转换，也称为语音合成，是将文本转换为类似人类的语音的过程。

开发语音 AI 管道有其自身的挑战。例如，如果在餐馆中部署服务机器人，它应该能够理解抹茶、卡布奇诺和里斯特雷托等词。它甚至应该在嘈杂的环境中转录，因为大多数与这些应用程序交互的人都在开放空间中。

机器人不仅要理解所说的内容，而且还应该能够正确地说出这些话。同样，每个行业都有自己的术语，这些机器人必须实时理解和响应。

自动语音识别

Diagram showing the models and modules of an end-to-end speech-to-text pipeline (all are listed in the post). — *图2.语音转文本管道*

ASR 管道中每个模型或模块的角色如下所示：

特征提取器将原始音频转换为频谱图或mel频谱图。
声学模型获取这些频谱图并生成一个矩阵，该矩阵在每个时间步长上具有字符或单词的概率。
解码器和语言模型将这些字符/单词组合到一个脚本中。
标点符号和大小写模型在正确的位置应用逗号、句点和问号等内容，以提高可读性。

文本转语音

Diagram showing the models and modules of an end-to-end text-to-speech pipeline (all are listed in the post). — *图 3：文本到语音转换管道*

TTS 管道中每个模型或模块的角色如下所示：

在文本规范化和预处理阶段，文本被转换为语言化形式。例如：“10：00”->“十点”。
文本编码模块将文本转换为编码向量。
音高预测器预测您必须给某些单词多少高或低，而持续时间预测器预测发音字符或单词所需的时间。
频谱图生成器使用编码向量和其他支持向量作为输入来生成频谱图。
声码器模型将频谱图作为输入，并产生类似人类的声音作为输出。

语音 AI 软件套件

NVIDIA 提供各种数据集、工具和 SDK，帮助您构建端到端语音 AI 管道。根据您所在行业的特定词汇、语言和方言自定义管道，并在几毫秒内运行，以实现自然且引人入胜的交互。

数据

为了使语音AI技术民主化和多样化，NVIDIA与Mozilla Common Voice（MCV）合作。MCV是一个众包项目，志愿者将语音数据贡献给公共数据集，任何人都可以使用该数据集来训练语音技术。您可以从 MCV 下载各种语言音频数据集来开发 ASR 和 TTS 模型。

NVIDIA 还与 Defined.ai 合作，是一家提供训练数据的一站式商店。可以下载多个域、语言和口音的音频和语音训练数据，以便在语音 AI 模型中使用。

预训练模型

NGC提供了几个在各种开放和专有数据集上训练的预训练模型。所有模型都在 NVIDIA DGX 服务器上进行了数十万小时的优化和训练。

您可以在相关数据集上微调这些高度准确的预训练模型，以进一步提高准确性。

开源工具

如果您正在寻找开源工具，NVIDIA 提供了 NeMo，这是一个开源框架，用于构建和训练最先进的 AI 语音和语言模型。NeMo 建立在 PyTorch 和 PyTorch Lightning 之上，使您可以轻松开发和集成已经熟悉的模块。

语音 AI 开发工具包

使用 NVIDIA Riva（一款免费的 GPU 加速语音 AI SDK）构建和部署完全可定制的实时 AI 管道。丽娃通过NGC提供最先进、高精度的预训练模型：

英语
西班牙语
普通话
印地语
俄语
朝鲜语
德语
法语
葡萄牙语

日语、阿拉伯语和意大利语即将推出。

借助 NeMo，您可以根据行业特定的行话、语言、方言和口音微调这些预训练模型，并优化语音 AI 技能以实时运行。

您可以在所有云、本地、边缘和嵌入式设备上以流式传输或离线方式部署 Riva 技能。

在嵌入式机器人应用上运行丽娃语音AI技能

在本节中，我将向您展示如何在嵌入式设备上使用 Riva 运行开箱即用的 ASR 和 TTS 技能。为了获得更好的准确性和性能，Riva 还使您能够在特定领域数据集上自定义或微调模型。

您可以在流媒体和离线模式下运行 Riva 语音 AI 技能。首先，在嵌入式服务器上设置并运行 Riva 服务器。

先决条件

访问NGC。
按照所有步骤操作，以便能够从命令行界面（CLI）运行命令。ngc
访问 NVIDIA Jetson Orin、NVIDIA Jetson AGX Xavier 或 NVIDIA Jetson NX Xavier。
Jetson 平台上的 NVIDIA JetPack 版本 5.0.2。

有关详细信息，请参阅支持矩阵。

服务器设置

通过运行以下命令从 NGC 下载脚本：ngc registry resource download-version nvidia/riva/riva_quickstart_arm64:2.7.0

初始化 Riva 服务器：bash riva_init.sh

启动丽娃服务器：bash riva_start.sh

有关最新步骤的详细信息，请参阅快速入门指南。

运行C++ ASR 客户端

对于嵌入式，Riva 服务器附带示例客户端，您可以无缝地使用这些客户端进行推理。

运行以下命令以流式传输 ASR：riva_streaming_asr_client --audio_file=/opt/riva/wav/en-US_sample.wav

有关针对行业特定术语、语言、方言和口音自定义 Riva ASR 模型和管道的更多信息，请参阅 Riva 文档中有关模型概述的说明。

运行C++ TTS 客户端

对于嵌入式的 Riva TTS 客户端，运行以下命令合成音频文件：riva_tts_client --voice_name=English-US.Female-1 \
--text="Hello, this is a speech synthesizer." \
--audio_file=/opt/riva/wav/output.wav

有关在域特定数据集上自定义 TTS 模型和流水线的更多信息，请参阅 Riva 用户指南中的模型概述。

用于开发语音 AI 应用程序的资源

语音 AI 使服务机器人和其他交互式应用程序能够理解细微的人类语言并轻松响应。

它正在为从呼叫中心的真人到各行各业的服务机器人提供支持。若要了解如何将语音 AI 技能与现实生活中可以获取饮料的机器狗集成，请参阅语音 AI 机器人的低代码构建基块。

或者，浏览语音 AI 帖子，了解语音 AI 概念、语音识别部署挑战和技巧或独特的 ASR 应用程序。

还可以访问开发人员电子书，例如端到端语音 AI 管道，以了解有关语音 AI 管道中的模型和模块的详细信息，并访问生成语音 AI 应用程序以深入了解如何为应用程序生成和部署实时语音 AI 管道。

3D建模学习工作室翻译整理，转载请注明出处！