AI人工智能

语音 AI 聚焦：钟摆如何在线抓取有害叙事

全球超过 55% 的人口使用社交媒体，只需单击一下即可轻松分享在线内容。在与他人联系和消费娱乐内容的同时，您还可以发现构成现实生活威胁的有害叙事。这就是为什么Pendulum的工程副总裁Ammar Haris希望他的公司的人工智能能够帮助客户更深入地了解网上生成的关于他们的有害内容。这些谎言经常像快速移动的野火一样在社交媒体平台上的视频、音频和文本中传播。

ygtu

Jun 28, 2023 • 9 min read

推荐：将NSDT场景编辑器加入你的3D工具链

3D工具集：NSDT简石数字孪生

语音 AI 聚焦：钟摆如何在线抓取有害叙事

全球超过 55% 的人口使用社交媒体，只需单击一下即可轻松分享在线内容。在与他人联系和消费娱乐内容的同时，您还可以发现构成现实生活威胁的有害叙事。

这就是为什么Pendulum的工程副总裁Ammar Haris希望他的公司的人工智能能够帮助客户更深入地了解网上生成的关于他们的有害内容。这些谎言经常像快速移动的野火一样在社交媒体平台上的视频、音频和文本中传播。

与野火一样，及早发现有害的在线叙事可能是扼杀任何破坏性影响的关键。

Pendulum 是 NVIDIA Inception 計劃的成員，該計劃透過提供尖端技術和 NVIDIA 專家的服務，幫助初創企業發展。

註冊 NVIDIA 的最新 Speech AI 新聞。

语音 AI 和 NLP 促进社会福祉

早在 2021 年，Sam Clark 和 Mark Listes 就创立了 Pendulum，旨在帮助客户识别破坏性内容。业务合作伙伴知道，他们的平台可以应用语音 AI 和自然语言处理（NLP）来帮助保护在线声誉，甚至帮助确保员工实时安全。

在接下来的一年里，工程团队开发了一个人工智能系统骨干，以检测和描述困扰全球社会福祉的有害谎言。

今天，Pendulum的平台正在使以前无法发现的叙述最终变得可访问，尽管有大量的数据需要处理。Pendulum 的工程师熟悉搜索大量媒体的挑战。

“YouTube，BitChute，Rumble和TikTok上的视频，更不用说播客中的音频，很难搜索，甚至更难放入上下文中。这就是为什么，很多时候，只有元数据是用别人的方法搜索的，而不是按实际的原始内容搜索的，“哈里斯解释说。

人工智能引擎发现真正的谎言

处理数据格局发生了怎样的变化？通过使用加速语音AI和NLP，Pendulum的智能浏览器和叙事引擎现在可以实现智能，深入的搜索，以在巨大的媒体语料库中锁定针（有害的叙事）。

事实上，您可能已经熟悉许多大规模虚假的在线案例，以及它们如何容易在网上变异。例如，到目前为止，Pendulum的引擎已经专注于以下内容：

声称有关名人的虚假信息
对公司员工的人身威胁
关于供应链延误的阴谋
COVID-19疫苗虚假信息
关于乌克兰战争的虚假信息
最近企图在 2022 年 FIFA 世界杯上造成伤害

Screenshot shows videos containing false narratives as circles over time with size corresponding to number of views. — *图1.钟摆的交互式仪表板显示 COVID 疫苗叙述*

图 1 显示，Pendulum 识别了 3，360 个视频，占 38M 次观看次数，可能支持新冠疫苗修改您的 DNA 的错误叙述。其中，平台上仍有1，600个视频，截至撰写本文之日，观看次数为16万。虚假叙述是随着时间的推移而形成的圆圈，其大小对应于观看次数。

叙事引擎如何在线检测这些叙事并生成警报？Pendulum开发了一种自动化方法来发现和分类YouTube频道，每天能够转录数以万计的视频，主要是通过分析自动语音识别（ASR）转录的文本。

该引擎梳理文本，搜索数十亿个项目，以对话、演讲、播客和谈话轨道的形式提供支持数据，在很大程度上独立于媒体类型或社交媒体平台。然后标记感兴趣的内容，以提醒客户注意发现的任何风险或趋势。

解决方案背后的技术

ASR 处理的速度可能会成为一个问题，除非基于 GPU 的实现可以处理吞吐量。英伟达丽娃企业对钟摆有意义，结果证明是一个很好的解决方案。

“成绩单比我们评估的其他云服务更准确，同时实现了更高的吞吐量和更低的成本，”哈里斯说。

有了丽娃的Helm图表，工程团队在设置过程中就不必处理太多的开销。他们能够快速调出发动机的加速版本。Riva 允许在本地或云中自托管 ASR 服务，并通过 Helm 图表配置进行简化。

Pendulum 目前在 Amazon Web Services （AWS）上由 NVIDIA 提供支持的 GPU 实例上运行 Riva Enterprise 服务，以扩展可快速转录和处理的音频和视频内容量。

随着ASR步骤的完成，钟摆的叙事引擎将Riva的更多AI资源应用于新转录的文本或其他地方收集的文本。例如，ASR 流程的原始输出通常是一长串不间断的未大写单词流。这几乎不是您可能认为可以精细化为可操作情报报告的那种数据。

考虑到输出，Pendulum接下来应用了Riva的标点符号和大写AI模型，将杂乱无章的单词流转换为句子。输出包含大写专有名词、位置合适的逗号以及终止句点或问号（视情况而定）。

参考图 1 中的示例，在 Pendulum 的叙事发现方法中，专有的 NLP 子系统进一步处理文本。例如，该引擎将 14 万个视频的文本标题拆分为 205.100 亿个片段（大约 9 个标记长的文本片段）。结果会进一步过滤到包含一个或多个 COVID 锚定词的视频，包括“疫苗”和“DNA”一词的形式。此过程会产生一组 200，15 个视频和 689，<> 个片段。

最后，Pendulum 应用专有的混合零镜头学习算法，检测精度为 0.74，召回率为 0.83。在这种情况下，预测支持叙述 id 的片段中有 74% 确实支持叙述，而支持叙述的片段中有 83% 是通过这种方法识别的。这是一个令人印象深刻的结果。

为了跟上业务增长的需求，Pendulum 团队现已在 AWS 上部署了一个多节点 GPU 集群，以满足吞吐量和延迟要求。在那之后，除了有能力的硬件之外，还需要什么来实现这些具有挑战性的要求？

GPU 服务器上的 NVIDIA Triton 推理服务器软件可处理针对 Pendulum 所有各种 AI 模型的多个请求。Triton 推理服务器支持将逻辑链接在一起的模型整合到一个整体中，以便在 GPU 中完全处理，从而避免了缓慢的 GPU 到 CPU 内存复制陷阱。

未来现实世界的挑战

Pendulum平台的功能将进一步扩展到社交媒体品牌，因为开发人员在当前可用的YouTube，Rumble，BitChute，Tik Tok和播客之外增加了支持。

尽管如此，该公司的领导层无法仅通过应用他们的引擎来判断真相。事实上，避免这种复杂的情况使Pendulum能够扩大其光圈并提出新的挑战。

例如，我们都知道视频可以比口头语言更有意义，尤其是伴随着情感图像和令人回味的音乐配乐。即使这样的视频中根本没有语音，它仍然可以为叙事做出贡献。

（想想几年前ISIS的招募视频：许多视频几乎没有语音，但确实有煽动性的场景和音乐，旨在与特定受众建立联系。

毕竟，在没有语音的地方，ASR 没有什么可转录的，叙事仍然未被发现。

Pendulum的技术团队正在努力处理干扰因素，例如视频广告在播放过程中弹出语音，这可能会混淆正在形成的叙事。哈里斯解释说：“有一个银行视频广告是我团队存在的祸根，扰乱了转录过程。还有工作要做。

立即开始使用语音 AI

您也可以尝试 NVIDIA Riva，看看它在构建应用程序时在转录准确性、速度和易用性方面的表现如何。以下是一些帮助您入门的资源：

详细了解语音识别以及如何立即开始使用语音识别。
阅读这本免费电子书《语音 AI 简介》，详细了解不断发展的语音 AI 格局。
了解如何通过免费电子书端到端语音 AI 管道将 TTS 技能添加到应用程序来实现自然语音。

参加自定进度的深度学习学院课程，开始使用面向语音 AI 的高精度自定义 ASR，并了解如何自定义语音识别管道。

3D建模学习工作室翻译整理，转载请注明出处！