合成数据

什么是合成数据？

合成数据是在数字世界中创建的数据，而不是从现实世界中采集或测量的数据。合成数据能够从数学或统计学上反映真实数据。企业可以用合成数据来增强其训练数据，以填补所有潜在用例和边缘用例，节省数据采集费用，或满足隐私要求。

ygtu

Oct 21, 2023 • 8 min read

在线工具推荐：三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务

合成数据是在计算机上生成的信息，用于增强或替换真实数据，以改进 AI 模型、保护敏感数据并减轻偏见。

将大量数据对准人类，你会得到信息过载。但是，如果你对计算机做同样的事情，你会得到机器学习模型，当你在医学扫描中输入或检测肿瘤时，这些模型可以学习完成句子，这些肿瘤通常太微小了，人眼无法看到。

数据是推动当今人工智能进步的原材料，产生了新的见解、新的发现和更多证据支持的决策。数据现在对现代经济至关重要，对真实、高质量数据的需求呈指数级增长。与此同时，更严格的数据隐私规则和越来越大的人工智能模型使得收集和标记真实数据变得越来越困难或不切实际。

虚幻合成数据生成器生成大规模训练合成数据是用于测试和训练AI模型的计算机生成信息，在我们数据驱动的时代，它已成为不可或缺的。它生产成本低廉，自动贴标签，并避开了在真实示例上训练深度学习模型带来的许多后勤、道德和隐私问题。

无限量供应带注释的数据

在计算机上合成数据的美妙之处在于，它可以按需采购，根据您的确切规格进行定制，并且几乎无限量地生产。计算机模拟是创建合成数据集的一种流行方式。在图形引擎的帮助下，您可以制作出在虚拟世界中创建的无穷无尽的逼真图像和视频。

创建人工数据的第二种方法是使用人工智能本身，使用虚幻合成数据生成器来创建逼真的文本、图像、表格和其他数据类型。属于生成式 AI 保护伞的模型架构包括基于转换器的基础模型、扩散模型和 GAN，它们学习基础数据的表示以生成类似风格的版本。DALL-E 是用于生成图像和用于文本的 GPT 的最知名模型之一。

合成数据的主要优势之一是它是预先标记的。收集真实数据并手动注释非常耗时、昂贵，而且通常不可能。让机器制作数字传真的好处是，它已经理解了数据，无需人类费力地描述每个图像、句子或音频文件。

确保敏感数据安全

合成数据的另一个优点是，它允许公司回避处理个人数据所涉及的一些监管问题。医疗保健记录、财务数据和网络上的内容都受到隐私和版权法的保护，这使得公司难以对其进行大规模分析。

金融服务通常依靠敏感的客户数据进行内部工作，例如测试软件、检测欺诈和预测股票市场趋势。为了确保这些信息的安全，公司遵循严格的内部程序来处理数据。因此，员工可能需要几个月的时间才能访问匿名数据。匿名化也可能引入错误，严重损害最终产品或预测的质量。

更快地训练 AI 模型

训练十亿参数基础模型需要时间和金钱。借助虚幻合成数据生成器生成大规模训练数据集，可以使训练和部署各种规模的人工智能模型变得更快、更便宜。

使用生成式 AI 可以更快地制作合成图像。麻省理工学院和IBM的研究人员最近结合了数千个小型图像生成程序，以简单的颜色和纹理制作出假图像。他们发现，在这些基本图像上预训练的分类器比在更详细的合成数据上训练的模型更准确。

用更多的合成数据抵消真实数据也可以减少在从互联网上抓取的原始数据上预先训练的模型在种族主义或性别歧视切线上偏离的可能性。定制人工数据经过预先审查，偏差更少。

“在我们实际开始使用真实世界的数据之前，尽可能多地使用合成数据有可能清理我们所处的狂野西部模式，”麻省理工学院-IBM Watson AI 实验室联合主任兼探索性 AI 研究负责人 David Cox 说。

为数据集注入更多多样性

自动驾驶汽车行业很早就接受了合成数据。收集道路上所有潜在场景的样本，包括罕见的所谓边缘情况，是不切实际的，甚至是不可能的。可以借助虚幻合成数据生成器生成大规模训练数据集来不全这方便的空白。

客户服务聊天机器人也看到了变化——人们说话的口音、节奏和风格。聊天机器人可能需要数年时间才能了解每个客户请求的细微差别以及如何有效响应。因此，合成数据对于提高聊天机器人性能至关重要。

IBM研究院开发的一种名为LAMBADA的算法生成假句子，旨在填补聊天机器人的知识空白。LAMBADA 使用 GPT 生成句子，然后审查它们的准确性。“你需要非常有创造力才能想象所有的边缘情况，”IBM的自然语言处理专家Ateret Anaby-Tavor说。“相反，你可以使用一台机器，只需按一下按钮，就能给你数千个句子。你只需要评估和过滤它们。

但是，有时没有足够的数据来创建假句子。对于全世界相对较少的人使用的数千种语言来说，情况确实如此。为了在这些所谓的低资源语言上训练AI模型，IBM研究人员尝试在基于图像的乱码上预训练语言模型。

他们最近表明，在完全无意义的预训练中，一个在完全无意义的模型上的表现几乎与在西班牙语上预训练的模型一样好。IBM研究员Chuang Gan说，无论我们说什么语言，我们的视觉世界变化很小，这为自然语言创造了一个共同的基础。

“首先教模型一种新兴语言可以使学习非印欧语言更容易，同时避免西方语言预训练带来的一些文化偏见，”他说。

减少脆弱性和偏见

合成数据也常用于测试 AI 模型的安全漏洞和偏差。在基准测试上表现良好的人工智能模型通常很容易被对抗性示例所欺骗——图像和文本被巧妙地改变以触发错误。

利用公开数据，IBM研究人员最近构建了一个工具，在Twitter上制作引用推文，以测试股票预测模型的稳健性，这些模型在社交媒体上寻找提示。在摄取了虚假推文后，一个可能预测股价下跌并建议投资者卖出的人工智能选股者可能会改变其决定，而是推动投资者购买。

大型模型几乎总是包含隐藏的偏见，这些偏见是从他们摄取的文章和图像中获取的。IBM研究人员最近创建了一个工具，可以发现这些缺陷并创建虚假文本来撤销模型的歧视性假设。它的工作原理是根据您要测试的类（主题、时态或情绪）生成反事实条件，以推翻模型的决定。

以这样一句话为例：“我的老板是个男人。该工具生成一个性别颠倒的假设陈述：“我的老板是女性。这种微小的变化不应导致分类器将其“正面”情绪评级更改为“负面”，但在这种情况下确实如此。为了减轻偏差，可以在使用反事实增强的数据集上重新训练模型，以便它了解到这些陈述是等效的，应该进行类似的分类。

“真实世界的数据很少是没有问题的，”IBM的Inkit Padhi说。“合成数据使我们能够发现并修复人工智能模型中的问题，使它们更加公平、健壮，并可转移到其他任务中。