合成数据

合成数据生成：定义、类型、技术和工具

合成数据可以定义为人工注释的信息。它是由计算机算法或模拟生成的。合成数据生成通常在真实数据不可用或由于个人身份信息（PII）或合规性风险而必须保密时完成。它广泛用于健康、制造、农业和电子商务领域。

ygtu

Oct 24, 2023 • 11 min read

在线工具推荐：三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务

在本文中，我们将了解有关合成数据、合成数据生成、其类型、技术和工具的更多信息。它将为您提供所需的知识，以帮助生成合成数据以解决与数据相关的问题。

1、什么是合成数据？

合成数据不是由现实世界的事件生成，而是人工生成的信息。它是使用算法创建的，用于测试操作数据的数据集。这主要用于验证数学模型和训练合成数据深度学习模型.

合成数据使用的优点是，当您使用受管制或敏感数据时，它可以减少约束。并根据真实数据无法实现的特定要求创建数据要求。通常生成合成数据集用于质量保证和软件测试。

合成数据的缺点包括当您尝试复制原始数据中发现的复杂性时发生的不一致，以及它无法直接替换真实数据，因为您仍然需要准确的数据来产生有用的结果。

2、为什么需要合成数据？

出于三个主要原因，合成数据可以成为企业的资产，用于隐私问题，加快产品测试的周转时间以及训练机器学习算法。大多数数据隐私法都限制了企业处理敏感数据的方式。

任何个人身份客户信息的泄露和共享都可能导致昂贵的诉讼，这也会影响品牌形象。因此，最大限度地减少隐私问题是公司投资合成数据生成方法的首要原因。

对于全新的产品，数据通常不可用。此外，人工注释数据是一个昂贵且耗时的过程。如果公司投资于合成数据，则可以避免这种情况，相反，合成数据可以快速生成并有助于开发可靠的机器学习模型。

3、合成数据生成

通过手动使用 Excel 等工具或自动使用计算机模拟或算法作为真实世界数据的替代品来创建新数据的过程称为合成数据生成。

这种假数据可以从实际数据集生成，或者如果真实数据不可用，则可以生成全新的数据集。新生成的数据与原始数据几乎相同。可以在任何时间、任何位置生成任何大小的合成数据。

虽然它是人为的，但合成数据在数学或统计上复制了真实世界的数据。它类似于从实际对象、事件或人员中收集的真实数据，用于训练 AI 模型。

真实数据与合成数据

真实数据是在现实世界中收集或测量的。当个人使用智能手机、笔记本电脑或计算机、佩戴智能手表、访问网站或在线购物时，这些数据会随时创建。这些数据也可以通过调查（在线和离线）生成。

相反，合成数据是在数字环境中生成的。这些数据的制造方式成功地模仿了基本属性方面的实际数据，除了未从任何实际事件中获得的部分。

通过各种生成合成数据的技术，可以轻松获得机器学习模型所需的训练数据，这使得合成数据作为真实数据的替代方案非常有希望。但是，不能说合成数据是否可以解决所有现实世界的问题。这不会影响合成数据必须提供的显着优势。

合成数据的优势

合成数据具有以下优点：

定制：可以创建合成数据以满足业务的特定需求。
性价比高：与真实数据相比，合成数据是一种经济实惠的选择。例如，汽车制造商的真实车辆碰撞数据将比创建合成数据更昂贵。
生产速度更快：由于合成数据不是从现实世界的事件中捕获的，因此可以使用合适的工具和硬件更快地生成和构建数据集。这意味着可以在更短的时间内提供大量的人工数据。
维护数据隐私：合成数据仅类似于真实数据，但理想情况下，它不包含有关实际数据的任何可追溯信息。此功能使合成数据匿名，并且足以用于共享目的。这对医疗保健和制药公司来说可能是一个福音。

合成数据的特征

数据科学家不关心他们使用的数据是真实的还是合成的。数据的质量，包括潜在的趋势或模式，以及现有的偏见，对他们来说更重要。

以下是合成数据的一些显着特征：

提高数据质量：真实世界的数据除了难以获取且成本高昂之外，还可能容易受到人为错误、不准确和偏见的影响，所有这些都直接影响机器学习模型的质量。但是，在生成合成数据时，公司可以对数据的质量、多样性和平衡性有更高的信心。
数据的可扩展性：随着对训练数据的需求不断增加，数据科学家别无选择，只能选择合成数据。它可以调整大小以适应机器学习模型的训练需求。
简单有效：使用算法时，创建假数据非常简单。但重要的是要确保生成的合成数据不会显示与真实数据的任何链接，它是无错误的，并且没有额外的偏差。

数据科学家可以完全控制合成数据的组织、呈现和标记方式。这表明公司只需单击几下即可访问即用型高质量、值得信赖的数据源。

合成数据的使用

合成数据适用于各种情况。在机器学习方面，足够、高质量的数据仍然是先决条件。有时，由于隐私问题，对真实数据的访问可能会受到限制，而有时数据似乎不足以训练机器学习模型。

有时，会生成合成数据作为补充数据，这有助于改进机器学习模型。许多行业可以从合成数据中获得实质性的好处：

银行和金融服务
医疗保健和制药
汽车和制造业
机器人
互联网广告和数字营销
情报和安全公司

4、合成数据类型

在选择最合适的合成数据创建方法时，了解解决业务问题所需的合成数据类型至关重要。完全合成数据和部分合成数据是两类合成数据。

完全合成的数据与真实数据没有任何联系。这表明所有必需的变量都可用，但数据不可识别。
部分合成数据保留原始数据中除敏感信息之外的所有信息。它是从实际数据中提取的，这就是为什么有时真实值可能会保留在策划的合成数据集中的原因。

以下是一些合成数据：

文本数据：合成数据可以是人工生成的文本自然语言处理（NLP）应用程序。
表格数据：表格合成数据是指人工生成的数据，如对分类或回归任务有用的真实数据日志或表。
媒体：合成数据也可以是合成视频、图像或声音，用于计算机视觉应用。

5、合成数据生成方法

为了构建合成数据集，使用以下技术：

基于统计分布

在这种方法中，您必须通过观察真实的统计分布从分布中提取数字，应该重现类似的事实数据。在某些无法获得真实数据的情况下，您可以使用此事实数据。

如果数据科学家对真实数据中的统计分布有正确的理解，他可以创建一个具有随机分布样本的数据集。这可以通过正态分布、卡方分布、指数分布等来实现。经过训练的模型的准确性在很大程度上取决于数据科学家在此方法中的专业知识。

基于代理到模型

使用此方法，您可以创建一个模型来解释观察到的行为，它将生成具有相同模型的随机数据。这是将实际数据与已知的数据分布相匹配。企业可以使用此方法生成合成数据。

除此之外，其他机器学习方法可用于拟合分布。但是，当数据科学家想要预测未来时，决策树会过度拟合，因为它很简单，而且会达到全深度。

此外，在某些情况下，您可以看到部分真实数据可用。在这种情况下，企业可以使用混合方法基于统计分布构建数据集，并使用基于真实数据的代理建模生成合成数据。

使用深度学习

使用深度学习模型，将采用变分自动编码器或生成对抗网络模型，使用生成合成数据的方法。

VAE是无监督机器学习模型类型，其中包含用于压缩和压缩实际数据的编码器，而解码器则分析这些数据以生成实际数据的表示形式。使用VAE的重要原因是确保输入和输出数据保持极其相似。

Synthetic data generation using deep learning.webp

GAN模型和对抗网络是两个相互竞争的神经网络。GAN是负责创建合成数据的生成器网络。对抗网络是鉴别器网络，它通过确定虚假数据集来发挥作用，并通知生成器有关此歧视的信息。然后，生成器将修改下一批数据。通过这种方式，鉴别器将改善对虚假资产的检测。
还有另一种生成其他数据的方法，称为数据增强。但是，它不是合成数据。此方法是将新数据添加到现有数据集的过程。这称为数据匿名化，一组此类数据不是合成数据。

6、合成数据生成工具

UnrealSynth虚幻合成数据生成器利用虚幻引擎的实时渲染能力搭建逼真的三维场景，为YOLO等AI模型的训练提供自动生成的图像和标注数据。UnrealSynth生成的合成数据可用于深度学习模型的训练和验证，可以极大地提高各种行业细分场景中目标识别任务的实施效率，例如：安全帽检测、交通标志检测、施工机械检测、车辆检测、行人检测、船舶检测等。