来源:DeepTech深科技
近日,据科技新闻网站 Wired 援引消息人士的话报道,英伟达以九位数美元的价格收购了一家合成数据初创公司 Gretel。
(来源:Wired)消息人士称,此次收购价格超过了 Gretel 最近一次 3.2 亿美元的估值(由此可知交易金额在 3.2-10 亿美元之间),不过具体的收购条款尚未公开。
与此同时,Gretel 公司的约 80 名员工将被并入英伟达,而该公司的技术将成为英伟达基于云的生成式 AI 服务套件的一部分,为开发者提供支持。
对于此次的收购交易,英伟达和 Gretel 公司的发言人均未做出回应。
基于模型微调生成合成数据
Gretel 公司成立于 2019 年,总部位于美国加利福尼亚州圣地亚哥,由 Ali Golshan、John Myers、Laszlo Bock 和 Alex Watson 联合创立,其中 Ali Golshan 担任公司 CEO。
据 Pitchbook 统计数据显示,在被英伟达收购之前,Gretel 已经获得了超过 6,700 万美元的投资,投资机构包括 Moonshots Capital、Greylock、Anthos Capital 等。
作为一家合成数据开发商,Gretel 为开发者提供了合成数据平台及 API,旨在帮助那些希望构建生成式 AI 模型但缺乏足够训练数据或对使用真实人物数据存在隐私顾虑的开发者。
(来源:Gretel)技术层面,Gretel 采用对开源模型(比如 LLaMA、Stable Diffusion 等)进行针对性微调的技术路线,通过添加隐私保护层和差异化功能模块,生成满足特定行业需求的合成数据。比如,通过调整模型参数生成金融、医疗等领域的匿名化数据,解决敏感信息泄露风险。
其核心技术包含差分隐私、数据匿名化等模块,可在生成数据时自动剥离敏感信息,满足 HIPAA、GDPR 等法规要求。比如,在医疗数据生成中通过混淆患者身份信息生成可用于模型训练的非敏感数据集。
需要注意的是,Gretel 的技术路线并不依赖自研前沿模型,而是通过微调现有模型并叠加专有技术(比如访问权限控制、动态数据脱敏等)并将这些模型打包出售,进而降低技术开发成本,能够快速适配行业需求。
Gretel 支持生成文本、表格、图像等多种数据形式,并通过统计方法或生成式 AI 模拟真实数据特征,确保合成数据在质量与分布上与真实数据高度接近。
与此同时,Gretel 也提供 API 接口,让开发者自定义数据生成规则(比如模拟极端场景、调整数据分布等),提升生成数据的实用性和多样性。
通过收购补齐“AI 全栈”生态的数据层
AI 发展的三大要素是算力、算法和数据。大模型性能表现不断刷新全球认知的背后,除了算法的演进、算力的提升,数据(尤其是高质量数据)始终是绕不开的话题。很大程度上,没有海量数据的“投喂”就不会有大模型的出色表现。
然而,真实世界数据正在逐渐枯竭。正如 OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 此前所指出的,“算力在增长,但数据却没有增长,因为我们只有一个互联网。数据就好比化石燃料,而燃料终将耗尽。”
就在目前正在举办的英伟达 GTC 2025 开发者大会上,联合创始人兼 CEO 黄仁勋在主题演讲中也提到,行业在快速且成本有效地扩大 AI 规模方面所面临的挑战。“首先,数据问题,即从哪里以及如何创建必要的数据来训练 AI 模型;其次,模型架构;最后,扩展法则。”他说道。
(来源:英伟达)合成数据,已被视为缓解 AI 行业数据稀缺问题的关键方案。
所谓合成数据(Synthetic Data),即由计算机生成的数据,可以通过模型和算法创建,用于补充或替代自现实世界中采集的真实数据。
借助合成数据,可以让构建 AI 模型所需的数据生成过程更加可扩展、劳动密集度更低,并且对于较小或资源较少的 AI 开发者来说更加易于获取。理论层面,合成数据可以创造近乎无限的 AI 训练数据来源。除此之外,隐私保护也是合成数据的一大优势,这对于医疗、银行以及政府机构等行业非常适用。
比如,在自动驾驶领域,合成数据可模拟复杂路况、极端天气等长尾场景,加速自动驾驶算法的迭代,减少实地测试成本。
再比如,一家医院希望构建一个用于追踪某种类型癌症的 AI 模型,但只有来自 1,000 名患者的少量数据集,那么就可以使用合成数据来补充数据集、消除偏差,并对真实人类的数据进行匿名化处理,从而实现更好的隐私保护。
看到这里,那英伟达为什么要收购这样一家公司呢?简单总结一句话就是:补齐自家“AI 全栈”生态的数据层。
Gretel 专注于为开发者提供合成数据平台及 API,通过微调开源模型并添加隐私保护功能,解决 AI 训练中真实数据不足或隐私敏感性问题。收购 Gretel 后有望补足英伟达在合成数据生成领域的布局,与其已有工具形成协同,完善从硬件到软件、数据系统的“AI 全栈”生态链。
通过整合 Gretel 的合成数据技术,英伟达可直接为开发者提供高质量训练数据,缓解大模型对真实数据的依赖,尤其适用于隐私敏感领域(比如金融、医疗等),解决生成式 AI 数据瓶颈,并增强开发者服务能力。
要知道,英伟达近年来为开发者提供不少合成数据工具。比如,在 2022 年推出的合成数据工具 Omniverse Replicator,此次通过收购 Gretel,结合其技术平台能强化从 2D 到 3D、从单一模态到多模态的完整数据生成体系。
除此之外,Gretel 的 API 接口和微调能力可无缝接入英伟达的生成式 AI 服务套件,帮助开发者快速构建行业定制化模型,进而降低 AI 开发门槛。
随着真实世界数据日渐枯竭,大型科技公司也都在转向合成数据,包括 meta、OpenAI、Anthropic 以及微软等巨头早已开始使用合成数据来训练 AI 模型。
比如,meta 使用合成数据训练其先进的大语言模型 Llama 3,其中不少数据是由前一代模型 Llama 2 生成的;微软的 Phi-3 小语言模型部分基于合成数据进行训练。
随着 meta、微软等巨头纷纷加速布局合成数据,英伟达通过收购 Gretel 进一步巩固技术优势,可为硬件(比如 H100/H200 GPU)和软件生态提供差异化竞争力。
参考资料:
1.story/nvidia-gretel-acquisition-synthetic-training-data/
2.
3.blog
4.navigator
5.tabular-fine-tuning
6.solutions/safe-data-sharing
7.solutions/improve-ml-robustness
8.solutions/power-generative-ai
运营/排版:何晨龙