筋膜枪 自慰 赓续加码合成数据,英伟达数亿好意思元买下这家小公司
近日筋膜枪 自慰,据科技新闻网站 Wired 征引音书东谈主士的话报谈,以九位数好意思元的价钱收购了一家合成数据初创公司 Gretel。

音书东谈主士称,这次收购价钱跳动了 Gretel 最近一次 3.2 亿好意思元的估值(由此可知走动金额在 3.2-10 亿好意思元之间),不外具体的收购要求尚未公开。
与此同期,Gretel 公司的约 80 名职工将被并入英伟达,而该公司的时间将成为英伟达基于云的生成式 AI 服务套件的一部分,为拓荒者提供守旧。
关于这次的收购走动,英伟达和 Gretel 公司的发言东谈主均未作念出回复。

Gretel 公司缔造于 2019 年,总部位于好意思国加利福尼亚州圣地亚哥,由 Ali Golshan、John Myers、Laszlo Bock 和 Alex Watson 接洽创立,其中 Ali Golshan 担任公司 CEO。
据 Pitchbook 统计数据显露,在被英伟达收购之前,Gretel 依然获取了跳动6,700 万好意思元的投资,投资机构包括 Moonshots Capital、Greylock、Anthos Capital 等。
看成一家合成数据拓荒商,Gretel 为拓荒者提供了合成数据平台及 API,旨在匡助那些但愿构建生成式 AI 模子但清寒有余磨砺数据或对使用信得过东谈主物数据存在隐自费神的拓荒者。

时间层面,Gretel 选定对开源模子(比如 LLaMA、Stable Diffusion 等)进行针对性微调的时间门道,通过添加心事保护层和相反化功能模块,生成闲适特定行业需求的合成数据。比如,通过调遣模子参数生成金融、医疗等鸿沟的匿名化数据,惩办敏锐信息泄露风险。
其中枢时间包含差分神事、数据匿名化等模块,可在生成数据时自动剥离敏锐信息,闲适 HIPAA、GDPR 等法例要求。比如,在医疗数据生成中通过羞辱患者身份信息生成可用于模子磨砺的非敏锐数据集。
需要着重的是,Gretel 的时间门道并不依赖自研前沿模子,而是通过微调现存模子并重迭稀奇时间(比如拜访权限截止、动态数据脱敏等)并将这些模子打包出售,进而缩短时间拓荒老本,唐突快速适配行业需求。
Gretel 守旧生成文本、表格、图像等多种数据体式,并通过统计设施或生成式 AI 模拟信得过数据特征,确保合成数据在质地与散布上与信得过数据高度接近。
与此同期,Gretel 也提供 API 接口,让路发者自界说数据生成挨次(比如模拟极点场景、调遣数据散布等),培育生成数据的实用性和千般性。

AI 发展的三大身分是算力、算法和数据。大模子性能发达不休刷新环球剖析的背后,除了算法的演进、算力的培育,数据(尤其是高质地数据)永久是绕不开的话题。很猛进程上,莫得海量数据的“投喂”就不会有大模子的出色发达。
联系词筋膜枪 自慰,信得过全国数据正在慢慢清寒。正如 OpenAI 接洽独创东谈主兼前首席科学家 Ilya Sutskever 此前所指出的,“算力在增长,但数据却莫得增长,因为咱们惟有一个互联网。数据就好比化石燃料,而燃料终将花费。”
就在当今正在举办的英伟达 GTC 2025 拓荒者大会上,接洽独创东谈主兼 CEO 黄仁勋在主题演讲中也提到,行业在快速且老本有用地扩大 AI 鸿沟方面所面对的挑战。“率先,数据问题,即从那处以及若何创建必要的数据来磨砺 AI 模子;其次,模子架构;临了,扩张王法。”他说谈。

合成数据,已被视为缓解 AI 行业数据稀缺问题的关节决策。
所谓合成数据(Synthetic Data),即由议论机生成的数据,不错通过模子和算法创建,用于补充或替代自施行全国中聚积的信得过数据。
借助合成数据,不错让构建 AI 模子所需的数据生成进程愈加可扩张、服务密集度更低,况且关于较小或资源较少的 AI 拓荒者来说愈加易于获取。表面层面,合成数据不错创造近乎无穷的 AI 磨砺数据起首。除此除外,心事保护亦然合成数据的一大上风,这关于医疗、银行以及政府机构等行业相称适用。
比如,在自动驾驶鸿沟,合成数据可模拟复杂路况、极点天气等长尾场景,加快自动驾驶算法的迭代,减少实地测试老本。
再比如,一家病院但愿构建一个用于跟踪某种类型癌症的 AI 模子,但惟有来自 1,000 名患者的极少数据集,那么就不错使用合成数据来补凑数据集、摒除偏差,并对信得过东谈主类的数据进行匿名化处理,从而达成更好的心事保护。
看到这里,那英伟达为什么要收购这么一家公司呢?简短顾虑一句话等于:补皆自家“AI 全栈”生态的数据层。
Gretel 专注于为拓荒者提供合成数据平台及 API,通过微调开源模子并添加心事保护功能,惩办 AI 磨砺中信得过数据不及或心事敏锐性问题。收购 Gretel 后有望补足英伟达在合成数据生成鸿沟的布局,与其已有用具造成协同,完善从硬件到软件、数据系统的“AI 全栈”生态链。
通过整合 Gretel 的合成数据时间,英伟达可平直为拓荒者提供高质地磨砺数据,缓解大模子对信得过数据的依赖,尤其适用于心事敏锐鸿沟(比如金融、医疗等),惩办生成式 AI 数据瓶颈,并增强拓荒者服务能力。
要知谈,英伟达连年来为拓荒者提供不少合成数据用具。比如,在 2022 年推出的合成数据用具 Omniverse Replicator,这次通过收购 Gretel,联接当时间平台能强化从 2D 到 3D、从单一模态到多模态的完好数据生成体系。
除此除外,Gretel 的 API 接口和微调能力可无缝接入英伟达的生成式 AI 服务套件,匡助拓荒者快速构建行业定制化模子,进而缩短 AI 拓荒门槛。
跟着信得过全国数据日渐清寒,大型科技公司也都在转向合成数据,包括 Meta、OpenAI、Anthropic 以及微软等巨头早已开动使用合成数据来磨砺 AI 模子。
比如,Meta 使用合成数据磨砺其先进的大言语模子 Llama 3,其中不少数据是由前一代模子 Llama 2 生成的;微软的 Phi-3 小言语模子部分基于合成数据进行磨砺。
跟着 Meta、微软等巨头纷繁加快布局合成数据,英伟达通过收购 Gretel 进一步牢固时间上风,可为硬件(比如 H100/H200 GPU)和软件生态提供相反化竞争力。
参考贵府:
1.https://www.wired.com/story/nvidia-gretel-acquisition-synthetic-training-data/
2.https://gretel.ai/
3.https://gretel.ai/blog
4.https://gretel.ai/navigator
5.https://gretel.ai/tabular-fine-tuning
6.https://gretel.ai/solutions/safe-data-sharing
7.https://gretel.ai/solutions/improve-ml-robustness
8.https://gretel.ai/solutions/power-generative-ai
运营/排版:何晨龙