随着人工智能技术的蓬勃发展,高质量数据的重要性愈发凸显,成为推动大模型竞争的关键要素之一。然而,数据存量的增长速度远远低于数据集规模的增长速度,据人工智能研究机构epoch的研究预测,语言数据可能在2030-2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。
高质量数据的稀缺性导致数据采集成本水涨船高,许多公司面临着数据获取困境。因此,引领人工智能领域的企业,如微软、OpenAI、Cohere等公司,纷纷转向使用合成数据作为解决方案,以降低数据成本,推动AI技术的发展。
合成数据有望成为解决数据不足、数据采集成本过高的关键,那么合成数据是如何合成的?与“真实”数据相比有何优劣?应用场景有哪些?哪些公司在合成数据布局上更有优势?
合成数据有望助力突破数据瓶颈
在人工智能迈入2.0时代的关键转折点,数据质量和数量成为了最为紧迫的挑战。然而,现有真实数据采集的成本高昂,且存在有限性,限制了人工智能技术的进一步发展。
Forrester将合成数据、强化学习、Transformer 网络、联邦学习和因果推理视为实现人工智能2.0的五项关键技术进展。合成数据是通过计算机模拟或算法生成的带有注释的信息,可模拟实际情况,补充真实数据的不足,提高数据质量和数量,并有效降低数据采集和处理的成本。
合成数据能够解决数据匮乏、数据质量、数据隐私等问题,提供现实世界难以或无法采集的数据,提高数据多样性和提升训练速度。
根据 美国AI研究机构Cognilytica 的数据,2021 年合成数据市场规模大概在 1.1 亿美元,到2027 年将达到 11.5 亿美元。Gartner 预测,到 2024 年用于训练 Al 的数据中有 60% 将是合成数据,到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。
数据合成可以分为两类,一是通过传统算法合成,需要明确的物理规律,例如图像生成,通过3D建模来渲染图像。难点在于逼真细致的建模,场景静态与动态合理与自洽,快速的建模技术与合理的建模成本。当模拟技术发展到⼀定的阶段,通过模拟获得感知数据是⼀种更好的获取数据的⽅式。因为其成本更低,质量更高,约束更少。
二是通过生成模型(AI)合成,这类数据并不是从⾃然中采集得到的,⽽是智能体⽣成的,比如⽂本数据。这类数据需要通过复杂的智能活动才能⽣成,AI可以模仿人类⽣成这类数据。利用已经学到的知识,AI通过思考可以对已有的知识进行整理,去伪存真,得到更⾼质量的数据,并通过逻辑推理,发现新的知识。由于世界上可用的开源⽂本数据已经大部分被利用了,可以预见这类AI生成的数据的比例会越来越高。
国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用,用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。
AI训练数据服务商appen表示,在处理真实世界的数据时,身份隐私的重要性将继续增加。合成数据创建人工生成数据集,因此数据中自然不包含个人身份信息。合成数据还可以快速生成大量数据,因此可以在无需时间或安全限制的情况下生成边缘用例数据。在2022年预测中,预见了对合成数据的需求,并与Mindtech合作,为客户提供合成数据。
中航证券高级分析师刘牧野对第一财经表示,合成数据相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式,建议关注国内进行AI算法研究,且拥有庞大数据的公司,包括百度(09888.HK)、阿里巴巴(09988.HK)、腾讯控股(00700.HK)、金山办公(688111.SH)、中国电信(601728.SH)等。
合成数据有望在金融、医疗、智能驾驶等领域率先落地
合成数据早期主要应用于计算机视觉领域,目前,合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据以其独特优势,为模型训练提供了更多样化的数据,从而使人工智能模型更可靠、更准确。这一趋势对于面临数据稀缺性或涉及敏感信息处理的行业尤为有益。
有研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个人类种族的子集。在这种情况下,合成数据可以在不需采集更多真实数据的情况下,轻松获取更多样化的训练数据。通过改变同一人的发型、头部姿势等特征,或者创造具有不同肤色、种族特征、骨骼结构等的面孔,让模型得到更广泛的训练,从而提高了可靠性。
在数据敏感的金融和生物医药领域,合成数据也展现了其隐私保护的巨大潜力。在金融行业,合成数据可以为金融机构提供一种有效的方法,用于在不提供敏感的历史交易信息的前提下,训练量化交易模型,从而提升获利能力。此外,合成数据还可以用于训练客服机器人,改善客户服务体验,为金融机构提供更智能、高效的客户支持。
合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集,可以在不泄露患者隐私信息的条件下训练相关模型,加速新药研发过程,发现潜在的治疗方法,提高医药领域的效率和准确性。
生物医药企业成都先导(688222.SH)通过海量合成数据、筛选数据与化合物活性数据,对万亿级库不断进行分子成药属性与化学合成质量的迭代与提升。截至2022年报告期末,公司的 DEL 库分子数量已超过 1.2 万亿个。
合成数据能够在短时间内生成大量数据,这对于依赖罕见事件的真实数据场景也尤为重要,例如在自动驾驶的性能测试中,极端天气下获取真实路况数据可能存在困难或危险。在所有可能的驾驶体验中,有太多的变量需要考虑,不能完全依赖于真车进行现场测试。合成数据比人工采集数据更安全、更快捷。
这些行业中,合成数据的应用都能有效解决数据隐私和数据获取的挑战,为各领域的科技发展和商业应用提供了全新的解决方案。通过合成数据的引入,这些行业能够更好地利用大数据、人工智能和机器学习等先进技术,实现更高效、更智能、更安全的发展,为数字经济时代带来更多创新与进步。
不过,appen表示,合成数据的使用速度大幅增长虽然为企业节省了时间和资金,但并非没有挑战,合成数据缺乏异常值,而这些异常值出现在自然的真实数据中,对于模型精确度至关重要。另外,合成数据的质量通常取决于用于生成的输入数据的质量,输入数据中的偏见很容易传播到合成数据中,因此不能低估使用高质量数据作为起点的重要性。所以需要将合成数据与人工标注的真实数据进行比较,作为额外的输出控制。
倍霖科技CEO杜霖也对第一财经表示,知识类合成数据会和真实数据共存、⽆法取代,但是合成数据的⽐例会逐步升⾼。真实数据承载着现实世界的新的信息,描述世界的最新状态,合成数据达标的是已有的规律和信息,是对过去的总结和推演发展,合成数据的⼤规模应⽤在于质量和成本。