每日热讯!AI大模型“无米下锅”?合成数据多重优势凸显 硅谷巨头正加速布局
《科创板日报》5月20日讯(编辑邱思雨)5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,
凤凰网 2023-05-20 15:47:16
《科创板日报》5月20日讯(编辑 邱思雨)5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,谋划建设国家级数据训练基地。
北京提出,在谋划建设国家级数据训练基地的过程中,要开发涵盖文本、图像、视频等多模态的高质量数据集,助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。
(资料图片)
回溯到今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。
被多次点名强调的合成数据,究竟是何方神圣?
顾名思义,合成数据(synthetic data)是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。但合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试并验证大模型。
在训练大模型的过程中,除了需要庞大的数据量以外,数据的质量同样至关重要。例如,ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测,ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看,数据来源严重依赖于现有的互联网公开文本数据。
但互联网文本数据有限,GPT-3的参数量已达到千亿级别,如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题恐成为训练的瓶颈。在此背景下,合成数据的重要性日益凸显。
01 合成数据:更高效率、更低成本、更高质量
正如上文所述,“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测,到2024年,人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看:
“更高效率”:合成数据能够在相对较短的时间内大量生成,且能够精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,便于在更大范围内分享和使用;
“更低成本”:合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分;
“更高质量”:合成数据能够补充边缘案例,可以通过深度学习算法合成原始数据中没有的罕见样本,保障了数据的多样化。
除此以外,在AIGC时代,数据的隐私性、保密性、安全性等问题尤为重要。例如,医疗行业的数据通常会包括患者个人健康信息等;金融行业则涉及到历史交易信息等敏感数据。
利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中,通过合成数据集,医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;金融机构则能够在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验。
《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。
02 先行应用于计算机视觉 巨头已争相布局
具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。
以自动驾驶领域为例,实际驾驶场景路况复杂、变量较多,且极端天气下获取真实路况数据可能存在困难或危险,因此难以完全依赖于真车现场数据。但是,通过合成数据集模拟各种驾驶场景,就能够在保障人员和设备安全的条件下,提升自动驾驶能力。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发,以解决欺诈检测和反洗钱等问题,并改善服务体验;美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。
微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。
英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;
谷歌利用AI生成的医疗记录来帮助预测保险诈骗;
微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库。
Meta于2021年11月收购了合成数据创业公司AI.Reverie。
国内方面,据《科创板日报》不完全统计,A股上市公司中:
天风证券、上海证券等多家机构分析师一致认为,AIGC模型算法创建的合成数据功能将为新技术产业提供支撑,让数据约束不再成为产业发展瓶颈。
《科创板日报》5月20日讯(编辑邱思雨)5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,
1、维生素B有助于促进皮肤、头发和指甲的健康维生素B1防治脂溢性皮炎、湿疹、增进皮肤健康之功效。2、维生
交易商品牌 产地交货地最新报价甲基丙烯酸叔丁酯 含量:99 8%,包装:170公斤 桶上海泉昕进出口贸易有限公
火影忍者的动画制作可圈可点,有无比精彩的打斗场面,也有华丽不香浮夸的特效,更有美轮美奂的另类画风,同
哈尔滨市气象台5月20日9时15分发布沙尘暴黄色预警信号:目前主城区、双城、呼兰已出现局地能见度较低的沙尘
在今年世界建筑节的下一部独家电影中,地峡的格兰特·贝利(GrantBailey)解释了奥克兰公司屡获殊荣的科普帕卡自
追着花儿看新疆工人日报-中工网记者徐新星吴铎思生产线上,工人们正加紧拼装底盘;组装车间区域,几名工人
心动再进化,宠爱更无线。“5·20”告白日之际,“智慧轻奢旗舰SUV”星途瑶光正式开启首次OTA升级,以多达8
马刺愿送走状元签吗?美媒晒四队交易方案:哈登回火箭大帝去圣城,火箭,奇才,马刺队,恩比德,状元签,76人队,
23交通银行绿色金融债发布发行公告
如果你是周杰伦的歌迷,那你肯定听过《爱在西元前》。没想到这首歌竟成了神预言。据发表在最新一期《科学》
2023年5月19日,由成都市教育科学研究院主办,成都高新区教育发展中心承办,成都高新区尚阳小学协办的成都
1、预包装食品的标签应当标注名称、规格、净含量、生产日期;成分或者配料表;生产者的名称、地址、联系方
张稀哲:我们比对手少休息两天还是客场,球员上场都会全力以赴,国安,中超,张稀哲,上海申花,德国足球,足球运
5月19日,江苏省如皋市如城街道司法所干警、法制副校长张娟在如皋市实验小学进行民法典宣传活动。活动以PPT