酒色网小说 乌镇“智”新期间丨大模子濒临高质地数据穷乏 国产 AI 数据合成与坐褥平台乌镇“首发”
封面新闻记者 张越熙酒色网小说
11月 19 日下昼,行业大模子、具身智能、算力、芯片、数据合成等10 项首发后果在乌镇峰会登台路演, 其中 AI 数据合成与坐褥平台AIGD(AI Generated Data)因聚焦“数据合成”获粗鄙关怀。“改日的AI利用需要多量稀缺且难以赢得的长余数据,如自动驾驶中的极点天气与极点路况数据,具身智能锤真金不怕火所需要的复杂场景数据。在此布景下,数据合成成为要津。”蚂蚁数科AI科技时代认真东谈主、蚂蚁天玑推行室主任李哲现场向记者先容。
AI 发展正濒临着高质地数据穷乏的问题。频年来,伴跟着大模子时代的快速发展,机器学习也正从“以模子为中心”转向“以数据为中心”,高质地数据不错更好地模拟客不雅寰球,栽植模子的准确性和踏实性,可是“到 2026 年,现有的用于 AI 模子锤真金不怕火的高质地谈话数据将虚耗”,据Epoch AI Research探讨团队展望。Gartner 默示,到 2030 年,合成数据将成为 AI 模子的主要锤真金不怕火数据开头;2024 年, 60% 的 AI 数据将是合成数据,AI换脸被用于模拟、展望场景和镌汰风险。
记者在2024年寰球互联网大会乌镇峰会了解到,AIGD平台是由蚂蚁数科陈诉的首发后果,平台可通过大范畴合成互联网所不秘籍的高质地、高价值垂直语料数据,匡助科技厂商进行 AI 模子锤真金不怕火。记者了解到,AIGD具备 PB 级数据坐褥能力,支捏数据从生成到锤真金不怕火全经由自动化经管,自动化率达到 80%,这极大提高了数据经管的遵守和质地。此外,平台自研15 余种数据合成用具,当今不错合成图片、视频、3D模子、多模态图文视频对、多轮对话、语音问号、心率脑电信号、结构化来往数据等多模态数据,以疯狂多种利用场景下的 AI 模子锤真金不怕火需求。
杨超越 ai换脸业内东谈主士广泛以为,“高质地数据”是 AI 大模子深切到产业的热切基础,莫得好的数据作念撑捏,一切 AI 利用齐是空中楼阁。近日,OpenAI职工爆料说,“新模子‘莫得那么大飞跃’”,主要原因之一即是高质地数据不及所导致的。本年 9 月份, OpenAI 发布推理模子o1,带来了强化学习锤真金不怕火新范式,通过自博弈强化学习,将合成数据的表情锤真金不怕火给大模子,从而大幅增多大模子逻辑推理能力。
“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一酒色网小说,此外还包括数据标注、质检等能力。在数据标注方面,通过东谈主机协同进行标注,东谈主工智能算法大要自动识别和预经管大部分基础信息,预标注模子依赖东谈主工标注量镌汰了 70%以上。在数据质检方面,平台会笔据元信息支捏不同粒度的数据质地统计,最猛进度和解数据,保证合成及标注后的数据合适预期质地条目。李哲在乌镇峰会上默示:“咱们行将迎来 AI 就业产业的黄金年代,蚂蚁数科将会强项在 AI ToB 鸿沟过问,让 AI 深切千行百业。”