2024年中央经济工作会议指出,开展“人工智能+”行动,以科技创新引领新质生产力发展。高质量数据集是通过系统性筛选、清洗、标注、增强合成、质量评估等环节形成的标准化数据产品,具有格式统一、质量可控、场景适配性强等特点,是驱动人工智能模型训练、科学研究、数据挖掘及检验检测的核心要素。工业是我国经济发展的核心支柱,同时也是保障国家战略安全的主阵地,加快开展工业领域高质量数据集建设,是支撑“人工智能+”在工业场景落地,推动人工智能赋能新型工业化,提高我国工业国际竞争力的新时代护城河。01
创新发展理念,破解工业高质量数据集建设密码
随着基础大模型性能的持续突破,高质量数据集建设已成为人工智能赋能新型工业化的重要抓手,成为工业企业降本增效、重塑企业竞争力的战略选择,亟需创新发展理念,推动工业数据从“规模红利”向“质量红利”和“数据红利”转变。
一是转变发展思路,加快推动向以数据为中心转型。工业领域是人工智能应用的重要场景,全球都在加速布局。例如,NVIDIA推出了Omniverse平台,通过构建工业数字孪生数据引擎打造高质量数据集;西门子与微软联合推出了工业元宇宙计划,构建覆盖工业全生命周期的数据集。这些案例表明,以数据为中心的发展模式正成为工业人工智能的关键。通过深度挖掘场景需求,融合先进技术,构建高质量、生态化的数据集,能够有效提升工业智能水平。因此,我国应加快推动向以数据为中心转型,创新发展路径,以提升工业人工智能的核心竞争力。
二是发挥双重优势,塑造高质量数据集建设新优势。我国作为全球工业大国,形成了世界上最为完整的工业体系,数据资源和应用场景极为丰富,开展工业高质量数据集的开发利用价值巨大。我国需充分发挥海量工业数据规模和工业场景多样性优势,聚焦研发设计、生产制造、运维服务、经营管理等关键环节,构建具有国际竞争力的差异化数据集体系,为我国在全球工业智能化浪潮中抢占先机、推动高质量数据集建设奠定良好基础。
三是坚持场景牵引,打通高质量数据集构建新路径。场景是释放数据要素价值的前提,更是数据要素价值释放的核心载体。当前,多模态大模型、推理大模型、函数召回大模型等产品不断突破,正在重构“场景-数据-模型”的共生关系。以场景需求为锚点,将工业机理与数据要素深度融合,是破解模型精度不足、场景赋能不深、数据利用率低等问题的关键路径。02加大创新力度,打造高质量数据集建设核心引擎
创新是人工智能产业高质量发展的核心引擎,也是突破工业数据集建设瓶颈的关键抓手。围绕核心技术攻关、标准体系完善和创新载体打造三方面重点发力,为人工智能深度赋能新型工业化筑牢高质量数据集根基。
一是加快核心技术攻关,突破工业数据集构建与融合应用瓶颈。以国际前沿人工智能需求为导向,开展工业领域高质量数据集的关键技术攻关,加强工业深度思维链数据集打造、多源异构数据融合决策、长尾场景样本合成、智能数据标注、数据集质量评估和提升等关键技术研发,加快研制先进自主可控的高质量数据集工具链,实现数据、模型、工具、系统和制造业场景等要素的融合,对于推进工业领域高质量数据集打造具有重要意义。例如,针对工业高价值长尾场景,要加快建立高精度工业数据合成技术体系,通过融合“生成式人工智能-工业第一性原理-工业仿真引擎”,三位一体合成稀缺工况数据,突破工业长尾场景数据瓶颈。
二是加强标准体系完善,构建工业数据集质量与安全双轨标准。围绕高质量数据集全生命周期,结合工业企业业务实际,鼓励从质量评估、安全合规两方面协同推进工业数据集标准研制,覆盖数据集质量评估、数据集分层分类分级、数据集安全保障等工业领域数据集开发利用关键问题,开展工业领域数据集质量评估和提升行动,推动模型企业、数据企业和工业企业协同发展。
三是加速打造创新载体,构建产学研用协同的数据集生态体系。支持工业企业联合模型企业、科研机构、高等院校等主体联合建立打造高水平创新载体,建设工业数据和模型技术“测试场”,以生产环境验证数据和模型技术方案。推动产学研用协同,培养具有工业背景的高水平数据人才,加快科技成果转化和应用落地,鼓励有条件的工业企业支持和参与开源生态建设,推动工业数据集开放共享。03