高质量数据集典型案例 | 国家能源集团高质量数据集全生命周期实践

来源:国家数据局 发布时间:2025-11-14
国家能源集团高质量数据集全生命周期实践

推荐单位:国家能源投资集团有限责任公司

申报单位:国能信息技术有限公司

一、背景

为贯彻落实《国资央企“AI+”专项行动实施要点(2025)》关于“建设一批高质量行业数据集”的工作要求,国家能源集团聚焦发电领域多源异构数据难整合、数据质量参差影响模型精度、行业场景适配数据集匮乏等问题,以“擎源”发电大模型建设为抓手,推动发电领域高质量数据集构建。预期打造适配发电领域多元应用场景的高质量数据集,支撑擎源发电大模型训练,助力设备智能诊断等场景应用,同步提炼可复制的数据集全流程工作方法论。

国家能源集团高质量数据集建设流程

二、方案和成效

一是打造适配发电领域多元应用场景的高质量数据集,支撑擎源发电大模型训练,助力设备智能诊断等场景应用。以擎源发电大模型75个场景需求为牵引,系统梳理发电行业超过700TB的数据资料,依托集团人工智能数据工程工具链,通过采集、预清洗、标注、评测和优化到交付的全流程管理,从中清洗出450GB的高质量数据集,覆盖了文本、图像、视频等多种类型。

二是依托形成的高质量数据集成果,“擎源”发电大模型在多业务域实现深度赋能,应用成效显著。在电力交易域,面对电力调度方式革命给交易员带来的挑战,“擎源”实现了从气象感知到交易执行的全链条优化,实现风速预测误差降低16%,防汛预警效率提升24.3%,新能源功率及电价预测准确率分别提升2.8%和6.2%;在产调中枢域,针对新能源大规模并网带来的调度策略优化难题,燃煤采购方案生成时间从传统人工1天缩短至5分钟,配煤掺烧方案一键生成。

三是立足擎源发电大模型建设实践,提炼可复制的数据集全流程工作方法论。以“采集标准化、加工智能化、标注精准化、应用场景化、交付规范化”为核心,系统构建一套科学完备的高质量数据集管理规范体系,为各行业高效构建数据集提供可借鉴、可操作、可执行方法论,推动数据要素价值在多领域释放。

三、创新点

一是创新采用“业务域长+技术域长”双轨协同机制打破业务与技术壁垒。深度绑定发电业务专家与数据工程团队,构建总体统筹与技术/业务专家共建、协同标注机制,贯穿数据全流程。

二是通过文档解析、自动生成和数据增强等智能工具赋能,加速数据处理。融合跨模态语义对齐、数据增强等技术建立“采集、加工、标注、验证、交付”闭环流程,以此实现数据集全生命周期的精细化管控,进一步提升数据处理效率与质量。

三是方法论为行业及社会高质量数据集建设提供领先实践参考。作为煤炭、发电领域高质量数据集国家标准以及智慧能源中央企业数据产业共同体的牵头单位,推动共建行业级数据集,探索“标准引领建设、实践反哺标准”的闭环示范。

附件:
全国数据标准化技术委员会 行业观点

全国数据标准化技术委员会 版权所有 ©2009-2025

地址:北京市东城区安定门东大街1号 中国电子技术标准化研究院

联系电话:010-64102867 传真:010-64102861 邮编:100007

京ICP备05013730号-69

京公网安备11010102004561号