高质量数据集典型案例 | 面向千穰大模型的民航高质量数据集

来源:国家数据局 发布时间:2025-11-28
面向千穰大模型的民航高质量数据集


推荐单位:中国民航信息集团有限公司

申报单位:中航信移动科技股份有限公司


一、背景


面向智能客服、民航票价监控、舱音识别、视觉/语音大模型、行李重建、人脸识别等多元化交通应用场景,构建覆盖文本、图像、视频、音频等多模态的数据处理能力,开展意图理解、目标检测、语音转写、语义分割等高质量数据加工,建设标准统一、结构清晰、可共享的数据集平台。最终通过构建高质量、多样化的数据基础设施,实现数据的高效流通与智能服务支撑,解决交通领域数据分散、质量不高、难以复用等关键难题。


整体框架图


二、方案和成效


一是明确数据基础设施建设思路与目标。构建多模态数据统一接入、处理与建库体系,实现数据从采集到建模的全流程标准化,构建通用底座能力;提供高效率、低成本、高精度的智能标注工具链,解决人工标注瓶颈;构建服务于千穰大模型预训练的数据资源池,强化行业模型本地化优化能力。


二是持续增强数据汇聚能力。汇聚PB级民航多源异构高质量数据集规模超,涵盖图像、视频、文本、语音、图文混合等五大模态,形成覆盖航站楼监控、机坪运行、旅客服务、安检识别、舱音分析等十余类核心业务场景的高质量数据资产池。同步构建10类统一标签体系和超100种标注规则,有效支撑算法工程、千穰大模型预训练和业务场景融合等多类数据使用需求,数据的复用率提升超50%,数据处理效率提升超2倍。


三是支撑典型业务应用,推动智能化服务落地。支撑的航旅纵横App拥有超1.5亿的庞大用户群,服务范围覆盖了国内外1600多家机场、230余家航空公司,全球民航信息覆盖度超过99%。广泛赋能多个民航重点业务领域,机坪全景智能识别系统建设成效突出,违规情况检出率达95%,误报率低于1%,机坪安全事件响应时效缩短60%,保障效率提升30%;智能客服系统实现语义理解能力跃升,提供超16万条高质量客服对话标注语料,实现意图识别准确率提升至90%以上。


三、创新点


一是构建“采集-清洗-标注-管理”一体化智能流程,自动完成多模态数据高精度标注,打造数据处理闭环。通过标注-训练协同迭代实现双向增强,利用Active Learning算法让千穰大模型自主筛选“最有价值数据”优先标注,标注效率提升40%,数据与模型形成动态优化循环。


二是制定民航统一数据标签与质量规范,明确多模态数据标注维度与质量指标,实现跨业务、跨部门数据标准化整合。引入隐私计算技术实现数据“可用不可见”,结合区块链存证数据流转轨迹,既打破“信息孤岛”提升集成效率,又保障全环节安全合规,数据共享响应速度提升90%。


三是以“场景驱动+服务导向”构建数据集体系,围绕航站楼监控、智能客服、安检识别等典型场景,定制包含多模态数据及场景化标签的专业数据集。搭建“数据超市”平台,业务方通过场景标签快速检索获取适配数据,响应时间从3天缩短至10分钟,实现数据供给与业务需求的精准对接。

附件:
全国数据标准化技术委员会 行业观点

全国数据标准化技术委员会 版权所有 ©2009-2025

地址:北京市东城区安定门东大街1号 中国电子技术标准化研究院

联系电话:010-64102867 传真:010-64102861 邮编:100007

京ICP备05013730号-69

京公网安备11010102004561号