推荐单位:中国电子科技集团有限公司
申报单位:中国司法大数据研究院有限公司
一、背景
高质量数据集是人工智能大模型训练、推理和验证的关键基础,大模型与垂直领域的深度融合同样需要高质量数据集的支撑。当前我国在司法等垂类领域的高质量数据集存在需求不明确、供给不充分、匹配效率不高等问题,形成了人工智能模型训练和优化的数据 “瓶颈”。中国司法大数据研究院有限公司打造了面向司法智能化的高质量法律专业数据集,解决了法律知识语料构建过程中存在的知识关联弱、标注效率低、质量难验证等问题,实现了高效高质的法律专业数据与知识的构建能力,为司法垂直领域大模型的高质量发展奠定基础。

总体框架
二、方案和成效
一是夯实数据基石。以“法律法规、司法解释、裁判文书”等数据为基础,结合司法领域专业知识和应用场景需要,构建形成了包含1.5亿余份公开文书、6000余万裁判规则、450余万部法律法规与司法解释、20余万份指导案例及其案例解读、20余万实务观点等丰富内容的高质量数据集,为法律智能服务提供坚实基础。
二是推动模型建设。以法律专业高质量数据集为依托,通过多阶段监督微调和强化学习,研发形成具备深度推理能力的“法研万法”法律大模型,面向数字法院、数字政务、数字纪检、智慧仲裁、合规风控等领域,提供审判辅助、调解辅助、纪检监察辅助、法规审查、法律咨询等司法领域 “模型+”应用服务能力。结合RAG知识检索增强架构、MOE技术,实现数据自动改写、合成,极大降低模型 “幻觉” 问题,幻觉率低于0.5%。
三是促进场景应用。数据集支持国家重点研发计划“全案由智能裁判关键技术与装备研究”接榜挂帅项目攻关,成果推广于130余家法院试点应用。通过细分领域知识分类,研发形成27类法律业务应用,支撑向中央和国家机关报送专题分析报告1600余份,类案智能推送、规范量刑辅助等模型产品实现全国3400 多家法院覆盖,模型支撑金融机构加强风险防控,年服务量超150亿次,企业风控合规模型为30多家央企及20余家地方大型国企提供预警,避免损失超百亿元。
三、创新点
一是加强技术驱动。创新法律逻辑驱动的知识融合技术,整合碎片化知识构建多维度的法律专业知识库。攻关司法价值对齐动态评估优化方法,结合量化指标与智能引擎保障法律专业数据集质量与伦理合规性。
二是强化智能辅助。引入“专家+AI辅助”双轨制,基于法律专家知识,引入AI智能辅助,强化动态评估反馈,支撑实现数据集的智能清洗、动态生成、自动构建与优化,进一步提升数据集构建的智能化水平。
三是创新机制赋能。针对法律专业领域数据集构建中存在的知识关联弱、标注效率低、质量难验证等难题,首创“知识增强驱动-法律逻辑约束-动态可信治理”三位一体的知识自动生成机制,高效处理千万级的法律专业数据噪声与冲突,支撑数据集的高效构建。

全国数据标准化技术委员会 版权所有 ©2009-2025
地址:北京市东城区安定门东大街1号 中国电子技术标准化研究院
联系电话:010-64102867 传真:010-64102861 邮编:100007