在数据成为生产要素的AI大模型时代,数据治理的重要性不言而喻。那么,AI时代的银行数据治理工作该如何做呢?
事实上,当下,AI与数据治理正形成一种相辅相成的关系,两者相互赋能。据悉,多家银行已开展了相关探索。
AI需要高质量数据,对数据治理提出新要求
众所周知,数据是AI大模型的“燃料”,模型的综合能力与其训练数据的规模、质量和多样性有关。国家发改委创新和高技术发展司的文章中曾指出,没有海量、高质量的数据“投喂”,再先进的算法也只是无源之水。
高质量数据可驱动大模型应用性能提升,支撑AI赋能。尤其是对于银行来说,构建垂直、专业、合规的金融大模型需要高质量数据供给。有效的数据治理可破解高质量数据供给不足的瓶颈,实现人工智能真正大规模落地。
数据治理通过构建统一的数据平台,整合分散在银行各处的数据与知识,经过清洗、标注、建模或图谱化、向量化等过程,形成标准化、高质量的数据资产。据
《银行科技研究社》了解,基于国家层面的要求以及自身的需求,银行业正探索高质量数据集建设。
2025年6月,国务院国资委在上海召开“央国企金融领域人工智能高质量数据集工作推进会”,以响应“AI+”专项行动对高质量金融数据集建设的要求,深化金融数据开发利用。而金融机构通过建设标准化、场景化、智能化的高质量金融数据集,将显著提升行业智能风控能力、系统性风险预警水平及个性化服务质效。
工行软件开发中心不久前发文指出,在算法趋同、算力普惠的竞争环境下,银行的核心竞争力正加速向高质量数据集迁移。其提出观点,数据质量与治理能力已成为银行未来竞争的决定性因素。
事实上,这已是更多银行及其高管层的“共识”。
建行副行长雷鸣也曾在2025年10月的活动中指出,数据治理已演变成为商业银行竞争的重要组成部分。
因此,多家银行已启动面向AI的数据治理,高质量数据集建设成为重点。
例如,工行在依托企业级数据中台实现结构化数据的规模化沉淀、共享和应用的基础上,围绕非结构化数据打造集数据采集、数据清洗、数据标注、质量评估和数据运营为一体的企业知识工程,形成面向高质量数据集的知识运营能力,系统推进企业知识数据集的建设和应用,为人工智能模型训练提供高质量的数据支撑。该行具体的举措包括建设企业级知识工程体系、实现一站式的知识工程、完善高质量数据集运营机制等。
光大银行则在2025年12月的内部会议上确定了2个关于数据要素领域的实践方向,其中之一即“构建高质量数据集”,推动数据要素与AI深度融合。该行副行长杨兵兵表示,在AI时代,构建高质量数据集成为关键突破口,主要在于2个方面:一是多源数据融合,包括业务数据、“酶”数据、元数据等各种类型的结构化和非结构化数据;二是建立数字孪生,数字孪生主要包括对实际业务的仿真分析、对象建模、数据连接和可视化交互,通过数字孪生,AI对现实世界的理解会更加透彻,判断会更加准确,才能更好地实现智能决策。
不过,虽然高质量数据集对于银行来说相当重要,但相关建设正处于探索阶段,还面临不小的挑战。
AI赋能数据治理,可在多个方面发挥作用
在数据治理赋能AI的同时,AI也在赋能数据治理。
北京金融科技产业联盟2026年1月正式发布的《人工智能推动金融数据治理转型升级研究报告》梳理了传统数据治理模式面临的挑战,指出数据治理亟待从“人工主导”向“智能驱动”升级。
《报告》显示,人工智能关键技术可赋能数据治理,并从“面向核心支撑算法的技术:机器学习”“面向非结构化数据治理的技术:NLP与计算机视觉”“面向知识化数据治理的技术:知识图谱”“面向隐私保护的数据治理技术:联邦学习”4方面展开介绍。
其中,机器学习技术可直接、广泛地应用于数据治理的核心场景,解决传统规则方法难以处理的复杂问题。例如,在数据质量管理方面,机器学习能够基于历史样本自动识别数据中的错误、缺失与异常,实现对质量问题的实时监控与预警;在数据分类与标注环节,机器学习通过分析多维特征和复杂模式,能够自动生成分类标签并进行敏感度分级,减少人工干预。
知识图谱技术则以图结构组织和表示知识,为解决数据关联与语义分析问题提供了有效方案。其核心价值在于通过语义建模和关联计算,将分散、异构的数据转化为结构化的知识网络,实现数据的统一理解、动态管理与智能推理,提升数据治理的质量与效率。例如,在数据血缘追踪与质量监控方面,通过图结构存储数据间的源头、流转、变换关系,知识图谱可以构建出完整的数据血缘链路,实现从源数据到报表指标的全路径可视化追踪。
因此,银行可借助AI实现更高效的数据治理。据《银行科技研究社》了解,多家银行已在此方向进行实践。
2025年12月消息,南京银行联合阿里云完成银行数据安全分级分类项目的阶段性验证,而数据安全分级分类是数据治理的基石。在此项目中,工程师仅使用6000条训练数据,便实现了94.6%的准确率。
据悉,针对数据安全分级分类面临的挑战,南京银行与阿里云探索出一条技术路径——以通义千问大模型为核心,依托“模型飞轮”范式与通义点金飞轮平台,构建端到端的金融垂直领域模型生产能力。
其中,针对标注成本高的问题,团队应用阿里云提出的“模型飞轮”范式:先由更大尺寸的基座模型(如通义千问-Max)基于少量种子样本生成大量高置信度伪标签数据,再用于对通义千问3-4B进行监督微调与强化学习优化。这一过程实现了“以AI造AI”,在仅需6000条真实标注数据的情况下,等效获得了数万条训练样本的效果,缓解了数据瓶颈。
此外,整个项目运行于阿里云专为金融场景打造的“通义点金飞轮平台”之上。该平台集成了“合成—训练—评测—应用—迭代”五大模块,支持从原始数据清洗、合成增强、模型训练到上线部署的全生命周期管理。
农行则在更早前介绍过AI赋能数据治理方面的实践。该行在数据资产服务、数据安全保护、数据质量监测、数据治理工具等方面探索AI应用,推动实现数据治理智能化。
其中,依托AI等技术,及时准确发现数据问题,助力开展数据治理,提升数据质量。一方面,建立数据智能监测预警机制,基于往期数据的属性(如数据的数据量、字段的空值率、金额总和等),预测当期数据的属性数值,将预测值与当期数据的实际属性值进行比对,若两者的差值超出合理阈值则自动产生预警,自动识别数据波动的规律和异常;另一方面,针对发现的数据质量问题提供智能化数据治理建议,根据数据质量问题信息清单对问题数据进行标注,形成问题数据分类标签体系,智能识别分类数据质量问题等。
写在最后
AI与数据治理的相互赋能,已引起金融业的关注,一些中小银行也开始行动。就在近期,赣州银行就AI+数据治理双向赋能项目启动交流报名,以推动数据资产价值释放与管理效能提升。
据悉,交流内容的一方面是“AI赋能数据治理”,包括但不限于AI赋能元数据管理、主数据管理、数据质量提升、数据标准/数据字典管理、数据模型管理、数据资产管理等;另一方面是“数据/数据治理赋能AI大模型”,包括但不限于高质量数据集建设、数据标注、数据资产入表等。
可见,AI时代对数据治理提出了更高的要求,同时AI也在助力更有效的数据治理。
本文转摘移动支付网。


