技术应用 | 大数据测试技术的智能化跃迁之路
创始人
2025-07-07 13:00:35
0

文/上海浦东发展银行总行数据管理部 褚杰 徐欣 周犇

大数据技术在商业银行中,贯穿了风险管理、客户关系管理、精准营销、运营优化、产品创新、合规监管等多个关键领域,帮助银行提升决策科学性、增强风险管理能力、推动业务创新并提高运营效率,为商业银行的数智化转型提供了强大的技术支撑。然而,随着数据规模的爆炸性增长和业务复杂度的不断提升,大数据系统在数据量、复杂性、处理方式和业务需求等方面面临新的挑战。如何确保数据的高质量、系统的高稳定性,以及业务流程的高效性,成为商业银行亟待解决的问题,大数据测试技术在此背景下应运而生。大数据测试技术是针对大数据系统的特性,采用专门的测试方法和工具,对数据的准确性、完整性、一致性,以及系统的性能、稳定性、安全性等进行验证和评估的一系列技术手段,在保障数据质量、提升系统稳定性、优化业务流程等方面发挥着至关重要的作用,为企业的数智化转型、数据驱动的决策和业务创新提供坚实的技术保障。

商业银行大数据测试技术概述

商业银行大数据系统是基于大数据技术构建的综合性信息处理平台,围绕数据的采集、存储、处理、分析和服务开展,通过数据挖掘、分析和建模等手段,为银行的业务决策、风险控制、客户服务和运营管理提供支持,常见的商业银行大数据系统架构包含数据采集层、数据存储层、数据处理层、数据应用层。浦发银行建设的大数据架构,在数据采集层对内部数据和外部数据进行集中统一交换;在数据存储层采用分布式存储技术存储海量数据,同时提供数据备份及容错机制,确保数据的安全性和可靠性;在数据处理层运用分布式计算框架,以及数据清洗、转换、处理等技术,对原始数据进行处理;在数据分析层利用传统分析方法、机器学习、深度学习算法对处理后的数据进行深入分析;在数据应用层将数据分析结果以可视化报表、智能决策支持系统、个性化推荐系统等形式呈现给银行的管理人员、业务人员和客户,将数据转化为业务价值。

商业银行大数据系统的建设和运行中,在数据层面存在数据质量参差不齐、数据一致性维护困难、数据关联性复杂等挑战;在技术层面存在分布式架构资源负担、数据存储与管理复杂等调整;在安全层面,存在数据泄漏风险、合规风险等挑战。这些挑战不仅影响大数据系统的应用效果,也制约了银行的数智化转型进程,大数据测试技术从数据质量、性能优化、安全保障等多个方面着手应对。

大数据系统的测试技术通过仿真数据场景实现,目标是在复杂环境下确保系统行为符合预期,同时平衡效率与资源成本。常见的大数据测试技术场景有数据质量测试、性能测试、功能测试、安全测试等。因其存在数据规模大、测试场景复杂、时效性要求高等特点,与传统测试存在显著差异,主要体现在测试对象、测试方法、测试关注点、测试环境和测试工具(见表)。

表 传统测试与大数据测试对比

大数据测试技术对测试人员的技能也存在更高要求,测试人员除了具备传统测试人员应具备的软件测试理论与方法,熟悉测试流程和工具,了解软件开发技术和编程语言,还需要掌握大数据相关的技术和知识,熟悉数据处理和数据分析的方法,具备数据质量意识和安全意识。

浦发银行大数据测试技术实践

1. 大数据测试技术实践场景

(1)数据质量测试

为实现质量监控的智能化进程,在传统规则部署方法的基础上,浦发银行创新性地自主研发质量检查管控工具海狸,按表级定制化配置质量规则,实现质量检查策略的灵活部署。并结合数据属性及时效要求,进行权重分析评级,建立事前、事中和事后三个阶段的优先级分类,实现全链路数据质量测试保障全覆盖。不仅实现生产数据精准监控,也同步运用至测试环节,提前感知质量风险,突破了数据战略与IT战略的融合瓶颈。

浦发银行以数据治理为抓手,以数据规范性、完整性、一致性、及时性、有效性、唯一性为评价原则,建立数据全生命周期的数据质量测试监控体系。其中数据规范性覆盖精度缺失、乱码校验、日期格式校验等,数据完整性覆盖脏数据校验等场景,数据有效性和一致性涉及数据量异常波动校验、跨系统间供数策略异常测试等,数据及时性和唯一性包括数据作业延迟、数据主键重复等情况。

(2)性能测试

大数据技术的性能指标是衡量其运行效率与服务质量的关键,针对此场景,浦发银行创新性地提出了性能瓶颈的突破方案,采用数据吞吐量、响应时间、资源利用率等几个代表性指标进行测试与分析,达到实时性、动态性、稳定性的进一步提升。浦发银行采用压力测试、并发测试、负载测试等一系列联合测试方案,以保障数据平台在性能侧的稳定和高效。

在压力测试方面,通过确认测试目标,例如平台最大数据处理量、最大用户访问量等,在测试实施中,模拟输入大规模数据分析或查询请求等场景,结合实时监测数据吞吐、响应时间、资源利用率等关键指标测算结果并分析压力瓶颈。

在并发测试方面,浦发银行通过自主研发的数据批量监控系统海鹞,模拟大量任务同时访问平台,并逐步加压,并实时监测任务平均完成时间及系统资源负载情况,观察指标拐点进而确认稳定状态下的最大并发数,克服传统方法在资源并发方面的局限性。

在负载测试方面,更加考虑系统硬件的承载情况,浦发银行通过自主研发一站式大数据综合管理智能平台玳瑁,实时关注并识别系统倒指标是否临近或突破安全阈值。为了进一步识别性能瓶颈并分析改进,帮助提升数据平台的吞吐、响应、并发等关键指标并稳定运行。实践中通常根据测试结果结合平台架构设计、资源管理和数据集市运营等实际情况分析并优化,采取如内存分配、缓存机制、动态资源调整等方向的针对性优化,为负载问题的解决提供了新的思路。

(3)功能测试

针对业务需求和性能需求融合难的问题,浦发银行大数据平台ETL功能测试实践中围绕数据抽取、数据转换、数据加载、数据下发四个阶段开展功能测试,保障数据从源系统准确、高效地流转至数据平台。在数据抽取功能测试中,关注抽取数据的完整性、准确性和功能运行的可靠性,在实践中测试源数据是否被准确并完整提取,并充分测试数据抽取的功能是否能在大数据量、大字段表的场景下保持稳定高效运作;在数据转换功能测试中,关注并测试所抽取的数据能否高效地传输至数据平台并正确地转换为标准数据格式;在数据加载阶段,通过对数据是否正常入表,是否存在异常数据进行相关测试,做好数据加载的最后一道测试环节;在数据下发阶段,关注并测试数据文本发布至对象存储阶段是否存在传输接口异常,并充分验证多并发、大数据量下的文本吞吐效率及稳定性。

(4)安全测试

根据数据安全管理规范,数据加密、访问控制及数据备份均为数据安全管控的重要环节。

在数据加密方面,浦发银行大数据基于自主可控加密算法,自主研发大数据UDF加密函数,与传统方法相比,通过正确性测试、一致性测试和性能测试,确保所使用的加密算法按照标准规范实现加密,同时在不同集群环境下执行多次相同加密操作,验证加密结果是否一致,实现算法稳定性以及加密效率的提升。基于此,浦发银行开发了基于加密函数辅助的敏感字段识别工具,进一步实现敏感字段的识别、打标、加密,克服传统方法带来的识别误差。

在访问控制方面,主要通过用户角色的赋权及回收CASE化来实现。针对数据访问的权限管控场景,标准化测试用例,模拟赋权及用户登录流程,进行全流程自动化测试。

在数据备份与恢复测试方面,浦发银行自研智能开发套件实现数据备份传输中的完整性、一致性和连续性测试保障、其中,通过比对文件md5值、checksum值等,实现备份和恢复数据的完整性测试验证;通过脚本自动化,定期模拟灾难恢复场景,评估从备份中恢复数据后的一致性及可用性;通过将备份与恢复流程集成自动化脚本,制定并执行定期的数据恢复演练计划,进行业务连续性校验。

2. 大数据测试技术运行流程

在数据任务的测试管理上,浦发银行创新性地提出每日数据任务批量模拟方案,使用生产环境的脱敏数据切片作为数据基础,配合调度任务信息,进行全批量测试,高效地测试数据上下游之间的变更联动,避免上游变更未及时通知导致的下游数据问题、数据作业报错。同时针对金融业的特殊场景,全批量测试会分成两个日期轮流进行,一次模拟的是上年年末的批量,一次模拟的是本年年初的批量。

在测试数据准备上,针对数据脱敏传统方案带来的关联性问题,浦发银行构建了数据仓库技术、业务元数据数字画像知识库,基于LightGBM、机器学习算法,提出字段级血缘工具解决方案,智能解析上、下游数据对象元数据,获取含敏感信息数据(如客户个人信息、财务数据等),采用多种数据脱敏策略(包括替换、加密、截取等),合成脱敏数据文本;通过自动化数据分发和共享流程,实现业务、生产、测试跨网段数据传输与同步,定期进行审查和更新测试数据,确保始终符合实际业务需求,实现数据全生命周期安全管理。

全批量测试过程中,数据平台先行恢复基础数据和调度任务编排信息,随后将本月待交付的数据任务需求开展CASE封装并提交部署。部署完成后,进行模拟测试,并根据全批量结果,收集整理报错信息,形成测试报告和上线投产材料(如图所示)。

图 全批量测试交付流程

3. 融入DataOps理念的智能化测试工具与平台

浦发银行自研Dataworks数据研发中台,做到了对数据需求、数据研发、数据测试、运维管理的一站式整合;并通过流程的整合,打通了整个数据链路、数据团队的流程壁垒。一方面,平台将传统的测试流程进一步前置,进一步提升了开发效率。在开发阶段就提供了数据作业和调度编排的封装测试;自动化解析单任务执行日志,对不合规、存在性能问题、语法问题的数据任务提前拦截,降低了对测试流程的依赖,数据测试团队将更专注于覆盖数据上下游的全批量仿真测试。另一方面,对数据使用方的开发能力、往期变更质量、运维管理能力,以及本次数据变更内容及下游影响范围进行自动化分析,提供相较于传统方法更灵活的交付门禁。

基于一站式大数据综合服务平台,浦发银行大数据测试提供统一在线研发测试服务。通过Dataworks平台屏蔽了系统间技术栈差异,覆盖Hadoop数据平台、MPP数据平台等各类应用组件,提供标准化应用研发测试服务,支撑应用作业开发自测、全批量测试、打包及部署流程。通过高效整合各类测试场景,支持常规数量、准实时多批次测试场景,提升研发测试效能和灵活度,支撑“稳态+敏态”并举的各类需求落地。

在数据质量监督层面,浦发银行大数据团队发布自主研发的高性能数据质量检控产品-海狸,通过该产品对大数据集群每日的加载数据开展自动化监控,分析和过滤数据质量问题并形成检测报告,实现自动化一键部署、自动化数据监测,检测数据可视化。针对业务数据特点、重要性和质量监控目标,制定数据质量检验规则,及时发现数据质量问题,联合数据治理建设,建立上下联动的数据质量跟踪溯源机制,推动业务数据质量进一步提升。

浦发银行大数据测试技术,通过DataOps理念的融入、业务与技术的结合,提出了浦发特色测试技术方案,一方面保障了浦发银行月均1000项数据需求的稳定交付,3000项数据作业的协同变更。另一方面通过精益化的管理,提升了部分重点业务需求的交付周期,达到最快1天交付的目标。通过精细化的测试管理,数据及作业质量不断提升,批量生产运行稳定率常年达99.9%,保障生产稳定运行及业务稳定交付。

大数据测试技术展望与发展趋势

在现有数据规模的爆炸性增长和业务复杂度不断提升的背景下,浦发银行通过融合大数据测试技术与智能化、实时化、全链路化、自动化方案实现了大数据测试技术的最佳实践。未来大数据测试技术的发展方向,将更注重与新兴AI技术、区块链技术、数字孪生技术、量子计算技术的深度融合。通过自动化用例生成、异常模式预测、自愈性测试等方法深化智能化测试;通过数据可信度测试、隐私与合规测试、数据治理测试等方法实现多维度数据质量保障;通过开发阶段介入,持续集成流水线等方法加强测试的左移;随着云原生与分布式测试技术的普及,向多云及混合云环境适配性方面发展,扩充弹性扩缩容测试、边缘计算测试,浦发银行将不断探索,在保障数据可信度的同时,推动业务价值的快速交付,构筑全生命周期数据防线,为各类业务场景提供安全可靠的保障。

(此文刊发于《金融电子化》2025年4月上半月刊)

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
原创 预... 从销量上来看,两千元左右的手机更受大众消费者的喜爱,这其中爆发了不少爆款手机,而国内各大手机厂商也都...
宁德时代取得温度传感器相关专利... 金融界2024年12月19日消息,国家知识产权局信息显示,宁德时代新能源科技股份有限公司取得一项名为...
“最准最快最久最少”纷纷亮相,... 医疗器械及医药保健展区一直都是进博会上“最卷”的展区之一。要得到关注,不拿出“绝活”不行。在本届进博...
原创 千... 在上个月联发科抢先高通,率先发布了自己的新款旗舰处理器天玑9400,并且在新机这块也比搭载高通的骁龙...
中越媒体互访活动在广西启程 8月4日,“同志加兄弟 携手向未来”——中越媒体互访活动出发仪式在南宁举办。活动旨深化广西与越南各领...