SCI论文(www.lunwensci.com)
摘 要:针对现有轨道交通在建设、运营与经营 3 个维度暴露出的不平衡、不充分发展问题,通过引入项目实例阐明平台 开发要求,基于云计算技术建立数据源层、大数据基础平台层、数据集成层、数据存储与治理层、应用支持层与数据应用层 6 个层级结构,并综合运用 Kettle、RESTful 等工具实现平台功能。将该平台作为城市公共交通管理组织的重要信息源,能够为 不同组织部门、不同管理层级的用户提供多元化服务,满足城市地铁建设、运营与经营需求。
Research on Metro Big Data Analysis Method Based on Cloud Computing
LUO Yan, WU Fan
(Wuhan Metro Group Information Management Center, Wuhan Hubei 430077)
【Abstract】: In view of the unbalanced and inadequate development of the existing rail transit in the three dimensions of construction, operation and management, project examples are introduced to clarify the development requirements of the platform. Based on cloud computing technology, six hierarchical structures are established: Data source layer, big data basic platform layer, data integration layer, data storage and governance layer, application support layer and data application layer. In addition, Kettle and RESTful tools are used comprehensively to implement platform functions. Taking the platform as an important information source for urban public transport management organizations, it can provide diversified services for users of different organizational departments and management levels to meet the needs of urban subway construction, operation and management.
【Key words】:urban subway;big data analysis;data sharing;cloud computing;B/S architecture
近年来智慧城轨概念指导轨道交通行业步入新的发 展阶段, 2021 年全国城市轨道交通运营线路总长度约 为 10000km, 新增运营线路长度 1223km, 城市地铁 实现由公共交通工具向聚合生活要素、传播城市文化 服务平台稳步转型。但与此同时,诸如线网、车站、客 流、运能、减排量等数据处理量激增,使得原有数据平 台已无法适应大数据环境下的应用需求。基于此,研究 引入云计算、大数据分析等技术实现数据共享平台设计 与开发的具体方案,对于推动地铁集团建设、运营、经 营全方位管理与决策能力具有显著现实意义。
1 项目背景概述
以某城市地铁集团数据共享平台建设项目为例,该 集团公司为响应国家“交通强国”建设与城轨协会发布的智慧城轨“1-8-1-1”发展要求, 投资 5500 万元计划 建设数据共享平台。在项目规划设计上,基于武汉地铁 “三驾马车”发展战略要求建设数据共享平台, 平台功 能与用途主要体现在以下几个方面。
(1)以云计算为基础、融合大数据技术搭建一种基 础服务平台,分别面向安全生产网、内部管理网、外部 服务网中的各业务系统提供数据汇聚、交换共享、融 合治理、存储计算、分析挖掘等多种数据资产服务 [1]。 (2)支持对接不同业务应用系统,实现多种业务功能的 拓展与升级。(3)提供技术支撑与服务能力,为上层 大数据应用赋能。(4)将各业务领域产生的数据上传至 平台中进行统一管理、治理与存储,用于数据挖掘、分 析、清洗再利用等,提高数据变现能力。
2 平台技术架构
该项目基于云计算技术开发数据共享平台,平台整 体架构包含以下 6 个层级:
(1)数据源层,包含安全生产网、内部管理网与 外部服务网各业务系统的源数据。其中安全生产网主 要涉及 NATS、NISCS、NSACADA 等线路系统, 以及 以 ACC 为代表的线网系统中的源数据; 内部管理网中 涉及合同管理、人力资源、招聘管理、档案管理等源数 据; 外部服务网中涉及乘客服务、广告招商等内部数 据,以及气象、水利、洪涝、大型活动等内部数据。
(2)大数据基础平台层,主要为数据分析提供计算 与存储资源。
(3)数据集成层, 运用 ETL 工具实现涵盖离线数 据采集(数据库、文件等)、实时数据采集(消息、接 口等)、互联网数据采集(网络爬虫等) 3 种方式的数 据采集功能,并具备全面、统一的数据接入管理能力。
(4)数据存储与治理层,利用数据治理平台提供数 据标准规范、元数据管理、主数据管理、数据模型管 理、数据开发管理、数据质量管理、数据安全管理、数 据运维管理等多种功能,实现对数据的全生命周期管理 与数据价值分析及挖掘。
(5)应用支持层,提供融合数仓,包含数据湖、主 题库、专题库、指标、算法等;提供数据共享服务,支 持提供统一的可视化数据门户,详细展示所有数据资 源,并按权限呈现数据资源目录与数据服务目录,实现 数据仓库访问,数据资产目录,数据服务的申请、订 阅、发布和调用,应用支撑工具使用,数据查询等多 种服务功能;提供数据分析服务,包含报表分析与 BI、 数据挖掘等多平台。
(6)数据应用层,包含领导驾驶舱、商业决策分 析、员工人力绩效评价、乘客大数据等专题应用功能。
3 数据共享平台开发与实现
3.1 平台实现框架
基于云计算技术与 B/S 架构提出一种数据共享平台 的开发设计方案,将原 B/S 架构模式细化为数据源层、大 数据基础平台层、数据集成层、数据存储与治理层、应用 支持层、数据应用层 6 层框架结构,引入 WebService Server 端拆分浏览器与数据库交互程序,支持利用数 据共享平台直接对不同数据库、业务系统及存储模块进 行直接操作,提高大数据分析与数据源操作的便捷度、 安全性,同时综合利用 Kettle 开源工具、RESTful 交 互方式、Lifera 工具以及 World Wind 架构, 增强平 台各应用服务模块的可重用性 [2]。在系统架构实现上,主要围绕以下 6 个层面进行针对性设计:
(1) 在数据源层设计上,提供安全生产网、内部管 理网、外部服务网中的不同类型数据源,基于 Portal 框 架与 JSP 技术进行平台前端页面部署,基于 portlet.xml 与控制器完成各类数据源配置,将用户发出的 Request 请求传送至应用服务中的相应端口,利用 Struts 中的 各类控制器实现具体 Action 类, 用户在完成请求内容 填写后即可调用 Application Interfere, 实现与大数据 基础平台层及其他层级的连接。
(2)在大数据基础平台层设计上,该平台层包含数 据源层多种资源,负责与数据集成层、数据存储与治理 层、应用支持层、大数据应用层等不同层级对接,在同 一台主机内实现多服务器部署,支持以添加插件形式实 现服务功能的扩展。
(3)在数据集成层设计上,将各数据库、文件、消 息、接口、网络爬虫处采集的数据进行归集处理,统一 并入平台数据库系统,用于后续数据存储、治理与应 用。在数据集成层可实现数据分类归集功能,将地铁运 行过程中采集的车速、乘客数量、采集时间等信息归入 动态数据模块,针对上述数据实行标准化处理,并将数 据统一集成在 HBase 数据库内; 将各车站出入口、设 备技术参数等信息归入静态数据模块,经数据标准化处 理后归入关系型数据库。该层支持将安全生产、内部管 理、外部服务等不同网络数据进行统一抽取、加载及转 换,满足后续数据存储、清洗、分析及应用开发等需求。
(4) 在数据存储与治理层设计上,WebService Server 端为数据存储、数据治理提供具体操作服务,利用 ETL 工具通过离线数据下载、信息抽取、数据爬取等渠道获 取资源,将采集到的结构化、非结构化数据存储在云平 台中,基于主从结构设计系统节点,利用主节点记录、 管理数据的存储位置,由各从节点独立执行数据处理任 务,分别利用 Hive 数据仓库、HBase 数据库存储动态 流与静态数据。在此基础上,经由数据清洗、函数或映 射完成数据转换,提炼出有价值信息进行统一集成管理, 通过数据加工与处理生成不同主体的数据汇总表格,基 于 ZooKeeper 格式完成数据及应用服务的封装处理,调 用相应资源分配给用户,满足数据应用需求, 并支持 ConfigJobMetaDataService、ExectureJobService、 UpdateCaseService 等多种功能, 满足数据共享平台的 使用需求。
(5) 在应用支持层设计上, 支持提供融合数仓、数 据共享服务、数据分析服务、平台管理服务等多种应用 功能。以数据分析服务功能的实现为例,根据数据应用层提出的大数据分析需求,基于 MapReduce 编程模型 调用相应数据进行并行计算;基于一般清洗规则进行数 据清洗,去除其中的异常或错误数据,如系统日志中的 不完整数据等;运用聚类算法、关联分析等数据统计模 型完成数据挖掘与加工处理,为数据应用层提供数据与 资源支持。
(6)在数据应用层设计上,面向地铁集团数据共享 平台的实际应用场景,提供多种专题应用功能。以领导 驾驶舱 LeaderShipCockpit 功能实现为例, 引入 Web 可视化技术、Vue.js 框架与 Hadoop 处理方法,综合 运用 EChaers、dataV 多种组件提供可视化交互功能 模块,将地铁相关数据以直观、易于识别的形式呈现在 系统界面端,辅助平台运营、管理与决策;利用多种数 据交互技术,从 Kafka、HDFS、关系型数据库中采集 一个或多个目标源数据,根据实际业务需求设置数据采 集周期、在线或离线模式,经数据清洗、转换后存储至 数据库及服务器中,基于分区策略制定表格、完善索引 模块设计, 并采用 Restful 接口经 Ajax 异步请求数据, 基于 URL 方式以约定好的数据格式完成数据交换,最 终 在 WebService Server 端 解 析 的 Http 内 容 显 示 在 Web 图标中,支持以一定频率动态刷新,有效实现系 统所需数据的同步、实时、可视化呈现 [3]。
3.2 基于 Kettle 的数据共享平台实现
3.2.1 系统实现过程
在数据共享业务的定制与执行环节,在 /JobManange ment/view.jsp 中列明平台中的全部数据共享业务,用 户点击系统界面中的“新增”功能键即可自动跳转至 Job Design View 页面;选中添加业务条目模块中的对 应业务条目,可在列表中直观呈现出全部已创建业务及 其他业务条目,运行“配置”功能键、完成元数据信息 的填写,并调用 createJob API 即可在 Datashare Share 中完成新建任务,并将信息上传至 addJobEntry Service 中,完成第一个业务文件的创建。在 /JobEdit/view.jsp 中选中“节点连接”功能键,选择具体的连接类型、填 写信息,并调用相应 API 完成信息传递,即可将相应节 点连接功能添加至已创建的文件中。重复上述流程分别 完成业务条目的编辑、删除、调度配置等操作,最终调 用 excuteJob Service 执行具体业务 [4]。
3.2.2 具体应用情况
以基于数据共享平台设计的列车健康管理模块为 例,通过调用安全生产网、内部管理网与外部服务网等 数据源,获取列车的当前运行里程、投入使用年限、每日运行班次、内部接触器开关闭合次数等信息,经数据 集成、存储、治理后生成统计分析结果,与行业规范中 提出的设计寿命进行比较分析,用于在列车使用寿命到 达临界值时发挥预警与提示功能;运用数据挖掘技术获 取列车各设备的运行参数与历史故障记录,建立不同设 备及部件的故障预警模型,保证列车整体安全稳定运 行,也为故障检修、更换等操作提供便捷条件;整合列 车年度、季度、月度健康评估结果,提出针对性维修、 更换等建议,并将不同列车健康状态分析结果汇总,生 成健康趋势统计分析结果,为集团运营管理及决策提供 参考依据。
4 平台建设成效
经上述平台设计与开发流程,基于云计算技术面向 武汉轨道交通运营全过程建立数据共享平台,执行对各 系统生产数据、运营核心主数据、领域知识数据的梳 理、抽象提炼、集成、分析、关联挖掘与重构操作,有 效统一数据标准、打破数据孤岛,实现对数据的统一汇 聚与管理,并且在多源数据、大数据量的情况下提供存储、 综合调用、分析挖掘与计算能力,最终提升武汉地铁运行 安全水平及工作效率,实现支撑服务的智慧化升级。
5 结语
通过建立地铁集团统一整合的数据平台,既能够为 集团业务部门提供数据应用服务,也为集团 IT 建设提 供重要基础设施。但现有平台开发与应用成果仍难以满 足未来城市轨道交通运营、管理与决策需求,因此未来 还需注重聚焦无线通信、故障诊断专家库、TCMS 远程 监测等多个层面强化技术创新应用,实现对故障诊断专 家库的持续迭代优化,落实对多点数据源的关联碰撞分 析,引入大数据、云计算等技术探索降低人力成本与设 备能耗的优化管理策略,最大限度提升地铁数据共享平 台的运营管理及服务水平,为同类轨道交通系统开发与 升级提供良好示范经验。
参考文献
[1] 王世兴 .基于云计算的大数据关联规律挖掘分析方法[J]. 电 子元器件与信息技术,2021.(1):68-76.
[2] 王赫 .地铁运营中云计算技术的应用分析[J].科技创新与应 用,2021.(8):167-169.
[3] 唐昕 .基于智能视频分析技术的地铁客流大数据应用探讨 [J].网络安全技术与应用,2020.(5):83-84.
[4] 房明磊,耿显亚 .基于云计算的大数据中心资源分配方法研 究[J].廊坊师范学院学报(自然科学版),2021.(2):10-13.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/63041.html