5性能分析
5.1实验方法
我们搭建了测试验证环境,对资源一号 02C 卫星快视处理流程进行测试验证。实验采用
10GInfiniband 网络连接的 4 台高性能计算服务器节点(2 个12 核Intel Xeon X5670 CPU,主频2.93 GHz, 36 GB 内存,2 块 60G SATA 磁盘)对数据吞吐率和数据完整度进行测试。服务器使用 Red Hat En- terprise Linux 7.2 操作系统,将数据接入 Spout 组件和帧同步处理 Bolt 组件部署到一个节点上,其余节点部署解扰处理Bolt 组件、IQ 拼接处理Bolt 组件、RS 译码处理 Bolt 组件、数据排序 Bolt 和快视处理
Bolt 组件。实验数据使用资源一号 02C 卫星原始数据,采用文件回放方式模拟卫星数据接收过程。
数据吞吐率指标为数据处理组件接收到的遥感数据量除以接收时间,单位为 MB/s。数据完整度指标为节点关机后未丢失的数据占总数据量的比例,单位为%。
5.2数据吞吐率
(1)不同数据流元组大小
实验使用总大小 5GB 的数据文件,分别按每块大小 1KB、10KB、50KB、100KB、200KB、500KB、
1MB 和5MB 对组件之间的数据交换速率进行测试, 记录数据发送速率,实验结果如图 7 所示。
实验表明,数据块大小在 100KB-1MB 之间能保持较高的数据吞吐率。
(2)不同数据流容量
将数据切分为 100KB 的数据流,对总量为 1GB、
5GB、10GB、20GB 和 30GB 的数据文件进行测试, 记录数据发送速率,实验结果如图 8 所示。
实验表明,随着发送数据总量的增多,发送速率较稳定,保持在约 516MB/s 的较高水平。
(3)不同数据流并行数
分别发起 1、2、4 个数据接入 Spout 任务线程, 数据流大小为 100KB,总量为 5GB,实验结果如表
2 所示。
表 2 线程数对发送速率的影响
线程数 发送速率
1 509.37 MB/s
2 819.87 MB/s
4 907.33 MB/s
实验表明,多任务线程能提高数据总吞吐率, 但由于节点资源受限,多个遥感卫星原始数据码流的处理性能明显降低。
5.3数据可靠性
对于无备份方案,即不使用数据流备份机制, 单节点故障后无法恢复将导致数据丢失。为了保证数据的可靠性,使用 Kafka 的数据流备份机制。对于单备份方案,即设置一个从节点用于数据备份,若一个节点故障,数据不丢失;两个及以上节点同时故障时,故障节点上数据丢失。
对于双备份方案,即设置两个从节点用于数据备份,若一个节点故障,数据不丢失;两个节点同时故障时,有可能丢失;节点数越多,数据丢失概率越低。对数据完整度分析如表 3。
表 3 数据完整度随节点数变化
节点数 4 8 16 32
数据完整度 83.3% 96.4% 99.2% 99.8%
从上表可知,节点数越多,数据完整度越大,节点故障导致的数据丢失概率越小,当系统具有 8 个节点,两个节点同时故障也可保证 95%以上数据不丢失。通过设置数据备份个数来验证数据备份对数据交换速率的影响,实验数据表明,设置单备份和双备份与无备份相比数据交换速率分别降低 20%和 29%。因此,系统设计需合理选取数据备份数量,在数据吞吐率和可靠性指标之间折中。
6结束语
根据遥感卫星数据处理系统实时性、数据可靠性的特点与需求,本文提出基于流式计算的遥感卫星数据快视处理系统设计方法,利用已有流式计算框架设计实现了通用的遥感卫星数据快视处理系统。与已有系统相比,本文的系统通过数据流拓扑结构研究与设计实现了细粒度的数据并行处理,采用数据备份机制为数据的可靠性提供了保障机制, 同时提升了处理单元间的数据交换效率。通过实验分析,验证了改进系统在数据吞吐率和数据可靠性方面具有较好的效果。
目前的研究针对资源一号 02C 卫星开展,该卫星载荷类型多样,数据流特点具有代表性,后续仍需选取不同类型卫星开展进一步研究。本文将遥感卫星数据快视处理作为研究对象,作为一种系统设计方法也适用于实时性要求高的一般遥感卫星数传数据自动化处理过程,应用场景可扩展到 0-2 级数据产品生成、融合产品处理和深加工处理等方面。
参考文献:
[1]刘定生,陈元伟,李景山.遥感卫星地面预处理系统技术发展模式探讨[J].遥感信息:2008(5):87-91.
[2]孙小涓,雷斌,程兆运,等.遥感数据处理运行控制中的工作流应用[J]. 计算机工程:2012, 38(4):28-30.
[3]孙小涓,雷斌,胡玉新.科学工作流技术及在空间信息科学计算中的应用[C]//中国计算机学会.2013 全国高性能计算学会年会,无锡, 2013.无锡,2013: 601-609.
[4]徐业帷.科学工作流在空间信息处理领域的应用研究[D].
北京:中国科学院大学, 2016.
[5]孙小涓,石涛,李冰,等.空间科学卫星数据快速处理方法
[C]// 中国计算机学会.2017 全国高性能学术年会, 合肥,2017.合肥,2017:438-443.
[6]王峰.卫星混编数据地面接收快视系统的设计与实现[J]. 航天器工程, 2008, 17(6):44-48.
[7]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报:2014, 25(4):839-862.
[8]李圣,黄永忠,陈海勇.大数据流式计算系统研究综述[J]. 信息工程大学学报: 2016, 17(1):88-92.
[9]Simoncelli D, Dusi M, Gringoli F, et al. Scaling Out the Performance of Service Monitoring Applications with BlockMon[C]// Springer Berlin Heidelberg, International Conference on Passive and Active Network Measurement, Hong Kong, 2013: Hong Kong, 2013:253-255.
[10]韩德志,陈旭光,雷雨馨,等.基于Spark Streaming 的实时数据分析系统及其应用[J].计算机应用:2017,37(5):1263
-1269.
[11]Neumeyer L, Robbins B, Nair A, et al. S4: Distributed Stream Computing Platform[C]//IEEE Computer Society, IEEE International Conference on Data Mining Work- shops,Sydney.2010.Sydney.2010:170-177.
[12]韩杰, 陈耀武. 基于Storm 平台的实时视频分析系统[J]. 计算机工程, 2015, 41(12):26-29.
[13]乔通.基于 Storm 的海量交通数据实时处理平台的研究
[D]. 北京:北方工业大学, 2017.
[14]Fang L, Longlong D, Zhiying J, et al. Single-Pass Clusteri- ng Algorithm Based on Storm[C]//IUPAP Conference on Computational Physics. Journal of Physics Conference Series, 2017.IOP Publishing, UK, 2017:12-17.
[15]丁维龙,赵卓峰,韩燕波.Storm:大数据流式计算及应用实践[M].北京:电子工业出版社,2015:53-68.
[16] Chintapalli S, Dagit D, Evans R, et al. PaceMaker: When ZooKeeper Arteries Get Clogged in Storm Clusters[C]// IEEE, International Conference on Cloud Computing, Nicosia, 2017.Nicosia, 2017:448-455.
[17]Karunaratne P, Karunasekera S, Harwood A. Distributed stream clustering using micro-clusters on Apache Storm[J]. Journal of Parallel & Distributed Computing: 2017, 108:74–84.
[18]Apache Software Foundation. Apache Storm. [EB/OL].
USA:2018[2018].http://storm.apache.org/
[19]Esmaili K S, Esmaili K S. Kafka versus RabbitMQ:A comparative study of two industry reference publish/ subscribe implementations:Industry Paper [C] //ACM International Conference on Distributed and Event-Based Systems. ACM, 2017:227-238.
[20] IBM developer works. Efficient data transfer through zero copy, zero copy, zero overhead.[EB/OL].USA: 2018[2018].https://www.ibm.com/developerworks/library/ j-zerocopy
[21]Goodhope K, Koshy J, Kreps J, et al. Building LinkedIn's Real-time Activity Data Pipeline.[J]. IEEE Data(base) Engineering Bulletin: 2012: 33-45.
《基于流式计算的遥感卫星数据快视处理方法》附论文PDF版下载:
http://www.lunwensci.com/uploadfile/2018/0811/20180811052250909.pdf
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/441.html