Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

云上大数据平台建设与大学生美育教育融合的分析与设计论文

发布时间:2022-08-10 13:57:59 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):
 
  摘要:利用公有云服务的灵活性和成本优势,利用开源工具配合自主开发的功能搭建大数据分析平台,以新浪微博为试点,从主流互联网社区获取影视、动画、绘画等美育相关话题的评论数据,对评论关键词进行汇总分类和筛选,得出当下互联网用户对某作品的评价分布及趋势,以此为依据对高校美育课程进行针对性设计,从而提高课程内容的生动性以及学生参与积极性,并有助于讲师在讲授专业知识的同时融合课程思政。

  关键词:公有云;大数据;爬虫工具;高校美育;课程思政

  Analysis and Design of Integration Between Big Data Platform Construction and College Students'Aesthetic Education

  NIU Dong,LV Sisi

  (Tianjin University of Traditional Chinese Medicine,Tianjin 301617)


  【Abstract】:Taking advantage of theflexibility and cost advantages of public cloud services,using open source tools and self-developed functions to build a big data analysis platform,taking Sina Weibo as a pilot,to obtain comment data on topics related to aesthetic education such as movies and television works,animation,and painting from mainstream Internet communities,summarize,classify and filter the comment keywords to acquire the current Internet users'evaluation distribution and trend of a certain work.The analysis result will be the reference for the content of college aesthetic education curriculum designing,so as to improve the vividness of the course content and the enthusiasm of students to participate,and it is helpful for lecturers to integrate course ideology and politics while teaching professional knowledge.

  【Key words】:public cloud;big data;crawling tool;college aesthetic education;course ideology and politics


  0引言

  随着国内高校逐渐重视美育教育,美育课程与思政结合,以及新时代高校美育路径的探索工作,探索互联网时代下美育与课程思政的融合成为当前值得深入的课题之一[1]。大数据技术的应用可以有效获取当高校学生群体在美学领域的热门话题中的主流观点,可以对其进行有效的整理分析,以实现课程内容的针对性设计。此方式可以进一步提高学生的美育课程参与积极性,并有助于在课程中引导学生开展生动的思政教育[2]。然而传统的大数据平台搭建需要投入较大的人力财力,并且需要专业的信息技术服务团队提供长期的运维支持,对于部门信息化基础薄弱的高校来说具有较高的实现门槛,而公有云服务提供的信息化基础设施资源,以及弹性伸缩,按需付费的灵活特性则为高校搭建大数据分析平台的建设提供了成本和技术上的可行性。

\
 

  1总体规划思路

  根据规划,美育大数据平台通过爬虫工具从社交网络平台收集信息,通过在公有云上搭建的大数据平台进行数据辨析,抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作并通过展示工具进行展示以实现决策辅助功能,其设计结构如图1所示。

\

  图1美育大数据平台总体规划

  Fig.1Overall plan ofthe aesthetic education big data platform

  此设计分为应用层与基础设施层,应用层从业务需求出发,设计互联网内容采集、存储、处理、分析以及展示功能,充分利用现有条件,与可用的开源工具进行集成,节约有限的开发资源和预算。基础设施层基于云服务提供的计算,存储和网络资源,搭建大数据集群,充分利用云服务的弹性和灵活付费的特性,将投入产出比最大化。本方案将基于西云数据运营的AWS宁夏区公有云平台进行设计,其技术概念也适用于其他主流公有云平台。

  2美育大数据平台应用层设计

  平台建设初期,需要选择一个主流社区作为信息来源,考虑到大学生群体的日常互联网访问习惯,以及信息获取难度等因素,实验阶段选择新浪微博作为信息来源的测试平台[3]。使用测试账号对美育课程设计的若干美育领域(例如绘画、摄影、设计、电影、动画等)进行关注,选择特定话题(例如某某动画)的微博评论区,通过网络爬虫进行信息采集,然后对关键字进行整理和分析,按照正面、负面和中性语义进行归类,并根据出现频次进行排序并展示[4]。为解决开发成本,词汇的归类可以使用腾讯词向量工具来实现[5]。通过展示信息分析当前互联网用户群体对某一作品或话题的主流态度,在美育课堂上可以针对受众的兴趣点进行讲解和正向引导。数据采集功能可以通过开源工具Scrapy框架,配合Python语言编写的网络爬虫来实现[6],具体逻辑结构如图2所示。

  在Scrapy引擎的支持下,爬虫将需要访问的URL发送至调度器管理请求队列,引擎根据调度器的请求队列访问URL,并将网页内容通过下载器下载后交给爬虫进行进一步处理,随后Scrapy将爬虫收集到的数据项发到数据项管道进行进一步处理[7]。

\

  图2基于Scrapy框架的爬虫设计

  Fig.2 Crawler design based on Scrapy framework

  收集到的关键字汇总可以通过腾讯词向量工具根据词性等条件进行归类,从而归纳出该平台用户对某一话题的主流态度[8]。下图以某电影话题下的评论作为测试,收集了部分评论信息后进行分析后得到的结果在数据展示服务界面(测试版本)中截图如图3所示。

  \

  从以上测试用例中可以看出,该作品从上映首周开始的一个月内,评价分布从“好评为主,略两极分化”逐渐向“中性评价”过渡。由此可以分析,随着放映次数上升,观影人数的增加,评论逐渐趋于理性。而授课者可依据评论内容进行针对性的课程设计,如果影评争议主要集中在剧情逻辑、演技、画面、镜头运用等技术层面,可以针对上述内容设计影视赏析教学内容;如果评论争议主要集中在作品展示的价值观方面,则可以融入课程思政元素,对学生的价值观进行积极引导[9]。以上流程实现正常运转后,可以尝试将此设计运用到“知乎”“豆瓣”等其他主流社交平台。

  3云上大数据平台建设

  传统的云上大数据平台搭建方式依照传统机房的设计思路,将本地的大数据服务器搬运到同配置的云服务器实例上,此方法虽然能够提供系统的正常运行,而且技术风险最低,但是无法充分利用云服务的诸多特性,不仅经济性相比传统机房建设没有显著改善,服务承载能力的扩展性也十分有限[10]。因此,此方案利用西云数据运营的AWS宁夏区云平台,借鉴行业内的最佳实践,在深入了解云平台中有关大数据的相关服务的基础上,设计兼具安全性、灵活性与经济性的大数据平台。

\
 
 
  3.1架构设计

  本方案以AWS公有云提供的EMR集群服务为核心,利用EMR提供的资源部署开源分析框架以运行大规模分布式数据处理作业[11],总体架构设计中,根据最佳实践在虚拟专网(VPN)中划分三个子网,其中一个公网子网用于部署直接连接外部数据的网关服务器和基于网页(Web Service)的数据展示服务器,因为该子网中的服务器需要直接与外界互联网连接,因此需要为其分配公网IP地址(Elastic IP);另外两个私网子网不和外界直接连接,其中一个私网子网部署消息服务(Kafka)和日志收集服务(Flume)等服务器,另一个私网子网负责部署EMR集群和数据库服务器,以及数据库缓存服务(Redis)。为确保安全性,新建额外的虚拟专网搭建管理环境,在管理环境中部署堡垒机(Bastion)用于跳转至生产环境的其他服务器,通过VPC Peer打通管理环境与生成环境直接的连接,此环境仅有系统管理员有权访问。总体设计架构如图4所示。

\

  架构设计描述:

  (1)数据源通过ELB从网关传输到Kafka服务器。

  (2)Kafka处理的数据将传输到Flume服务器。

  (3)EMR集群将接收到Kafka&Flume处理的数据并进行离线计算。

  (4)RDS为Web服务提供元数据存储。

  (5)管理VPC与生产VPC隔离并与VPC对等点连接。

  (6)S3用于数据存储和AMI备份。CloudWatch、IAM和相关的AWS服务都参与其中,以确保系统的安全性和可用性。

  3.2使用的AWS服务及描述

  本方案中涉及的AWS服务及其用途如表1所示。

\

  3.3设计思路

  (1)大数据集群部署:本方案利用EMR部署Hadoop环境,实现数据的分布处理。在为节约费用、部署和测试阶段,主节点(Master)和三台集群节点(Cluster)选用配置较低的实例(m5.2xlarge),待环境部署完毕并通过功能测试后,可在试运行阶段根据实际负载调整配置[12]。环境部署完成后,将现有环境制作成AMI镜像保存至S3,一方面用于备份以及故障恢复;另一方面当需要自动扩展集群时可在启动实例时通过加载此AMI完成环境的自动安装和配置。由于EMR集群价格昂贵,为节约费用仅在需要进行离线计算的阶段开启,在离线计算完成后关闭服务器,因此EBS卷不保存任何数据,HDFS中的文件需要及时转移至S3桶。

  (2)应用服务器部署:与EMR集群类似,在部署和调试阶段,选用配置较低的实例,考虑到应用服务器和网关服务器(Gateway)承担压力较低,因此选用t3.medium,且不加入弹性伸缩组(Auto Scaling Group)以免产生额外费用。在环境部署完毕并通过功能测试后,将现有环境导出为AMI镜像保存至S3桶,用于系统的备份和还原。需要注意的是,一旦应用服务器中部署的服务有改动,其对应的AMI镜像就需要及时更新。

  (3)IAM管理设计:虽然本方案中的数据分析平台规模不大,且仅限于校内部分教职工使用,但是出于安全性与合规性考虑,需要利用云平台自带的Identity and Access Management(IAM)进行访问控制和权限管理[13]。在IAM设置中,只有系统管理员账号有权限通过堡垒机跳转到生产环境的其他服务器进行运维和管理;其他开发人员有权限通过堡垒机跳转访问服务器,但是没有对当前环境的基础设施进行设置(例如增加或删除服务器,更改服务器配置等)的权限,账单管理员对AWS控制台的账单具有只读和申请发票的权限。数据分析人员有权限访问S3桶,可以从中获取离线计算输出文件,以及定期执行将数据备份到本地等操作。

  (4)平台监控与运维设计:监控与运维是维持系统正常工作的必备工作,即便本方案中的系统管理和使用团队规模较小,也要在有限的预算和技术条件下引入必要的运维工具和设计运维工作流程,尤其是考虑到有限的团队规模和系统使用者的技术水平,运维方案要尽量提高自动化程度。因此本方案选择云平台自带的CloudWatch服务作为监控工具,用于监控服务器的CPU,内存负载,网络带宽及磁盘等资源的占用率。在5min一次的检测频率下,CloudWatch不收取任何费用,但是Cloud Watch生成的日志文件占用的空间会收取额外费用,需要及时清理。除了监控之外,本方案还需要利用CloudWatch实现故障服务器的自动恢复,通过预先设定的健康度检查(例如系统是否存活)来设置报警触发条件,随后设置报警操作(Alarm Recover)为恢复。

  4改进计划

  此大数据平台在试运行阶段取得了一定成果,并且随着对该平台的使用逐渐深入,团队对平台的改进工作有了初步规划。

  4.1与校园网络行为管理系统集成

  当前平台直接通过主流互联网平台收集信息,无法精确反应本校学生对某一作品或话题的总体评价。如果能够通过与学校网信办负责的校园网络行为监控系统集成,收集从校园网端口发出的信息并进行解包的信息,选择具有相关关键字的数据进行分析,可以更准确地获得本校学生在互联网平台上的美育话题的互动情况,但是需要对信息过滤功能进行针对性的设计以保护学生的个人隐私[14]。

  4.2弹性与自动化改造

  对EMR集群进行弹性改造,将集群服务器加入弹性伸缩组(Autoscaling Group),如果日后遇到离线计算时间较长的情况,可以考虑使用AWS提供的Spot实例以极高的性价比增加计算资源,Spot实例为AWS的闲置资源,具有较高折扣,只要没有其他出价更高的用户,就可以以极低的价格使用此实例,适合作为离线计算的集群服务器。但是需要设置好竞价上限。当前利用CloudWatch实现的自动故障恢复功能仅会在硬件层故障时触发,无法对应用层的故障进行响应。而利用Lambda功能可以通过定期执行代码来判断应用服务器的HTTP状态,一旦发现服务状态异常便可以向CloudWatch发送报警,从而触发恢复命令,进一步提高系统可靠性。

  4.3容器化和无服务器化改造

  当前应用仍然是直接部署在服务器中,其可用性依然受到硬件可靠性的限制,并且其运行环境所依赖的操作系统也需要定期维护。团队计划在适当的时机利用AWS平台的EKS托管容器服务进行容器化改造,EKS服务与主流的开源Docker容器管理工具Kubernetes(K8S)相兼容,因此可以方便地将应用及所需运行环境制作成K8S镜像部署在EKS托管容器中[15],其故障恢复及性能拓展将十分方便,团队也从硬件层及操作系统层的运维工作中解放出来专注于平台的使用与教学内容设计。

  5结语

  通过此次针对高校美育课堂的大数据平台建设,团队的大数据平台设计与云架构设计能力得到了全面提升,参与建设的教师在课程内容设计上有了全新的参考依据,并且学生在课堂上的参与积极性有了显著提高。利用大数据分析引入当前学生关注的话题,可以有效改善以往课程内容枯燥,学生参与积极性不高的问题,也可以让讲师在讲授专业知识的同时,更好地融合课程思政内容。

  参考文献

  [1]钟群.新时代诉求:“互联网+”与美育的深度融合[J].现代教育,2019(04):60-62.

  [2]张杰.融合大数据技术创新思政教育工作—评《大数据时代:思想政治教育环境新论》[J].山西财经大学学报,2021,43(12):139.

  [3]张明,田小平,黄冬雪.大学生微博使用现状的调查及对策研究—以陕西八所高校为例[J].教育学术月刊,2013(09):42-46.

  [4]雷刚,赖宇,余梦雨.基于公有云的微博网络爬虫及舆情可视化分析实验平台设计[J].实验室研究与探索,2021,40(10):273-276+294.

  [5]李彤彤,李坦,郭栩宁.基于社交媒体大数据的大学生心理危机预警[J].现代远程教育研究,2021,33(04):92-103.

  [6]李彦.基于Python的网络爬虫技术的研究[J].电子世界,2021(03):39-40.

  [7]李通,姚新强.Scrapy框架下区域人口数据爬虫的设计与实现[J].软件导刊,2021,20(11):152-157.

  [8]吕妹园,张永健,张永强,等.融入情感信息词向量的评论文本情感分析方法[J].河北科技大学学报,2021,42(04):380-388.

  [9]王熠.在高校开设影视赏析课对加强大学生思想政治教育的几点思考[J].电影评介,2007(07):61-62.

  [10]牛东,吕思思.利用云服务优化“一带一路”中医药远程教学平台[J].信息技术与信息化,2020(08):179-180+183.

  [11]葛苏慧,万泉,白成杰.基于Hadoop的高校学生行为预警决策系统研究[J].计算机应用与软件,2021,38(01):6-12.

  [12]乔永峰,孙承秀,孙玉强.虚拟机环境下Hadoop集群部署与简化配置的研究与实现[J].工业控制计算机,2021,34(09):130-131+133.

  [13]白嘉萌,寇英帅,刘泽艺,等.云计算平台基于角色的权限管理系统设计与实现[J].信息网络安全,2020,20(01):75-82.

  [14]王法玉,姜妍.基于自组织神经网络和模糊聚类的校园无线网用户学习兴趣度行为分析[J].计算机应用研究,2018,35(01):186-189.

  [15]谢超群.基于Kubernetes容器云的应用研究[J].西安文理学院学报(自然科学版),2020,23(04):37-40.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
 

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/41382.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml