Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于 Python 的新浪微博中爬虫程序维护方法论文

发布时间:2022-06-09 10:26:36 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

  摘要:新浪微博是当下社会使用较广泛的社交平台,为了提高平台的稳定运行能力,给予用户更加良好的社交体验,提出基于Python的新浪微博中爬虫程序维护方法。按照标准的统计方法与机器学习模式,在爬虫程序中建立空间场景,当识别到的爬虫程序信息与网站域名信息具备一定适配性时,爬虫程序维护信息。同时,抓取爬虫程序中敏感数据,按照网站浏览顺序进行匹配,以此获取的节点数据作为程序维护的依据;并采用建立目标函数的方式,对敏感数据有效性的校验,从维护合理性角度出发,参照域名地址,定位敏感数据发生位置,以此完成对程序的维护。实验结果表明:提出的爬虫程序维护方法,可提高对爬虫程序获取敏感数据定位的准确率,实现对网站爬虫程序的维护。

  关键词:Python;新浪微博;爬虫程序;维护方法

  Python Based Crawler Maintenance Method in Sina Weibo

  HE Bo

  (Mianyang Flight College of Civil Aviation Flight University of China,Mianyang Sichuan 621000)


  【Abstract】:Sina Weibo is a widely used social platform.In order to improve the stable operation ability of the platform and give users a better social experience,a Python based crawler maintenance method in Sina Weibo is proposed.According to the standard statistical method and machine learning mode,the spatial scene is established in the crawler program.When the identified crawler program information has a certain adaptability with the website domain name information,the crawler program maintains the information.At the same time,the sensitive data in the crawler program is captured and matched according to the browsing order of the website,and the obtained node data is used as the basis for program maintenance;The validity of sensitive data is verified by establishing the objective function.From the perspective of maintenance rationality,the location of sensitive data is located with reference to the domain name address,so as to complete the maintenance of the program.The experimental results show that the proposed crawler maintenance method can improve the accuracy of locating sensitive data obtained by crawlers and realize the maintenance of website crawlers.

  【Key words】:Python;Sina Weibo;crawler program;maintenance method


  0引言

  Python由荷兰数学和计算机科学研究学会的Guido van Rossum于20世纪90年代初设计,作为一门叫做ABC语言的替代品。网络爬虫程序便是Python的代表性作品,在市场中又被称为互联网机器人与网站蜘蛛,它可在用户检索的网页中,按照程序设定的指定规律,对万维网中的脚本数据与信息进行自主抓取,进而捕捉到用户浏览网站的轨迹与相关历史记录[1]。新浪微博作为现代化社会背景下的产物,也是用户交流与沟通的平台,用户可通过多种移动终端设备登录平台,并且可在平台上通过图片、文本、视频等方式,与其他网友进行信息交互,以此实现信息数据在互联网中的交互。由于新浪微博的客户端程序较复杂,其中涉及的内容与文本框架较丰富,同时用户上传的脚本文件格式不统一,这便也造成了网站运行与后期管理问题。针对提出的现象,可利用网络爬虫程序,进行用户传递与交互信息的在线检索[2]。尽管在一定程度上解决了信息交互的问题,但由于相关研究成果尚不成熟,导致程序在运行中经常出现错误提示信息,此种状况的出现在极大程度上为用户使用带来了不便条件。若不及时采取有效的措施解决,十分容易导致新浪微博的用户流失[3]。因此,为了提高市场多种网站的持续运行能力,在原有基础上,基于Python语言的应用,开展新浪微博中爬虫程序维护方法的设计,以此满足更多用户的实际需求,提高用户在平台上的服务体验感。

  1基于Python的新浪微博中爬虫程序维护方法

  1.1基于Python抓取爬虫程序中敏感数据

  当爬虫程序在进行新浪微博敏感数据抓取时,可将敏感数据作为判断维护的依据[4]。此过程应按照标准的数据统计方法,采用随机指定网页文本中信息域名的方式,对爬虫程序中敏感数据进行抓取。为此引入Python计算机程序语言,对识别新浪微博程序中爬虫程序维护文本信息进行预处理。此过程应对将文本信息划分为多个计算机字符,同步处理中的字符串匹配分词。

  假定抓取的文本信息中一串完整的字符串最长词条包含字符数量为n个,便可直接使用Python程序语言进行正向最大匹配[5]。结合语言技术实现对文本的自动分词,按照编程浏览顺序依次输出m个字符。将这m个字符看作是一个字符串,与对应的程序抓取信息进行比较,若该字符串当中所有字符均与相应的文本匹配,则说明通过将文本词条分离处理后的词条为正常运行结果。若存在与文本信息不匹配的字符或字符串,可认为该爬虫程序中获取的信息具有敏感数据。上述抓取过程可用如下公式表示。

\
 

  公式(1)中:ip表示为爬虫程序抓取的信息在网页中所处的域名位置;if表示为Python语言判别条件;i表示为抓取次数;T表示为网页更新时间;λ表示为新浪微博网页任务栏。根据上述计算公式同样按照浏览顺序进行匹配,若匹配成功,进行下一网站域名检索[6]。若匹配结果显示未成功,导出异常数据。按照Python语言对网页的编译顺序,重复上述操作,直到完成所有网页的匹配。

  1.2维护新浪微博中空间爬虫程序漏洞

  在掌握新浪微博中爬虫程序抓取的敏感数据后,需要建立一个目标函数,将爬虫程序抓取的数据带入到目标函数中,利用函数对程序进行检索维护[7]。

  在候选的新浪微博URL页面进行纠错,按照数据分类标准,在整体网页中抓取数据的基础上,评估此网站主题与抓取信息的关联度[8]。标序列的标注,假定“X”是新浪微博中爬虫程序中的一个随机变量,对此变量进行判断的过程可用如下公式表示。
\

  公式(2)中:s表示为面向爬虫程序的随机场景模型;c表示为变量发生变化的随机概率;o表示为机器学习方法;z表示为识别信息的有效性参数;p表示为信息在网站中的所属域名。输入给定节点数据作为维护条件,在网站的观测序列上进行概率节点输出。
\
 

  同时,再使用DOM技术进行网站中敏感性数据的收集,根据对象网站域名的识别,进行敏感数据有效性的校验。此过程中的目标函数如下公式表示。

  公式(3)中:K表示为定位的数据目标;l表示为单位字段长度;L表示为敏感数据字段长度;γ表示为漏洞信息;θ表示为数据在网站中的空间维度。根据上述计算公式,从维护合理性角度出发,参照域名地址,进行词汇的空间描述,根据描述结果使用辅助性工具对指定数据节点进行定位,进而实现对爬虫程序的维护。

\

  2实验

  2.1实验准备

  网络爬虫程序适用于抓取网站数据的重要工具,但程序运行中存在的漏洞也是不可忽视的,因此在维护过程中,要准确的识别新浪微博程序中爬虫程序的维护信息。

  以此提出对比实验,选择新浪微博中某运行网站为此次实验的研究对象,建立对此网站的引擎检索。同时,使用网络爬虫技术对网站运行空间数据进行抓取,以24h为网站的一个运行周期,获取网站在此周期内运行的敏感数据,定制候选网页的数量为100个。

  根据对实验对象的分析,本文爬虫抓取网站页面的有效信息量为256个,其中具有敏感性元素的数据有135个,检索关键词的个数为3个,提出的3个检索关键词之间的权重值相同,均为0.33。

  在已知此网站中存在的敏感数据数量基础上,采用数据库配对的方式,进行敏感数据与网站域名的适配分析。若分析中发现维护的敏感数据源可与候选的100个网页建立直接联系,则认为此时对程序维护的范围选择是正确的,反之认为维护的数据不属于网络已爬虫程序抓取的数据,不具备有效性。在此基础上,将在网页识别范围内的数据与识别到的256个信息量进行匹配,分析维护的数据是否属于爬虫抓取网站页面的有效信息只有维护的数据信息满足上述提出的两点要求,才可认为维护的数据准确。


\
 

  将维护的数据采用网页文本记录的方式进行存储,并将获取的新域名与网站信息存储在数据库中,完成此次对比实验的设计。

  分别使用本文设计的基于Python的新浪微博中爬虫程序维护方法与传统的爬虫程序维护方法,对上述获取的100个候选网页进行程序维护,以敏感数据作为爬虫程序维护条件,对方法的有效性进行判断。

  2.2实验结果分析

  根据上述设计的实验准备流程执行此次对比实验定义本文方法为实验组,传统方法为对照组,获取两种方法在维护过程中发生的相关数据。将数据整理成表格,如表1所示。(已知爬虫抓取新浪微博网站页面的有效信息量为256个,具有敏感性元素待维护的数据量为135)。
\
 

  根据上述表1中信息,可清楚看出,实验组在进行不同数量网站的敏感数据维护过程中,最终识别的爬虫程序敏感数据量与实际数据量一致,且维护的漏洞数据均与网站域名地址匹配,所有维护的信息均具备一定的有效性,无其他无用功。但在对照组的实验统计数据中,尽管同样可识别到敏感数据,但明显数据不全,且其中存在部分数据与网站域名地址不匹配。基于此,得出此次实验的结论:相比传统的维护方法,本文提出的基于Python的新浪微博中爬虫程序维护方法,可提高对爬虫程序获取敏感数据定位的准确率,以此可实现对网站爬虫程序进行针对性维护。

  3结语

  随着新浪微博的使用用户越来越多,其爬虫程序中存在的漏洞越来越显著,尽管网络爬虫技术的应用为社交网络研究者提供便利条件,但程序运行中存在的问题也是不可忽视的。因此本文基于Python语言,提出了一种面向新浪微博用户的爬虫程序维护方法,并采用设计对比实验的方式,验证提出方法在实际应用中有显著的效果。总之,为了给予新浪微博用户更加良好的服务体验,在后期的相关研究中,应加大对爬虫程度运行中存在漏洞的检索力度,使新浪微博网站整体运行加稳定。并将后期的研究侧重点置于方法的高效性层面,用户仅需要提供支持方法的网络环境,便可实现对程序中的问题进行自动抓取,以此实现对程序的维护,进而获得新浪微博用户的好感。

  参考文献

  [1]周义棋,田向亮,钟茂华.基于微博网络爬虫的巴黎圣母院大火舆情分析[J].武汉理工大学学报(信息与管理工程版),2019,41(5):461-466.

  [2]陈红松,王钢,张鹏.基于Hadoop云平台的新浪微博社交网络关键节点挖掘算法[J].东南大学学报(自然科学版),2018,48(4):590-595.

  [3]刘顺程,岳思颖.大数据时代下基于Python的网络信息爬取技术[J].电子技术与软件工程,2017(21):160.

  [4]王重阳.基于Openlayers和ECharts的网络空间数据获取及可视化—以沈阳市主城区为例[J].北京测绘,2020,34(1):69-72.

  [5]陈伟,孙梦蝶.基于网络爬虫技术的大数据审计方法研究[J].中国注册会计师,2018(7):76-80.

  [6]杨宇,孙亚琴,闫志刚.网络爬虫的专题机构数据空间信息采集方法[J].测绘科学,2019,44(7):122-127+140.

  [7]王思敏,尹伊秋,宣静雯,等.基于网络爬虫技术的数字资源检测软件的设计与实现[J].现代电子技术,2019,42(10):132-135.

  ​[8]游涛,计莉卉.使用网络爬虫获取数据行为的刑事责任认定:以“晟品公司”非法获取计算机信息系统数据罪为视角[J].法律适用,2019(10):3-10.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/38911.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml