Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

面向网络爬虫的网站优化策略探讨论文

发布时间:2022-11-08 10:33:02 文章来源:SCI论文网 我要评论















SCI论文(www.lunwensci.com):

  摘   要:作为网络技术发展的产物,网络爬虫能够根据自身逻辑借助网页链接来对网页中所存在的数据信息加以分类收 集,并将收集到的信息以数据的形式存储在本地的存储介质中,利用这些爬取到的数据,就能够进行信息的收集与分类等用 途,是如今网络信息的主要处理方式之一,也是当前网络搜索的一项核心技术。在网页搜索引擎的建设初期,引擎设计人员就 要对网页的信息形式进行优化,提高网页的易用程度,并对网络爬虫进行一定程度的优化。

  关键词:  网络爬虫; 网站;优化策略

Discussion on Website Optimization Strategy for Web Crawler

HUANG Yanni
(Quanzhou Institute of Textile and Garment, Quanzhou Fujian 362700)

  【Abstract】:As a product of the development of network technology, web crawlers can classify and collect the data and information existing in web pages according to their own logic with the help of web page links, and store the collected information in the form of data in local storage media . Using these crawled data, they can collect and classify information, which is one of the main ways of processing network information today, it is also a core technology of current network search. In the early stage of the construction of web search engine, engine designers should optimize the information form of web pages, improve the ease of use of web pages, and optimize web crawlers to a certain extent.

  【Key words】:web crawler;a website;optimization strategy

  0  引言

  近些年来,我国的科技水平在不断进步,  而作为科 技水平最直接体现之一的网络技术也在这样的发展驱使 下有着飞速的进步。如今的网站与网页数量,搜索引擎 的质量都有着非常明显的变化。而伴随着如今这样的网 络发展趋势,近些年来兴起的网络爬虫技术已经逐步走 进了大量网络工作者的视野中。很多利用爬虫技术成立 的企业也已经得到了迅速的发展,企业规模也在不断地 扩大。这些企业也在向着技术优化、成本降低的大方向 发展,也是如今互联网技术应用的主要体现之一。

  1  网络爬虫的概念和特征

  网络爬虫,就是通过提前设定的逻辑语言,以网络 为主要的连接途径,在不同的网页之间抓取重要信息, 并将这些信息以数据的形式存储在抓取者的本地存储介质中,便于后期对这些信息进行分类与处理 [1]。而伴随 着如今互联网技术的发展与进步,网络爬虫作为凭借与 网络与网页的产物,能够在更加丰富的网页中获得更多 有效的信息。并且信息预处理技术的进步,也能让网络 爬虫直接提取出这些信息中心的关键信息后再存储于本 地,便于对这些信息进行后期的分类与处理。
网络爬虫按照其系统结构和运作原理,大致可以分 为以下几种:通用网络爬虫、聚焦网络爬虫、增量式网 络爬虫、深层网络爬虫。

  (1)通用网络爬虫又称全网爬虫,其爬取对象由一 批种子 URL 扩充至整个 Web,主要由搜索引擎或大型 Web 服务提供商使用。这类爬虫的爬取范围和数量都 非常大,对于爬取的速度及存储空间的要求都比较高, 而对于爬取页面的顺序要求比较低,通常采用并行工作的方式来应对大量的待刷新页面。该类爬虫比较适合为 搜索引擎搜索广泛的主题,常用的爬取策略可分为深度 优先策略和广度优先策略。

  (2)聚焦网络爬虫又被称作主题网络爬虫,其最大 的特点是只选择性地爬取与预设的主题相关的页面。与 通用网络爬虫相比,聚焦爬虫仅需爬取与主题相关的页 面,极大地节省硬件及网络资源,能更快地更新保存的 页面,更好地满足特定人群对特定领域信息的需求。

  (3)增量式网络爬虫只对已下载网页采取增量式更 新,或只爬取新产生的及已经发生变化的网页,这种机 制能够在某种程度上保证所爬取的页面尽可能的新。与 其他周期性爬取和刷新页面的网络爬虫相比,增量式网 络爬虫仅在需要的时候爬取新产生或者有更新的页面, 而没有变化的页面则不进行爬取,能有效地减少数据下 载量并及时更新已爬取过的网页,减少时间和存储空间 上的浪费,但该算法的复杂度和实现难度更高。

  Web 页面按照存在方式可以分为表层页面和深层 页面两类。表层页面是指传统搜索引擎可以索引到的页 面,以超链接可以到达的静态页面为主;深层页面是指 大部分内容无法通过静态链接获取,隐藏在搜索表单后 的,  需要用户提交关键词后才能获得的 Web 页面,  如 一些登录后可见的网页。深层页面中可访问的信息量为 表层页面中的几百倍,为目前互联网上发展最快和最大 的新型信息资源。

  网络爬虫技术自身的特征主要集中在以下几点:  (1)是网络爬虫自身的程序强度较高,在执行命令时  不容易出错,很适合进行大量数据的处理与存储工作;  (2)是网络爬虫拥有较高的智能性,可以自动根据网络  链接的关联性进行网页间的爬行,也能对网页信息进行  智能化的选择与分类;(3)是网络爬虫可以将爬取到的  信息整合后进行存储处理;(4)  是网络爬虫技术有较  高的拓展性,可以根据需求对网络爬虫技术特定方向的  性能进行优化,例如提高爬虫的爬行效率、提高信息处  理能力等。

\

  2  面向网络爬虫的网站优化策略

  2.1 网站导航优化

  网络爬虫技术是如今进行深度网站访问的重要部 分,网站开发者也要提高自身网站的逻辑清晰度,这样 才能让网站的导航发挥自身应用的作用,也能提高网站 用户在进行普通访问与爬虫访问的体验时,为用户提供 访问的便利。而也是因为网络爬虫的核心还是在于用户 对网站的访问,所以在提高网络爬虫技术的同时,对于 网站自身导航系统的优化也是必不可少的。网站在进行优化时要使用文字链接来进行网站导航的设计工作,因 为网络爬虫普遍会通过文字识别的方式来进行数据的爬 取,采用文字的导航方式能够让网络爬虫更好的识别到 网站的导航内容,识别到网站的关键性内容 [2]。如果采 取图片的形式来进行导航,普通用户并不会受到图片导 航的影响,但网络爬虫是以文字识别为主要的爬取方 式,图片信息网络爬虫无法进行迅速的识别,这就会影 响到网络爬虫的爬取效率。因此,网站在导航方式的设 计上要以文字链接为主要的导航方式,优化网站的底层 逻辑,便于网络爬虫的应用。如果必须使用图片形式的 导航方式,网站设计者应当在图片导航中加入文字描 述,便于网络爬虫进行信息的识别。同时,文字描述也 要掌握好文字的长度与文字内容,避免文字过长与网站 页面信息冲突或文字信息模糊,影响到网络爬虫的识 别。可以通过实用锚文字的方式,将锚文字应用在导航 关键词中能够提高导航标签的设置效率,提高文字的信 息含量与使用价值。

  如今主流的搜索引擎中仍然有网络爬虫难以爬取的 信息内容,这些内容就可以通过网站地图的方式来进行 识别,能够很好地解决图片与动态网页的识别问题。如 果遇到内容含量较为复杂的网站,也可以将网站地图与 网站自身的导航系统相结合,在提高用户访问体验的同 时,提高网络爬虫的信息爬取效率。

  2.2 关键词搜索

  关键词搜索是如今搜索引擎最主要的搜索模式,也 是如今搜索引擎着重优化的搜索模式之一。网络爬虫也 能够根据网站的关键词来判断网站的主要用户群体与网 站内容偏好。网站自身也能通过关键词的设置,来对网 站用户与网站主流内容进行一定的引导作用。在关键词 的设置中,首先要合理的对关键词进行筛选,根据用户 的搜索喜好与近期的热点事件等设置较有针对性的词语 设计,便于用户的点击与搜索 [3]。此外,在热点词汇的 使用上也要进行把控,因为热点词汇使用过多会影响到 网站自身的特点,而热点词汇过少会影响到网站自身的 热度,需要网站根据自身的实际情况进行严格的把控。 最后,网站也可以根据同类型网站的关键词设定方式来 进行自身关键词的选择工作,并合理配置关键词的密度 与不同类型关键词在网站关键词所占的比重,便于网络 用户的访问搜索与网络爬虫的爬取。

  2.3 网站的内容
 
  网站的发展核心在于网站的内容,只有足够优秀的 内容才能让网站更好的发展与进步。而网络爬虫所重视 的也正是网络的内容,网络爬虫在抓取内容时一般会采取复制的方式,而网站自身如果存在大量不实信息或抄 袭内容,爬虫就会自动停止对网站的爬行与数据收集。 而内容原创度更高的网站也会让爬虫进行更长时间的爬 行,能够被收录更多的信息内容。

  2.4 文字标签

  如今,很多网页设计者会为了网页的美观,而采用 大量的图片或使用动态网页来提高网页的形象。但这些 形式的内容展现会加大网络爬虫的信息识别难度,也会 影响到网页的信息量。在这样的网页中,网络爬虫只能 识别部分文字信息,而图片信息与动态网页内容网络爬 虫都是无法识别的 [4]。因此,一般遇到含有较多图片信 息或网页主体为动态网页的网站,网络爬虫会很难进行 信息的爬取。所以很多这样的网页会在图片与动态内容 中加入文字标签,通过文字标签的形式对图片信息与动 态信息进行简单的描述,便于网络爬虫的识别与收集, 并且标签的形式也不会影响到用户正常的网页访问,是 一种较好的网页设计方案。

  2.5 网络链接

  网络链接是网络爬虫的主要爬行路径,所以在网页 建设时,要确保上下级网页间有互通的链接,网站的内 容中最好可以有内容翻页与内容推荐的链接,便于网页 爬虫迅速进行相似内容的爬取,避免网络爬虫在进行内 容爬取后,因为链接的缺失影响到爬虫的爬行。因为网 络爬虫常常会使用链接分析的方式来判断不同搜索引擎 在爬行中的优先级,所以如果网站可以获得其他网站的 链接,就可以在一定程度上提高网站自身在爬虫系统中 的优先级排名。因此,网站可以寻找与自身网站内容相 性较高的网站相互提供链接,就能共同提高双方网站在 爬虫程序中的优先级 [5]。

  如何能够实现高质量的网络连接呢?首先,定位网 站的主题,聚焦网站的重点。当我们网站的核心关键词 都没有确定,甚至许多网站的品牌词都没有时,那么我 们就应该定位主题,找出我们网站的核心词,才能去发 外链。其次,收集并建立高质量外链资源。我们在发外 链的时候,一定要有资源,这样才能让用户有兴趣去阅 读。我们需要时刻收藏高价值的内容,时刻准备着并收 集整理高质量的外链平台,以及选择一些集中的高质量 外链平台,发过外链的朋友都有自己的外链平台,如博 客、论坛、书签等,适合发外链的论坛偏偏是不能留链 接的。那么我就在这些不能留链接的论坛发布,因为这 些论坛产生的价值远远超过垃圾外链论坛。再者说,还 能进行巧妙的布局,来吸引观众。很多朋友在采集一篇 文章做外链的时候,我们需要做一个巧妙的布局,来吸引用户的阅读,比如说:标题的布局、页面的排版等,  都是我们需要注意的地方。网站优化中高质量外链的重 要性不言而喻,网站维护人员都应该重视。其目的是引 导用户进入你的网站,增加有效流量,最终带来转化。 通过站外链接引导爬虫抓取你网站的内容,提升网站文 章页面的收录,最终提升网站权重,使网站关键词排名 靠前。高质量外链贵在坚持,只有持之以恒的精神,做 好收集整理,不断寻找高质量外链平台,我们外链建设 的质量才会越来越高。

\

  2.6 网页刷新

  网页刷新频率较高的网页能够吸引爬虫程序更加频 繁的进行网页访问,当网页刷新出新的内容也能让爬虫 更快的进行信息的爬取。因此,很多网站在网页设计时 会在网页中设计一定的动态模块进行实时的更新,这一 模块能够在提高用户停留时间的同时,提高爬虫程序在 网页的留存时间,吸引更多爬虫进行爬取。

  3  用户如何切合实际的开展网络优化

  3.1 域名选择

  对于优化用户网站而言,我们可能需要从最基础的 域名选择讲起,虽然它看似和用户网站优化没有任何关 系,但它确实决定我们是否能够顺利推进用户网站优化 项目的重要因子,为此,我们需要关注:(1)域名后缀。 对于搜索引擎而言,一般来讲,搜索引擎并不习惯性的 收录一些个性化结尾的域名,比如:.pro, .pw, .me 等。 通常,我们在做用户网站优化的时候,尽量选择常见的 主流域名后缀,  比如: .com,  .net,  .cn 等。这种后缀 的域名,通常对搜索引擎都具有较高的友好性,也可以 得到有效的备案,这样才可以更好的搭建网站,发布用 户站点。(2)域名的长短。一般来讲,对于用户域名,  通常是相对越短越好,一个是有利于记忆,另外一个就 是它更加容易有利于收录,毕竟当我们搭建网站之后,  一个页面访问的 URL 长度,组成部分主要分为:域名 + 目录 + 页面结构。如果你的用户网站页面 URL 太长,  实际上,有的时候不利于搜索引擎进行爬虫的爬行与抓 取。(3)域名新旧。如果你有成熟的用户网站优化经 验,你会发现新域名与老域名对用户网站优化的影响,  是截然不同的结果,一般来讲:新域名:你需要度过一 个网站沙盒周期,在这个周期中,搜索引擎会根据你的 网站运营状态,进行整站评估,如果整体质量不错,你 才可以顺利的通过考核,成功的展现在搜索结果中。一 般这个网站沙盒周期基于运营的关系,通常在 1-3 个月 之间,当然也会有更长的时间。老域名:  由于早期的运 营,老域名基本已经成功的度过这个沙盒期,并且由于之前的用户网站优化推广,它已经积累很多的资源,当 你的用户网站新上线的时候,它可能快速的展现并且给 出较高的排名。

  3.2 主机选择

  如果是国内常规用户网站优化,我们在用户网站优  化的时候,我们都是建议用户选择国内的主机线路,它  最大的优势就是:可以进行网站 ICP 备案,  并且由于国  内主机的地理位置,通常访问速度都比较快。而对于用  户主机商的选择,我们通常首先会推荐: 百度云,阿里  云,腾讯云,这三家公司。其次,就是用户网站主机性  能的选择,如果你是一个普通的用户网站,我们认为: 独立 IP 的云虚拟主机就够用,条件允许的情况下,尽  量选择配置商用的 CDN 服务,比如: 百度云加速。选  择符合自己 CMS 系统语言的主机。
 
  3.3 网站搭建
 
  对于用户网站建设而言,我们在选择网站程序的时 候,是模板建站还是自定义建站,实际上是与用户预算 有最为直接的关系。如果从用户网站优化的角度来讲, 我们当然推荐用户选择自定义建站,这种个性化的网站建设与结构,非常有利于搜索引擎的快速抓取与收录, 并且得到合理的展现。

  4  结语

  网络爬虫技术对于如今的互联网环境而言是必然的 发展方向,传统的互联网企业可以利用这一技术提高企 业在网络中的影响力,提高企业网站网页的知名度,为 企业的发展提供良好的推动力。

  参考文献

  [1] 穆喆.用云指建站把网站优化到极致[J].计算机与网络,2018 (18):115-116.

  [2] 马玉 . 网络爬虫性能提升与功能拓展的研究与实现[J].计算 机与网络,2019(9):20-21.

  [3] 侯建华 .三大思路让网站优化文章写作锦上添花[J].计算机 与网络,2017,43(18):45.

  [4] 黄媛 .面向网络爬虫的企业网站优化策略[J].信息系统工程, 2017(04):23.

  [5] 尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J]. 计算机应用,2008(05):1114-1116+1119.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!


文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/45985.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml