在网络爬虫的爬行策略中应用最为基础的是什么
在网络爬虫的爬行策略中应用最为基础的是:深度优先遍历策略和广度优先遍历策略。
一、深度优先遍历策略
深度优先遍历策略很好理解,这跟我们有向图中的深度优先遍历是一样的,因为网络本身就是一种图模型嘛。深度优先遍历的思路是先从一个起始网页开始抓取,然后对根据链接一个一个的逐级进行抓取,直到不能再深入抓取为止,返回上一级网页继续跟踪链接。
二、广度优先遍历策略
广度优先搜索和深度优先搜索的工作方式正好是相对的,其思想为:将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。
深度优先遍历的算法
根据深度优先算法的特性,可以使用栈先入后出的特性实现。将探索过的点存入栈内,遇到走不通的时候将栈顶元素出栈回到上一个元素,实现回溯。
广度优先遍历的算法
根据广度优先算法需要按序回顾之前走过的顶点顺序的特性,可以使用队列先入先出来进行实现。
多重随机标签
小学生可以自己管理电脑吗 沈阳城市建设学院是公办还是民办 优质课如何制作课件 vue中登录首页有优惠券弹 学做美甲美睫难不大概要学多长时间 新闻稿发布平台有哪些 用dreamweaver制作网页时怎么把插入的每个表格的大小都设一样呀 零点校园的网站特色 镇江城镇建设 梦幻西游网页版蓬莱故忆通关攻略 舟山区域城配唯捷城配招商 南京长城数码科技有限公司怎么样 windows10edge浏览器上怎样将网页存储为pdf格式文件 梵克雅宝专柜哪些城市 一个初中没上完的学生现在去学什么 法律咨询电话多少 114啦 网址导航的那个开源程序如何使用 运营商的流量哪来的 建筑工程造价咨询收费标准是多少 英文论文排版中font style should be bold这个bold的意思到底是黑体还是加粗 flash制作软件软件功能 淘宝数据魔方多少钱 c语言编译一个心形图案碰到的问题 贵阳的高端商场有哪些 襄阳鑫睿风广告有限公司怎么样 常见汉译英词语翻译15例 校园内网如何搭建nas 沉溺动漫是不良情趣吗 练习 25 赵桥镇基本情况