SEO分类目录


【SEO教程】 【SEO入门教程】 【SEO基础教程】 【SEO实战案例】 【SEO工具大全】 【SEO培训】 【SEO培训教程】 【SEO培训案例】 【SEO外包】 【SEO外包教程】 【SEO外包案例】 【织梦建站】 【织梦基础教程】 【织梦建站教程】 【模板下载】 【博客模板】 【企业模板】 【小龙SEO服务】

什么是搜索引擎蜘蛛(网络爬虫)

说到搜索引擎蜘蛛或者网络爬虫,非本专业的人可能一直无法理解是什么意思。正所谓隔行如隔山,看似简单的东西,其实掌握了本身就是一种潜在的价值。下面和老唐简单为大家介绍下。

搜索引擎蜘蛛网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

每个搜索引擎都有自己的蜘蛛,这些蜘蛛会夜以继日的抓取链接互联网的网页,然后搜索引擎引擎会对这些网页进行索引,排序,最终当用户搜索的时候搜索引擎能够快速提供最相关的网页。那么目前世界上有哪些搜索引擎以及他们的蜘蛛类型是怎么样的呢?

Google的蜘蛛: Googlebot

百度的蜘蛛:baiduspider

好搜的蜘蛛:haosouspider(360spider)

搜狗的蜘蛛:Sogou News Spider

一搜蜘蛛:YisouSpider

必应蜘蛛:bingbot

宜sou蜘蛛:EasouSpider

即刻蜘蛛:JikeSpider

一淘网蜘蛛:EtaoSpider

SOSO的蜘蛛:Sosospider

Yahoo的蜘蛛:Yahoo Slurp

MSN的蜘蛛:Msnbot

Altavista的蜘蛛:Scooter

Lycos的蜘蛛: Lycos_Spider_(T-Rex)

Alltheweb的蜘蛛: FAST-WebCrawler/

INKTOMI的蜘蛛: Slurp

搜索引擎蜘蛛(网络爬虫)的工作流程:

什么是搜索引擎蜘蛛(网络爬虫)
1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

关于如何写一个简单的搜索引擎蜘蛛(网络爬虫)程序:

python有强大的类库,用来写爬虫是很不错的。这个程序是最简单的爬虫程序,不用登陆,没有js等,只是单纯地把网页抓下来,然后用正则表达式筛选出我感兴趣的数据。参考网址:http://www.2cto.com/kf/201403/283379.html

类似网络爬虫的程序:

火车头http://www.locoy.com/

火车采集器是用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网站的一种工具,他们可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容。

您可能还会对下面的文章感兴趣: