五大主流搜索引擎的Spider蜘蛛抓取原理详解

2019-01-25 21:07 阅读 3,992 views 次评论 0 条

（谭云财SEO顾问）在网络中，我们经常会涉及到各种搜索引擎的抓取算法，且所有的搜索引擎都必须经过抓取到过滤，百度，搜狗，360，谷歌，必应五大搜索引擎是什么抓取原理呢，存储到展现的一个过程。当然了，它们都会抓取robots文件，而且具体抓取时间和频率是根据网站的更新频率+sitemap更新来决定的。

sitemap蜘蛛抓取原理详解

sitemap蜘蛛抓取原理详解

百度蜘蛛抓取原理

抓取：百度蜘蛛首先会分析网站的robots文件，进而读取到网站的哪些目录可以被抓取，哪些信息不予以加入权重，百度蜘蛛抓取的信息是一个广义式，会抓取一个链接目录中的所有子链接，或者是抓取一个页面上的所有链接来存储。

百度蜘蛛也会根据抓取频次和时间来判断一个网站的性能，在一定单位时间内（天级）对网站服务器抓取的总次数，如果搜索引擎对站点的抓取频次过高，很有可能造成服务器不稳定，发现网站有延时的时候，会暂停当天内网站内容的抓取。

其中还要注意到网站各个页面之间的权重转换和面包屑的合理布局。

具体的抓取频次和抓取时间需要根据网站服务器性能来判断，以及网站内容中的重复度来筛选。

百度蜘蛛通常最热衷于静态目录形式的链接：

类似于：

所有的域名都会有pr权重的说法，所以在网站布局上，所有的栏目都需要根据蜘蛛抓取的信息来排序，即抓取“信息在前，功能在后”的布局。

过滤：百度蜘蛛不会抓取JS脚本、iframe框架、网页中需要登录的信息以及flash视频。（这些是大忌！）

通常情况下，百度蜘蛛会在每天网站提交的新内容中识别并抓取内容；再对内容进行筛选过滤，发现语句不通顺的内容会直接过滤掉；

惩罚：如果发现与网站上存在大量类似的内容会直接过滤掉，对于采集的内容如果严重的话，可能会将网站拉黑，在1-2个月内不予以收录，带来的结果就是网站进入沙盒期，排名下降。

存储：百度蜘蛛会在过滤后将数据筛选后留住合格的内容，存储到一个临时的索引库中，进行分类存储。

展现：存储在库中的内容，我们会通过site命令来查看索引，用户在搜索一个内容时，百度蜘蛛就会优选挑选符合用户习惯和需求内容来予以展现。

打击采集站的算法：另外，百度每隔一段时间就会出具相应的算法来打击采集网站，保护原创。采集多篇不同文章进行拼接，整体内容未形成完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求的内容时，百度也会打击，在一段时间内不会收录网站的内容。

搜狗搜索引擎抓取原理

搜狗搜索引擎采用的是目录式抓取，即讲究深度索引。（批量推送时，会选择性抓取内链）

内容优良而独特的页面，如果您的页面内容和互联网上已存在的其他页面有高度的相似性，可能不会被搜狗收录。

1、链接层次较浅的页面，过深的链接层次，尤其是动态网页的链接，会被丢弃而不收录。

2、如果是动态网页，请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。

搜狗搜索引擎主要是抓取微信端的内容。

360搜索引擎抓取原理

360搜索引擎主要抓取的是网站的ALT图片，是一款较专业的图片搜索引擎工具。通常站长也是提交图片给360抓取，有选择性的进行存储与建立索引库。

360搜索引擎主要抓取网站图片。

谷歌搜索引擎抓取原理

谷歌搜索引擎又叫做万能搜索引擎，分为索引式蜘蛛和目录式蜘蛛抓取，抓取网络上的所有链接。【做站群时需要禁止谷歌抓取】

必应搜索引擎抓取原理

主要用于UC浏览器的手机端，接近挂了。（武汉seo优化）

版权声明：本文著作权归原作者所有，欢迎分享本文，谢谢支持！
转载请注明：五大主流搜索引擎的Spider蜘蛛抓取原理详解 | 谭云财SEO顾问自媒体博客

分类：seo站长工具 标签：sitemap, 蜘蛛抓取

发表评论取消回复

×