(谭云财SEO顾问)在网络中,我们经常会涉及到各种搜索引擎的抓取算法,且所有的搜索引擎都必须经过抓取到过滤,百度,搜狗,360,谷歌,必应五大搜索引擎是什么抓取原理呢,存储到展现的一个过程。当然了,它们都会抓取robots文件,而且具体抓取时间和频率是根据网站的更新频率+sitemap更新来决定的。
百度蜘蛛抓取原理
抓取:百度蜘蛛首先会分析网站的robots文件,进而读取到网站的哪些目录可以被抓取,哪些信息不予以加入权重,百度蜘蛛抓取的信息是一个广义式,会抓取一个链接目录中的所有子链接,或者是抓取一个页面上的所有链接来存储。
百度蜘蛛也会根据抓取频次和时间来判断一个网站的性能,在一定单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,发现网站有延时的时候,会暂停当天内网站内容的抓取。
其中还要注意到网站各个页面之间的权重转换和面包屑的合理布局。
具体的抓取频次和抓取时间需要根据网站服务器性能来判断,以及网站内容中的重复度来筛选。
百度蜘蛛通常最热衷于静态目录形式的链接:
类似于:
所有的域名都会有pr权重的说法,所以在网站布局上,所有的栏目都需要根据蜘蛛抓取的信息来排序,即抓取“信息在前,功能在后”的布局。
过滤:百度蜘蛛不会抓取JS脚本、iframe框架、网页中需要登录的信息以及flash视频。(这些是大忌!)
通常情况下,百度蜘蛛会在每天网站提交的新内容中识别并抓取内容;再对内容进行筛选过滤,发现语句不通顺的内容会直接过滤掉;
惩罚:如果发现与网站上存在大量类似的内容会直接过滤掉,对于采集的内容如果严重的话,可能会将网站拉黑,在1-2个月内不予以收录,带来的结果就是网站进入沙盒期,排名下降。
存储:百度蜘蛛会在过滤后将数据筛选后留住合格的内容,存储到一个临时的索引库中,进行分类存储。
展现:存储在库中的内容,我们会通过site命令来查看索引,用户在搜索一个内容时,百度蜘蛛就会优选挑选符合用户习惯和需求内容来予以展现。
打击采集站的算法:另外,百度每隔一段时间就会出具相应的算法来打击采集网站,保护原创。采集多篇不同文章进行拼接,整体内容未形成完整逻辑,存在阅读不通顺、文章不连贯等问题,无法满足用户需求的内容时,百度也会打击,在一段时间内不会收录网站的内容。
搜狗搜索引擎抓取原理
搜狗搜索引擎采用的是目录式抓取,即讲究深度索引。(批量推送时,会选择性抓取内链)
内容优良而独特的页面,如果您的页面内容和互联网上已存在的其他页面有高度的相似性,可能不会被搜狗收录。
1、链接层次较浅的页面,过深的链接层次,尤其是动态网页的链接,会被丢弃而不收录。
2、如果是动态网页,请控制一下参数的数量和URL的长度。搜狗更偏好收录静态网页。
搜狗搜索引擎主要是抓取微信端的内容。
360搜索引擎抓取原理
360搜索引擎主要抓取的是网站的ALT图片,是一款较专业的图片搜索引擎工具。通常站长也是提交图片给360抓取,有选择性的进行存储与建立索引库。
360搜索引擎主要抓取网站图片。
谷歌搜索引擎抓取原理
谷歌搜索引擎又叫做万能搜索引擎,分为索引式蜘蛛和目录式蜘蛛抓取,抓取网络上的所有链接。【做站群时需要禁止谷歌抓取】
必应搜索引擎抓取原理
主要用于UC浏览器的手机端,接近挂了。(武汉seo优化)