baiduspider是什么 baiduspider工作原理详解

赵斌博客
2021-09-06 / 0 评论 / 386 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2021年09月06日,已超过1172天没有更新,若内容或图片失效,请留言反馈。
广告

baiduspider转义过来是百度蜘蛛的意思,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到你网站上的网页,那么baiduspider是如何工作的?

20098-o0uzg5z5m6.png

首先,baiduspider想要抓取网页先要发现抓取的入口,然后Spider顺着入口的URL进行分析抓取,这里就涉及抓取策略的问题。以下是baiduspider的工作原理:

1、baiduspider按照一定的规则抓取网页,百度蜘蛛顺着网页中的内部链接,从一个页面爬到另一个页面,通过链接分析连续爬行访问,抓取更多的页面。百度蜘蛛抓取到网页之后,要提取关键词,建立索引,同时还要分析内容是否重复,判断网页的质量,网站的信任度等工作。分析完毕之后,符合要求的才能提供检索服务。

2、baiduspider会将下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。

3、baiduspider抓页面的时候从起始站点(即种子站点指的是一些门户站点)优先开始抓取。深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,baiduspider只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取40%是正常范围,60%算很好,100%不太可能。

百度各个产品对应的user-agent:

  • 网页搜索:Baiduspider
  • 无线搜索:Baiduspider
  • 图片搜索:Baiduspider-image
  • 视频搜索:Baiduspider-video
  • 新闻搜索:Baiduspider-news
  • 百度搜藏:Baiduspider-favo
  • 百度联盟:Baiduspider-cpro
  • 商务搜索:Baiduspider-ads

网站不想被baiduspider访问如何做:

baiduspider遵守互联网robots协议。你可以利用robots.txt文件完全禁止baiduspider访问你的网站,或者禁止其访问网站上的部分文件。

希望内容被百度索引但不被保存快照:

baiduspider遵守互联网meta robots协议。你可以利用网页meta的设置,使百度显示只对该网页建立索引,但并不在搜索结果中显示该网页的快照。因为搜索引擎索引数据库的更新需要时间,所以如果在数据库中已经建立了你网站的索引信息,可能需要二至四周才会更新生效。

本文共 759 个字数,平均阅读时长 ≈ 2分钟
广告
0

打赏

海报

正在生成.....

评论 (0)

取消