首页 技术教程建站经验正文

2024年收集搜索引擎蜘蛛大全以及浏览器模拟蜘蛛方法

对于做SEOer来说经常和搜索引擎蜘蛛打交道,下面整理收集了最全的搜索引擎蜘蛛大全。供有需要的朋友使用,建议收藏。

搜索引擎蜘蛛大全

"TencentTraveler",
"Baiduspider+",
"BaiduGame",
"bingbot",//必应蜘蛛
"DotBot",
"DataForSeoBot",
"SemrushBot",
"Googlebot",//谷歌蜘蛛 很勤奋的蜘蛛
"Sosospider+",
"Sogou web spider",
"ia_archiver",
"Yahoo! Slurp",
"YoudaoBot",
"Yahoo Slurp",
"MSNBot",
"Java (Often spam bot)",
"BaiDuSpider",
"Voila",
"Yandex bot",
"BSpider",
"twiceler",
"Sogou Spider",
"Speedy Spider",
"Google AdSense",
"Heritrix",
"Python-urllib",
"Alexa (IA Archiver)",
"Ask",
"Exabot",
"Custo",
"OutfoxBot/YodaoBot",
"yacy",
"SurveyBot",
"legs",
"lwp-trivial",
"Nutch",
"StackRambler",
"The web archive (IA Archiver)",
"Perl tool",
"MJ12bot",
"Netcraft",
"MSIECrawler",
"WGet tools",
"larbin",
"Fish search",
"360Spider",//360蜘蛛 比较懒的蜘蛛
"YisouSpider",//神马蜘蛛UC浏览器默认搜索sm.cn的蜘蛛
"SogouSpider",//搜狗蜘蛛
"Bytespider",//今日头条旗下:高频抓取 被很多站长封禁后 有所改善
"AspiegelBot",//华为旗下Aspiegel公司 疯狂高频爬行无节制
"YoudaoBot",//有道蜘蛛
"MJ12bot",//英国SEO分析页面蜘蛛
"SemrushBot",//美国SEO综合分析网站的蜘蛛
"YandexBot",//俄罗斯搜索引擎
"Yahoo",//雅虎蜘蛛


浏览器模拟蜘蛛方法

第一步:按压键盘上的F12键打开开发这工具,并点击右上角三个小黑点
第二步:选择More tools
第三步:选择Network conditions
第四步:找到User agent一列,取消复选框的勾选
第五步:选择谷歌爬虫agent即Googlebot
第六步:在当前浏览器地址栏中,输入想要访问的网站地址,直接访问。返回的页面就是爬虫看到的页面。
在这里插入图片描述
中文版浏:
在这里插入图片描述

Web浏览日志UA

PC搜索UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

移动搜索UA
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

PHP判断蜘蛛方法

/**
 * 判断是否是蛛蛛访问
 * @return bool|void
 */
public function is_spider() {
    $agent= strtolower($_SERVER['HTTP_USER_AGENT']);
    if (!empty($agent)) {
        $spiderSite= array(
            "TencentTraveler",
            "Baiduspider+",
            "BaiduGame",
            "bingbot",//必应蜘蛛
            "DotBot",
            "DataForSeoBot",
            "SemrushBot",
            "Googlebot",//谷歌蜘蛛 很勤奋的蜘蛛
            "Sosospider+",
            "Sogou web spider",
            "ia_archiver",
            "Yahoo! Slurp",
            "YoudaoBot",
            "Yahoo Slurp",
            "MSNBot",
            "Java (Often spam bot)",
            "BaiDuSpider",
            "Voila",
            "Yandex bot",
            "BSpider",
            "twiceler",
            "Sogou Spider",
            "Speedy Spider",
            "Google AdSense",
            "Heritrix",
            "Python-urllib",
            "Alexa (IA Archiver)",
            "Ask",
            "Exabot",
            "Custo",
            "OutfoxBot/YodaoBot",
            "yacy",
            "SurveyBot",
            "legs",
            "lwp-trivial",
            "Nutch",
            "StackRambler",
            "The web archive (IA Archiver)",
            "Perl tool",
            "MJ12bot",
            "Netcraft",
            "MSIECrawler",
            "WGet tools",
            "larbin",
            "Fish search",
            "360Spider",//360蜘蛛 比较懒的蜘蛛
            "YisouSpider",//神马蜘蛛UC浏览器默认搜索sm.cn的蜘蛛
            "SogouSpider",//搜狗蜘蛛
            "Bytespider",//今日头条旗下:高频抓取 被很多站长封禁后 有所改善
            "AspiegelBot",//华为旗下Aspiegel公司 疯狂高频爬行无节制
            "YoudaoBot",//有道蜘蛛
            "MJ12bot",//英国SEO分析页面蜘蛛
            "SemrushBot",//美国SEO综合分析网站的蜘蛛
            "YandexBot",//俄罗斯搜索引擎
            "Yahoo",//雅虎蜘蛛
        );

        foreach($spiderSite as $val) {
            $str = strtolower($val);
            if (strpos($agent, $str) !== false) {
                return true;
            }
        }
    } else {
        return false;
    }
}

一般我们的网站能在百度等搜索引擎上搜到,说明该搜索引擎的爬虫爬到了我们的网站并且被搜索引擎收录。

世界有成千上万的搜索引擎,当然不一定只有搜索引擎才有爬虫蜘蛛。那么每天有这么多蜘蛛访问我们的网站,肯定对网站的产生一些影响,比如流量的损失、占用服务器资源等,严重者甚至造成服务器宕机。

所我们要认识这些蜘蛛,那些对我们是有用的,我们要欢迎。那些是对我们无益的,我们就把它屏蔽掉。

通过 robots.txt 可以屏蔽无用的蜘蛛,参考我的这篇文章:   Robots协议探究:如何好好利用爬虫

下面整理了一些搜索引擎蜘蛛:

1、BaiduSpider(百度蜘蛛)

常见的百度蜘蛛有:Baiduspider 和 Baiduspider-image(抓取图片)。国内网站大多数流量都来自百度,所以推荐放行。

百度还有其它几个蜘蛛:

Baiduspider-video(抓取视频)

Baiduspider-news(抓取新闻)

Baiduspider-mobile(抓取wap)

百度蜘蛛介绍:http://www.baidu.com/search/spider.html

2、Googlebot(谷歌蜘蛛)

常见的谷歌蜘蛛有:Googlebot,还一个 Googlebot-Mobile ,不是很常见,看名字是应该是抓取 wap 页面的。世界第一大搜索引擎,推荐放行。

谷歌蜘蛛链接:http://www.google.com/bot.html

3、360Spider(360蜘蛛)

一个十分“勤奋抓爬”的蜘蛛。

360蜘蛛IP:https://www.so.com/help/spider_ip.html

4、Sogou web spider(搜狗蜘蛛)

搜狗公司还有其它几个蜘蛛:Sogou News Spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,德顺在日志中只发现了常见的Sogou web spider。

参考百度的robots文件,搜狗蜘蛛名称可以用 Sogou 概括,但有没有用就不知道了。

搜狗蜘蛛爬虫:http://www.sogou.com/docs/help/webmasters.htm


5、Bingbot(必应蜘蛛)

必应是微软的搜索引擎,微软的IE浏览器和Edge浏览器会默认使用该搜索引擎,而且占有率也还可以,不建议屏蔽。

必应蜘蛛爬虫:http://www.bing.com/bingbot.htm

6、Sosospider(SOSO蜘蛛)

腾讯已玩死,交给搜狗公司了。

soso蜘蛛爬虫:http://help.soso.com/webspider.htm

7、Yahoo! Slurp China(雅虎中国)或 Yahoo! Slurp(雅虎英文)

雅虎蜘蛛爬虫:

雅虎中国:http://misc.yahoo.com.cn/help.html

雅虎英文:http://help.yahoo.com/help/us/ysearch/slurp

8、MSNBot,MSNot-media(MSN蜘蛛)

MSNBOT应该是 bing 搜索的蜘蛛,MSN和bing是一家的,可以只保留 Bingbot。

MSN蜘蛛爬虫:http://search.msn.com/msnbot.htm

9、YisouSpider(一搜蜘蛛/神马搜索)

神马搜索是UC和阿里2013年已经成立合资公司推出的移动搜索引擎。

该蜘蛛抓取频率还是很高的,很多人并不看好,不过如果屏蔽的话,会损失 UC浏览器 的流量来源。自己斟酌吧!

10、还有一些蜘蛛,不会给网站带来流量,还会占用资源,建议屏蔽之。

YoudaoBot(有道蜘蛛):网易有道的蜘蛛,并不会带来流量。

JikeSpider(即刻蜘蛛):“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台,建议屏蔽。

即刻蜘蛛:http://shoulu.jike.com/spider.html

EasouSpider(宜搜蜘蛛):宜搜是主要针对手机端的搜索引擎,非常傻帽的一个爬虫,建议屏蔽之。

YYSpider:据说是个人写的蜘蛛程序,指向的是 http://www.yunyun.com/spider.html ,yunyun.com  目前不能访问,建议屏蔽之。

ToutiaoSpider(头条号):今日头条的头条号蜘蛛,不能带来流量,屏蔽好啦。

来源:https://www.toutiao.com/media_cooperation

MJ12bot: 英国的一个搜索引擎,官方解释为:成千上万的企业使用13种语言和60多个国家来绘制互联网地图,独立于基于消费者的搜索引擎。

来源:http://mj12bot.com/

YandexBot:国外的一个网站分析平台,建议屏蔽。

详细介绍:https://webmaster.yandex.com

来源:http://yandex.com/bots

Rogerbot:Moz 网站的机器人。与 Moz 的官方机器人 DotBot 不同,Rogerbot 似乎不再是一个合法的机器人。

DotBot:嗯,看到这你应该懂了。

来源:http://www.opensiteexplorer.org/dotbot

exabot:Exalead或Dassault Systemes网站的机器人。

ia_archiver(Alexa蜘蛛):Alexa 的网站和网站审计爬虫。

Teoma:是美国 Ask Jeeves 搜索引擎的蜘蛛,在美国占 5% 的搜索份额。

gigabot:搜索到的是一个 3D 打印公司,没什么乱用,屏蔽即可。

DOCOMO Sprider:日本 NTT DoCoMo 旗下的搜索引擎蜘蛛,是垃圾搜索引擎爬虫,有看到你的日志里面有这只蜘蛛,直接毫不犹豫的禁掉。

AhrefsBot:国外的一个网站监控工具,要不要屏蔽,看下图:

来源:http://ahrefs.com/robot/

SemrushBot:嗯,应该也是一个网站分析工具。


更多优质资源请微信扫码访问:盘姬资源网小程序


免责声明

本文仅代表作者观点,不代表本站立场,内容的真实性请自行甄别谨防上当受骗。

本站采用 CC BY-NC-SA 4.0 国际许可协议 进行许可,转载或引用本站文章应遵循相同协议。

  1. 本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。

  2. 本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

  3. 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报。

  4. 如果有侵犯版权的资源请尽快联系站长,我们会在24h内删除有争议的资源。

站长邮箱:xm520vip@gmail.com

本文链接:https://123.775n.com/post-575.html

发表评论

评论列表(0人评论 , 156人围观)
☹还没有评论,来说两句吧...

会员中心

歆梦资源网(775n.com)-探索精品网络资源的宝藏之地

https://123.775n.com/

| 京ICP备100000000

Powered By 某某网络科技有限公司

使用手机软件扫描微信二维码

关注我们可获取更多热点资讯