小创:造成爬虫遗漏或不收录网站的常见原因如下:
1、没有内部或外部链接,没有找到自己网站内和此页面内容有相关联的网页。一般可以增加外链分享跳转的联系,也可以添加友情链;
2、搜索引擎对新站的收录是有一定的时间的,坚持内容的更新,尤其是原创内容的更新,可以加快收录的速度;
3、网站设计的内容对爬虫抓取不友好。搭建网站设计应以外国人的风俗习惯做本土化
的内容物料展示;
4、遇到的会造成搜索爬虫无法抓取页面的http状态码是404、500、301和302,正确的页面状态码是200;
5、网站设置阻止爬虫的抓取。有可能出现以下原因:robots.txt设置了不可被抓取;网页html代码加了noindex标签;canonical标签指向另外一个网页。
谷歌有数千台机器来运行蜘蛛,但有一百万个网站等待被抓取。因此预算有限,只要做到网页加载速度快,内容质量高,权威性高,相关性高等行为,即可大概率提高收录率。