小创:谷歌的爬虫程序到你的网站上第一步会检测你的网站是否处于可以抓取的状态,因为不是所有的网站都需要让搜索引擎抓取。可以用robots.txt的协议文件告诉蜘蛛是否可以抓取本网站,甚至进一步规定哪些页面可以抓取,哪些页面不可以抓取。
操作方法:使用robots.txt文件协议,在网站根目录下创建一个名为“robots.txt”的文本文件。该文件中,你可以制定哪些页面或者目录不希望被搜索引擎抓取。例如,你可以使用以下指令来阻止谷歌的爬虫程序抓取整个网站:user-agent:googlebot disallow://