Python爬虫协议详解

2024-11-08 4

当我们真正接触了爬虫之后会发现爬虫的功能十分强大，但是我们并不能为所欲为的使用爬虫，爬虫需要遵循robots协议，该协议是国际互联网界通行的道德规范，每一个爬虫都应该遵守，本节我们就来介绍一下爬虫协议。

1. 违规案例（1）——BE违规抓取eBay

十二年前，BE公司利用爬虫抓取了eBay等多个大型拍卖网站的商业信息，并把这些信息放置在自己的网站上供用户浏览，获得了客观的网站流量，对于eBay来说，BE的爬虫每天超过十万次的访问自家的服务器，造成了很大的压力，因此向BE提出禁止抓取，但是BE因为利益的原因而无视这个要求，之后eBay便把BE告上法庭，经过联邦法官的取证后，认定BE侵权，禁止了BE的行为。

2. 违规案例（2）——360搜索无视robots协议

2012年8月29日，上线十日便轻松登顶国内第二大搜索引擎的奇虎360搜索遭到百度的起诉，百度认为360公司违反Robots协议抓取百度知道、百度百科等数据，而法庭也尊重Robots协议，因此360赔偿百度70万元，由此可见，Robots协议在互联网业界和司法界都是得到认可的，我们在使用的时候也要严格遵循此协议。

3. 爬虫协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，该协议属于一个规范，并不能保证网站的隐私。

Robots协议是国际互联网界通行的道德规范，基于以下原则：
1. 搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权。

2. 网站有义务保证其使用者的个人信息和隐私不被侵犯。

在使用爬虫的时候我们应当注意一下几点：

1. 拒绝访问和抓取有关不良信息的网站。

2. 注意版权意识，对于原创内容，未经允许不要将信息用于其他用途，特别是商业方面。

3. 严格遵循robots.txt协议。

4. 爬虫协议查看方式

大部分网站都会提供自己的robots.txt文件，这个文件会告诉我们该网站的爬取准则，查看方式是在域名加"/robots.txt"并回车。

我们来看一下百度的爬虫协议：

python爬虫3 python爬虫4

在上面我们可以看到，百度的爬虫协议中对不同的访问者有着不同的要求。

User-agent为访问用户，出现多个User-agent表示该网站对不同的用户提供不同的准则。例如该网站对于普通使用者为：

python爬虫5

表示禁止所有搜索引擎访问网站的任何部分，而对于这种的：

python爬虫6

表示只禁止该搜索引擎访问部分根目录下的文件。

常使用的规范如下：

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符。

Disallow: /baidu/ 这里定义是禁止爬寻baidu目录下面的目录。

Disallow: /dotcpp/*.htm 禁止访问/dotcpp/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。

Disallow:/dotcpp/dotcpp.html 禁止爬取dotcpp文件夹下面的dotcpp.html文件。

Allow: /dotcpp/　这里定义是允许爬寻dotcpp目录下面的目录。

Allow: /dotcpp 这里定义是允许爬寻tmp的整个目录。

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片。

Sitemap: 网站地图，告诉爬虫这个页面是网站地图。

热门排行

Python爬虫协议详解

1. 违规案例（1）——BE违规抓取eBay

2. 违规案例（2）——360搜索无视robots协议

3. 爬虫协议

相关文章