1 第一种方式:为Headers添加Referer字段
下载反盗链图片时,Headers除了必备的User-Agent字段之外,还需添加Referer字段,该字段为当前图片所在的Web页面链接。
1.2 在headers未加入Referer字段时
运行以下代码:
import requests
# 图片地址
url = 'https://stubbornhuangcomwordpressmedialibrary.oss-cn-shenzhen.aliyuncs.com/WordpressMediaLibrary/2019/12/201912260937073.png'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
reponse = requests.get(url,headers=headers)
print(reponse.status_code)
with open("1.jpg","wb")as f:
f.write(reponse.content)
reponse.close()
这是下载我个人站的图片,但是我在阿里OSS中配置了图片反盗链,所以如果我们以这种形式去下载图片,最后的响应代码一般都是403,这就是因为该资源进行了反盗链,那么自然图片也是无法下载成功的。
1.2 反盗链手段:在headers加入Referer字段,且该Referer字段对应的值为该资源的web页面链接时
运行以下代码:
import requests
# 图片地址
url = 'https://stubbornhuangcomwordpressmedialibrary.oss-cn-shenzhen.aliyuncs.com/WordpressMediaLibrary/2019/12/201912260937073.png'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0',
'Referer':'https://www.stubbornhuang.com/532/'
}
reponse = requests.get(url,headers=headers)
print(reponse.status_code)
with open("1.jpg","wb")as f:
f.write(reponse.content)
reponse.close()
结果发现,请求响应代码为200,说明我们请求成功,成功下载到了资源。
本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:Python3爬虫 – 下载反盗链图片的方式
原文链接:https://www.stubbornhuang.com/535/
发布于:2019年12月30日 11:23:02
修改于:2023年06月26日 22:48:55
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论
52