第一个Python3.0 爬虫程序, 爬取百度贴吧图片

Java 源码解读
Java 集合类源码,JUC 源码解读
wangxiaoming

 

第一个Python3.0 爬虫程序, 爬取百度贴吧图片

 

基于python 3.0 

 

#print("hello222")
# coding= utf-8
import urllib.request
import  re

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

a = input('inpt url:')
html = getHtml(a)


def getImg(html):
    reg = r'src="(.+?\.jpg)"'
    #reg = r'img.src="(.*?)"'
    imgre = re.compile(reg)
    html = html.decode('utf-8')
    imglist = re.findall(imgre, html)
    local = 'd://google'
    '''
    '''
    x = 0
    print(len(imglist))
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl, local + '%s.jpg' % x)
        x += 1
    #return imglist

#html = getHtml("http://tieba.baidu.com/p/2460150866")
getImg(html)
#print(img)
#print(html)

 

 

看运行:

 

看结果: 我这个是直接下载到我的D盘

 

由于转码的问题,还有点不足,基本上可以实现爬虫下载文件

 

 

wangxiaoming CSDN认证博客专家 架构 Spring Boot Redis
博客是很好的总结和记录工具,如果有问题,来不及回复,关注微信公众号:程序员开发者社区,获取我的联系方式,向我提问,也可以给我发送邮件,联系 1275801617@qq.com
©️2020 CSDN 皮肤主题: Age of Ai 设计师: meimeiellie 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值