作业题目:获取网页上出现的出版社列表http://read.douban.com/provider/all
# 方法一:正则表达式
from urllib.request import urlopen
import re
url = 'http://read.douban.com/provider/all'
content = urlopen(url).read()
reg = '<div class="name">(.+?)</div>'
pressList = re.compile(reg).findall(str(content,'utf-8'))
for press in pressList:
print(press)
print(len(pressList))
# 方法二:BeautifulSoup
import requests
from bs4 import BeautifulSoup
url = 'http://read.douban.com/provider/all'
content = requests.get(url)
content.encoding='utf-8'
soup = BeautifulSoup(content.text,'html.parser')
for press in soup.select('.name'):
print(press.text)
print(len(soup.select('.name')))
运行结果:
博集天卷
北京邮电大学出版社
北京法讯网络技术有限公司
北京师范大学出版社
百花洲文艺出版社
百花文艺出版社
楚尘文化
重庆大学出版社
东方文萃
读客图书
电子工业出版社
当代中国出版社
第一财经周刊
豆瓣阅读同文馆
豆瓣
豆瓣公益
豆瓣阅读
凤凰壹力
凤凰联动
Fiberead
复旦大学出版社
凤凰雪漫
理想国
果壳阅读
果麦文化
后浪出版公司
华东师范大学出版社
华章数媒
汉唐阳光
华文时代
长江数字
湖北人民出版社
华章同人
华夏盛轩
今古传奇
海豚出版社
虹膜出版
化学工业出版社
华中科技大学出版社
湖北科学技术出版社
黑龙江北方文艺出版社
华文经典
聚石文华
金城出版社
凤凰悦世泓文
简书
江苏人民出版社
九州幻想
科幻世界
杭州蓝狮子文化创意股份有限公司
漓江出版社
磨铁数盟
漫友文化
宁波出版社
南方人物周刊
ONE·一个
浦睿文化
清华大学出版社
青岛出版社
《人物》杂志
人民文学出版社
人民邮电出版社
儒意欣欣
人民东方出版传媒
人民文学杂志社
上海九久读书人
世纪文景
四川数字出版传媒有限公司
上海译文出版社
时代华文
上海雅众文化
世纪文睿
时代华语
商务印书馆
生活·读书·新知三联书店
上海社会科学院出版社
社会科学文献出版社
山西春秋电子音像出版社
时代数联
陕西人民出版北京分公司
《书城》杂志
世界图书出版公司北京公司
四川文艺出版社
上海文艺出版社
上海人民出版社
华文天下
上海交通大学出版社
斯坦威图书
图灵社区
武汉大学出版社北京分社
万有图书
外语教学与研究出版社
我和豆瓣
新经典文化电子书
新星出版社
小阅读(广西师大社)
新华先锋文化传媒
雪球
悬疑世界
现代出版社
西南财经大学出版社
新华出版社
新华先锋出版科技
译林出版社
译言·东西文库
译言古登堡计划
悦读纪
阳光博客
阅文集团
悦读名品
燕山出版社
中信出版社
中国人民大学出版社
中作华文
中国轻工业出版社
紫图图书
浙版数媒
中央编译出版社
知乎
中国国家地理图书部
浙江摄影出版社
中国经济出版社
中国青年出版社
中国民主法制出版社
中国传媒大学出版社
中国言实出版社
浙江大学出版社
湛庐文化
浙江文艺出版社