Python-2016-10-26-作业

浏览: 1094

作业题目:获取网页上出现的出版社列表http://read.douban.com/provider/all

# 方法一:正则表达式
from urllib.request import urlopen
import re
url = 'http://read.douban.com/provider/all'
content = urlopen(url).read()
reg = '<div class="name">(.+?)</div>'
pressList = re.compile(reg).findall(str(content,'utf-8'))
for press in pressList:
print(press)
print(len(pressList))

# 方法二:BeautifulSoup
import requests
from bs4 import BeautifulSoup
url = 'http://read.douban.com/provider/all'
content = requests.get(url)
content.encoding='utf-8'
soup = BeautifulSoup(content.text,'html.parser')
for press in soup.select('.name'):
print(press.text)
print(len(soup.select('.name')))

运行结果:

博集天卷

北京邮电大学出版社

北京法讯网络技术有限公司

北京师范大学出版社

百花洲文艺出版社

百花文艺出版社

楚尘文化

重庆大学出版社

东方文萃

读客图书

电子工业出版社

当代中国出版社

第一财经周刊

豆瓣阅读同文馆

豆瓣

豆瓣公益

豆瓣阅读

凤凰壹力

凤凰联动

Fiberead

复旦大学出版社

凤凰雪漫

理想国

果壳阅读

果麦文化

后浪出版公司

华东师范大学出版社

华章数媒

汉唐阳光

华文时代

长江数字

湖北人民出版社

华章同人

华夏盛轩

今古传奇

海豚出版社

虹膜出版

化学工业出版社

华中科技大学出版社

湖北科学技术出版社

黑龙江北方文艺出版社

华文经典

聚石文华

金城出版社

凤凰悦世泓文

简书

江苏人民出版社

九州幻想

科幻世界

杭州蓝狮子文化创意股份有限公司

漓江出版社

磨铁数盟

漫友文化

宁波出版社

南方人物周刊

ONE·一个

浦睿文化

清华大学出版社

青岛出版社

《人物》杂志

人民文学出版社

人民邮电出版社

儒意欣欣

人民东方出版传媒

人民文学杂志社

上海九久读书人

世纪文景

四川数字出版传媒有限公司

上海译文出版社

时代华文

上海雅众文化

世纪文睿

时代华语

商务印书馆

生活·读书·新知三联书店

上海社会科学院出版社

社会科学文献出版社

山西春秋电子音像出版社

时代数联

陕西人民出版北京分公司

《书城》杂志

世界图书出版公司北京公司

四川文艺出版社

上海文艺出版社

上海人民出版社

华文天下

上海交通大学出版社

斯坦威图书

图灵社区

武汉大学出版社北京分社

万有图书

外语教学与研究出版社

我和豆瓣

新经典文化电子书

新星出版社

小阅读(广西师大社)

新华先锋文化传媒

雪球

悬疑世界

现代出版社

西南财经大学出版社

新华出版社

新华先锋出版科技

译林出版社

译言·东西文库

译言古登堡计划

悦读纪

阳光博客

阅文集团

悦读名品

燕山出版社

中信出版社

中国人民大学出版社

中作华文

中国轻工业出版社

紫图图书

浙版数媒

中央编译出版社

知乎

中国国家地理图书部

浙江摄影出版社

中国经济出版社

中国青年出版社

中国民主法制出版社

中国传媒大学出版社

中国言实出版社

浙江大学出版社

湛庐文化

浙江文艺出版社

推荐 0
本文由 ☆→宝山←☆ 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册