BeautifulSoup教程(1) - 简介及安装

浏览: 1951

最近在学习Python,按照一些博客练习爬虫,最简单的步骤,就是访问一个主页,根据正则表达式去获取我们想要的标签数据;

比如这样:

#加载网址,获取当前页面
def getHTML(url) :
page = urllib.urlopen(url)
html = page.read()
return html

def getImage(html) :
reg = r'src="(.+?\.jpg)"'
reg2 = r'<img alt="(.+?)" src="(.+?\.jpg)'
image_reg = re.compile(reg2)
img_list = re.findall(image_reg,html)

简单的话,这样还好,如果复杂些的话,像我一样对正则表达式不熟悉的话,可能就不太好实现了,

后面发现这个beautifulSoup解析HTML很方便,这里简单学习下,

官网地址:https://www.crummy.com/software/BeautifulSoup/

还有中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

1. 简介

这里说的不错,Python爬虫利器二之Beautiful Soup的用法

image.png

2. 安装

Python里面安装东西很方便,直接使用pip就行了

 pip install beautifulsoup4

image.png

3.小例子

我们先写个小例子看看

 # -*- coding: utf-8 -*-

import urllib
import re
from bs4 import BeautifulSoup

#加载网址,获取当前页面
def getHTML(url) :
page = urllib.urlopen(url)
html = page.read()
return html

html = getHTML('https://movie.douban.com/top250')
soup = BeautifulSoup(html, "html.parser")


for img in soup.find_all('img'):
print img.get('src')

这里,我们就输出了所有的img标签

image.png

后面,我们再来继续练习使用

推荐 2
本文由 liutangwow 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册