python-BeautifulSoup字符集问题

0
# -*- coding:utf-8 -*-

import urllib.request
import re
from bs4 import BeautifulSoup

file = open(r"D:\PycharmProjects\保存记录\7_糗事百科HTML.txt",'r',encoding='utf-8')
data = file.read()
#print(data) --此处显示此处显示正常
soup = BeautifulSoup(data)

#我们可以利用 soup加标签名轻松地获取这些标签的内容,不过有一点是,它查找的是在所有内容中的第一个符合要求的标签
#print(soup.title)--此处显示此处显示正常
#print(soup.title.text)--此处显示此处显示正常
#print(soup.head.text)--此处显示此处显示正常
#print(soup.a)--此处显示此处显示正常
print(soup.get_text().encode('gb18030'))
print(soup.get_text())
倒数第二行打印结果(gb18030和utf-8结果类似
QQ截图20171019101800.png

最后一行打印结果:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 9578: illegal multibyte sequence
已邀请:

要回复问题请先登录注册