python-BeautifulSoup字符集问题
0
# -*- coding:utf-8 -*-倒数第二行打印结果(gb18030和utf-8结果类似
import urllib.request
import re
from bs4 import BeautifulSoup
file = open(r"D:\PycharmProjects\保存记录\7_糗事百科HTML.txt",'r',encoding='utf-8')
data = file.read()
#print(data) --此处显示此处显示正常
soup = BeautifulSoup(data)
#我们可以利用 soup加标签名轻松地获取这些标签的内容,不过有一点是,它查找的是在所有内容中的第一个符合要求的标签
#print(soup.title)--此处显示此处显示正常
#print(soup.title.text)--此处显示此处显示正常
#print(soup.head.text)--此处显示此处显示正常
#print(soup.a)--此处显示此处显示正常
print(soup.get_text().encode('gb18030'))
print(soup.get_text())
最后一行打印结果:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 9578: illegal multibyte sequence
没有找到相关结果
重要提示:提问者不能发表回复,可以通过评论与回答者沟通,沟通后可以通过编辑功能完善问题描述,以便后续其他人能够更容易理解问题.
0 个回复