Python 文本挖掘

#分析盗墓笔记的词频
data=open("C:/Users/My/Desktop/dmbj.txt",encoding="gbk18030",errors="ignore").read()
keywords=jieba.analyse.extract_tags(data,19)
print(keywords)

没有加encoding="gbk18030",errors="ignore"的时候是UnicodeDecodeError: 'gbk' codec can't decode byte 0xfe in position 2551382: illegal multibyte sequence；
然后加过之后LookupError: unknown encoding: gbk18030；
请问这个问题怎么解决？

重要提示：提问者不能发表回复，可以通过评论与回答者沟通，沟通后可以通过编辑功能完善问题描述，以便后续其他人能够更容易理解问题.

课程推荐：实战秘技，经典案例，一门课程锤炼数据分析师八大能力！

2 个回复

ID王大伟 - 人生苦短，我选Python。 2018-04-29 回答

gbk18030这个编码估计是没有的你换成utf-8编码试试

cdn007 - 喜欢自由空间！ 2018-05-02 回答

为什么我输出的文本全部是数字呢？附件里有下载好的文件。

dmbj.doc

要回复问题请先登录或注册

Python 文本挖掘

2 个回复

发起人

相关问题

问题状态

Python 文本挖掘

与内容相关的链接

2 个回复

发起人

相关问题

问题状态