0
推荐
1281
阅读
Python 3.0_按条件批量读取文件
读取需求 一级路径下有多个二级路径,只需读取一级路径下的部分文件或二级路径中的文件,且需要根据文件名中的关键词对文件进行分类,并读取到对应的list中。读取代码#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import os
def eachfile(path, dltroot, dltfile, spl...
1
推荐
1824
阅读
Python 3.0_调用pullword的api进行分词
关于PullwordPullword是一个中文在线分词系统,使用的是模糊分词的模式,输入待分词句子会返回词条及该词在句子中的成词概率。Pullword的API调用说明:http://api.pullword.com/。调用代码# -*- coding: utf-8 -*-
import requests
def split_word(words, probability=0, mode=0):
d = {}
for i in words: ...
2
推荐
4363
阅读
Python 3.0_文本清洗之中文特殊符号转英文特殊符号及全角字符转半角字符
在文本清洗的过程,特殊符号的不规范是比较麻烦的事情,所以需要把文本中的特殊符号按照统一的标准处理。以下代码的作用就是将中文的特殊符号统一转成英文的,以及将全角符号转换成半角符号。参考代码# -*- coding: GBK -*-
import re
def strQ2B(ustring):
"""中文特殊符号转英文特殊符号"""
#中文特殊符号批...