Python数据科学（七）- 资料清理(Ⅱ)

发表: 2017-11-30 浏览: 5196

数据科学 Python 数据库

传送门：

Python数据科学（一）- python与数据科学应用(Ⅰ)

Python数据科学（二）- python与数据科学应用(Ⅱ)

Python数据科学（三）- python与数据科学应用(Ⅲ)

Python数据科学（四）- 数据收集系列

Python数据科学（五）- 数据处理和数据采集

Python数据科学（六）- 资料清理(Ⅰ)

Python数据科学（七）- 资料清理(Ⅱ)

Python数据科学（八）- 资料探索与资料视觉化

Python数据科学（九）- 使用Pandas绘制统计图表

1.资料转换

1.套用向量化计算（例子依然使用我们采集的房天下的数据）

计算新价格

df['总价'] * 1000

使用 Numpy计算新的价格

np.sqrt() 代表开根号



import numpy as np

np.sqrt(df['总价'])

合并两字符串

df['朝向'] + df['户型']

将新计算的均价存入DataFrame

df['均价'] = df['总价'] * 1000 / df['建筑面积']

2.定义函数进行套用

map：将函数套用到Series 上的每个元素

eg. 移除物业费中的元

def removeDollar(e):

      return e.split('元')[0]



df['物业费'].map(removeDollar)

eg. 使用匿名函式

df['物业费'].map(lambda  e: e.split('元')[0])

Apply：将函数套用到DataFrame 上的行与列

eg:

df = pandas.DataFrame([

                      [60,70,50],\

                      [80,79,68],\

                      [63,66,82]], columns = ['First', 'Second', 'Third']

)

# 以列进行计算

df.apply(lambda e: e.max() - e.min())

# 以行进行计算

df.apply(lambda e: e.max() - e.min(), axis = 1)

ApplyMap：将函式套用到DataFrame上的每个元素(elementwise)
将所有暂无资料的元素替代成缺失值(NaN)

import numpy as np

df.applymap(lambda e :np.nan  if e == '暂无资料' else e)

2.处理时间格式资料

打印出现在的时间

from datetime import datetime 

current_time = datetime.now()

将时间转换成字符串

current_time.strftime('%Y-%m-%d')

将字符串转化为时间

datetime.strptime('2017-04-21', '%Y-%m-%d')

时间回溯

from datetime import timedelta

current_time - timedelta(days = 1)

往前回溯10天(这里的适用场景是想取得过去10天的资讯)

for i in range(1, 10):

        dt = currnet_time - timedelta(days = i)

        print(dt.strftime('%Y-%m-%d'))

注意：这里的时间转换后的格式可以根据需要设定，eg：dt.strftime('%Y/%m/%d')

3.转换UNIX时间，即从1970年1月1日到现在过了多少秒

将datetime转换为UNIX timestamp

from time import mktime

mktime(current_time.timetuple())

将UNIX timestamp 转换为datetime

datetime.fromtimestamp(1492859823)

4.在pandas转换时间

转换前

import pandas

df = pandas.read_excel('data/house_sample.xlsx')

df['张贴日期'] = pandas.to_datetime(df['张贴日期'], format = '西元%Y年%m月%d日')

转换后

3.重塑资料

1.虚拟变量(Dummy Variable)

百度百科：虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。
eg：如下表中的朝向就可以建立一个虚拟变量

建立虚拟变量

pandas.get_dummies(df['朝向'])

合并虚拟变量与原DataFrame

df = pandas.concat([df, pandas.get_dummies(df['朝向'])], axis = 1)

舍弃原有字段

df.drop('朝向', axis = 1)

2.建立透视表(pivot_table)

df2 = df.pivot_table(index = '张贴日期', columns = '产权性质', values = '总价', aggfunc = sum, fill_value = 0) 

# fill_value = 0 指代的是把NaN替换成0

df2.head()

没加fill_value = 0的结果

加过fill_value = 0的结果

df3 = df.pivot_table(index = '产权性质', columns = '张贴日期', values = '总价', aggfunc = sum)

df3.head()

另外，两者进行转换的话也可以直接通过df2.T做转换。

3.长宽表格的转换(stack & unstack)

建立多索引的透视表

df_multi_idx = df.pivot_table(index=['楼层', '装修'],columns='张贴日期', values='总价', aggfunc=sum)

转换为宽表格

df_wide = df_multi_idx.unstack()

df_wide.head()

转换为长表格

df_long = df_wide.stack()

df_long.head()

4.学习正则表达式

1.正则表达式概述

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思，Regular Expression即“描述某种规则的表达式”之意。

Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

1.正则表达式（Regular Expression）：查询和匹配字符串的规则



2.正则表达式表示数据

普通字符： 元数据，可以用于匹配指定的字符

r = “a”：用于在目标字符串中匹配小写字母a元字符

r = “.”：用于匹配任意一个字符

r = “\”：转移字符~用于将一个普通的字符，转义成一个有意义的字符

r = “\d”：表示一个0~9之间的整数

r = “\D”：表示一个非数字字符

r = “\w”：表示任意一个0~9或者字母或者下划线的字符

r = “\W”：表示任意一个特殊字符

r = “\s”：表示匹配一个空白字符

r = “\S”：表示匹配一个非空白字符

r = “^”：匹配字符串的开头位置

r = “$”：匹配字符串的结束位置

r = “\d*”：表示前面匹配的字符出现了0次或者多次

r = “\d?”：表示前面匹配的字符出现了0次或者1次

r =”\d+”：表示前面匹配的字符出现了1次或者多次



#范围匹配

分组匹配方式：将多个匹配字符当成一个完整的匹配公式

(abc)：用于在目标字符串中查询abc同时出现的地方 

选择匹配方式：将指定的多个字符，选择其中一个进行匹配

[abc]：用于在目标字符串中，查询a或者b或者c出现的地方

[0-9]：用于匹配一个0~9之间的数字->等价于\d

[a-z]：用于匹配一个a-z之间的字母

[A-Z]：用于匹配一个A-Z之间的字母

[a-zA-Z]：用于匹配一个字母【大小写均可】

[a-zA-Z0-9_]：用于匹配一个非特殊字符，等价于\w



#范围匹配

\d{m, n}：匹配到的字符出现了至少m次，最多n次

\d{,20}：匹配一个数字最多出现20次

\d{8,}：匹配一个数字，最少出现8次

\d{8,16}：匹配一个数字，最少出现8次，最多出现16次



#正则表达式在python中的使用

正则表达式，在python中，主要用到了一个re模块

compile()：编译正则表达式

pattern = re.compile(“^\d{2,}$”)

pattern = r‘^\d{2,}$’



pattern.match(str,begin,end)：从指定的字符串str第一个字符查询匹配的字符



pattern.search(str, begin, end):从指定的字符串中直接进行查询，查询到的第一个结果作为匹配结果



pattern.findall(str)：从指定的字符串中，查询符合匹配规则的字符，将所有符合的字符存放在一个列表中



pattern.finditer(str)：从指定的字符串中，查询符合匹配规则的字符保存在一个可以迭代的对象中



pattern.sub():替换

pattern.split():拆分

eg：

import re

email = 'zhiji@github.com'

m = re.match('(\w+)@([a-z\.]+)', email)

or

m = re.match('(\w+)@(.+)', email)

>>>m.group(1)

zhiji

>>>m.group(2)

github.com

>>>m.groups()

('zhiji', 'github.com')

2.在DataFrame上使用正规表达式

从户型用正规表达式抽取室、厅、厨、卫栏位

未处理的数据

df[['室', '厅', '厨', '卫']] = df['户型'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫', expand=False)

使用正则处理过的数据

之前写过详细的正则表达式的文章，传送门在这里正则表达式。

5.实例处理

我们通过对新浪微博新闻数据的采集和处理作为案例

import requests

import pandas

import re

from bs4 import BeautifulSoup



def get_article(url):

    res1 = requests.get(url)

    res1.encoding = 'utf-8'

    soup1 = BeautifulSoup(res1.text, 'html.parser')

    dic = {}

    dic['title'] = soup1.select('.page-header #artibodyTitle')[0].text

    dic['content'] = ''.join([ele.text for ele in soup1.select('.article_16 p')])

    dic['source'] = soup1.select('#navtimeSource')[0].text

    dic['keyword'] = soup1.select('.article-info .article-keywords')[0].text

    return dic



def get_all_news():

    res = requests.get('http://news.sina.com.cn/china/')

    res.encoding = 'utf-8'

    soup = BeautifulSoup(res.text, 'html.parser')

    newsary = []

    for link in soup.select('.news-item'):

        if len(link.select('h2 a')) > 0:

            newsary.append(get_article(link.select('h2 a')[0]['href']))

    df = pandas.DataFrame(newsary)

    # 进行数据清理

    df['keyword'] = df['keyword'].map(lambda e: e.split('：')[1].split())

    # df['source'] = df['source'].map(lambda e: e.split())

    df[['datetime', 'from']] = df['source'].str.extract('(\d+年\d+月\d+日\d+:\d+)[\t|\n]+?(\w+)', expand=False)

    print(df[['datetime', 'from']])

    # 因为df['datetime']是object格式,为了后期的取值,例：取年df['datetime'].map(lambda e : e.year) 我们需要把格式转换为时间格式

    df['datetime'] = pandas.to_datetime(df['datetime'], format = '%Y年%m月%d日%H:%M')

    del df['source']

    # 对即将保存的格式进行调整

    df = df[['from', 'title', 'content', 'keyword', 'datetime']]

    # 将整理好的数据储存Excel

    df.to_excel('news.xlsx')



if __name__ == '__main__':

    get_all_news()

经过清理转换后的数据

0 个评论

要回复文章请先登录或注册