数据科学工程师常犯的错误Top10

发表: 2019-10-12 浏览: 1310

数据科学人工智能

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

作者：Norm Niemer
编译：ronghuaiyang

导读

无论是初学者还是有经验的工程师，都会或多或少的犯一些错误，这里总结了一些常犯的错误top10，大家可以参考一下。

数据科学家是“比任何软件工程师都更擅长统计，比任何统计学家都更擅长软件工程的人”。许多数据科学家具有统计学背景，对软件工程几乎没有经验。我是一名高级数据科学家，在Stackoverflow的python编程上排名前1%，与许多(初级)数据科学家一起工作。以下是我经常看到的10个常见错误。

01不要引用共享代码中的数据

数据科学需要代码和数据。因此，为了让其他人能够复制你的结果，他们需要访问数据。看起来很简单，但是很多人忘记了与他们的代码共享数据。

import pandas as pd
df1 = pd.read_csv('file-i-dont-have.csv') # fails
do_stuff(df)

解决方案：使用d6tpipe与你的代码共享数据文件，或者上传到S3/web/谷歌驱动器等，或者保存到数据库中，以便接收方检索文件(但不要将它们添加到git中，请参阅下面的内容)。

02硬编码的无效路径

与错误1类似，如果你硬编码了其他人无法访问的路径，他们将无法运行你的代码，并且必须在许多地方手动更改路径。

import pandas as pd
df = pd.read_csv('/path/i-dont/have/data.csv') # fails
do_stuff(df)
# or 
impor os
os.chdir('c:\\Users\\yourname\\desktop\\python') # fails

解决方案：使用相对路径、全局路径配置变量或d6tpipe使数据易于访问。

03代码和数据混在一起

既然数据科学代码需要数据，为什么不把它转储到同一个目录中呢？当你在做的时候，也要保存图片、报告和其他垃圾。哎呀，真乱！

├── data.csv
├── ingest.py
├── other-data.csv
├── output.png
├── report.html
└── run.py

解决方案：将目录组织成数据、报告、代码等类别。参见Cookiecutter Data Science或d6tflow project templates，并使用1中提到的工具来存储和共享数据。

04把数据和源代码一起提交到Git上

大多数人对代码进行版本管理。为了共享数据，可能很容易将数据文件添加到版本控制中。对于非常小的文件，这是可以的，但是git没有针对数据进行优化，尤其是大型文件。

git add data.csv

解决方案：使用1中提到的工具来存储和共享数据。如果你真的想对数据进行版本控制，请参见d6tpipe、DVC和Git大文件存储。

05写方程而不是DAGs

关于数据的讨论已经够多了，让我们来谈谈实际的代码吧！由于在学习编写代码时首先要学习的是函数，所以数据科学代码主要是由一系列线性运行的函数组成的。这会导致一些问题，请参见机器学习代码可能不好的4个原因。

def process_data(data, parameter):
    data = do_stuff(data)
    data.to_pickle('data.pkl')
data = pd.read_csv('data.csv')
process_data(data)
df_train = pd.read_pickle(df_train)
model = sklearn.svm.SVC()
model.fit(df_train.iloc[:,:-1], df_train['y'])

解决方案：与其使用线性链接的函数，不如将数据科学代码编写为一组任务，并在这些任务之间建立依赖关系。使用d6tflow或airflow。

06用for循环

像函数一样，for循环是你学习编码时要学习的第一件事。容易理解，但是它们很慢，而且过于冗长，通常表示你不知道向量化的替代方案。

x = range(10)
avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x));
zscore = [(i-avg)/std for x]
# should be: scipy.stats.zscore(x)
# or
groupavg = []
for i in df['g'].unique():
    dfg = df[df[g']==i]
    groupavg.append(dfg['g'].mean())
# should be: df.groupby('g').mean()

解决方案：Numpy、scipy和panda为你认为可能需要循环的大部分内容提供了向量化的函数。

07不写单元测试

当数据、参数或用户输入发生变化时，你的代码可能会中断，有时你不会注意到。这可能导致错误的输出，如果有人根据你的输出做出决策，错误的数据将导致错误的决策！

解决方案：使用 assert语句检查数据质量。pandas有平等性测试，d6tstack可以检查数据输入，d6tjoin可以进行数据连接。数据检查的代码示例：

assert df['id'].unique().shape[0] == len(ids) # have data for all ids?
assert df.isna().sum()<0.9 # catch missing values
assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date?
assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched?

08不写注释

我很理解，你急着做分析。你把事情拼凑起来，让你的客户或老板知道结果。一周后，他们回来说“你能修改xyz吗”或者“你能更新一下吗”。你看着你的代码，却不记得你为什么这么做。现在想象一下，如果有其他人来运行它。

def some_complicated_function(data):
    data = data[data['column']!='wrong']
    data = data.groupby('date').apply(lambda x: complicated_stuff(x))
    data = data[data['value']<0.9]
    return data

解决方案：额外花点时间，即使是在你交付分析之后，也要记录你所做的事情。你会感谢自己，别人也会更加感谢你！你会看起来很专业的！

09把数据存为csv或者pickle

再回来说数据，毕竟是数据科学。就像函数和for循环一样，csv和pickle文件也经常使用，但它们实际上并不好。csv不包含模式，所以每个人都必须重新解析数字和日期。pickle可以解决这个问题，但只能在python中工作，不能压缩。这两种格式都不适合存储大型数据集。

def process_data(data, parameter):
    data = do_stuff(data)
    data.to_pickle('data.pkl')
data = pd.read_csv('data.csv')
process_data(data)
df_train = pd.read_pickle(df_train)

解决方案：使用parquet或其他带有数据模式的二进制数据格式，最好是压缩数据的格式。d6tflow会自动任务的数据输出保存为parquet格式，这样你就不必处理它了。

10使用jupyter notebooks

让我们以一个有争议的结论来结束：jupyter notebooks和csv一样普遍。很多人使用它们。这并不能让他们变得更好。jupyter notebooks助长了上面提到的许多不良软件工程习惯，特别是：

1. 你可能想将所有文件都存到一个目录中

2. 你编写的代码运行自顶向下，而不是DAGs

3. 你不需要模块化代码

4. 难以调试

5. 代码和输出混合在一个文件中

6. 不能很好地控制版本

使用jupyter notebooks开始做起来很容易，但是扩展规模很困难。