搞AI的产品经理该怎么写PRD?谷歌的导师教你

浏览: 1289

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处。

作为AI产品的产品经理,该怎么写好一个产品需求文档( PRD )?

对于大多数人来说可能还没有清晰的概念。到底该咋办呢?

莫慌!既然你已经点进来了,不会让你空手而归。

谷歌机器学习X 和TensorFlow X团队的产品领导者Clemens Mewald在Medium上发表了一篇文章,详细介绍在开发涉及到机器学习的产品时,产品经理写PRD怎么处理数据相关的问题。

干货满满,请收下慢慢消化~

000.jpg

在开始之前,先看看Clemens Mewald给出的一个声明:

机器学习不是必需的。我看到,有的产品经理在PRD中将“使用强化学习来优化对用户的奖励”作为一项需求。这通常是一个危险信号。在大多数情况下,机器学习是满足用户需求的一种方式,而不是需求本身。

为什么产品经理需要考虑数据问题

你可能会问,为什么我写个PRD,还需要写一堆关于数据的要求?

答案很简单,如何收集和使用数据将会对产品产生重大影响,更何况这还是一个与人工智能有关的产品。

首先,你必须搞清楚你要预测什么,也就是你机器学习模型的输出,以及是否有与输出相关的必要反馈机制。

假设你的目标是向用户提供与他/她最相关的通知。你如何知道通知是相关的呢?

你可以提供一种机制,允许用户“滑掉”通知。

但是,这种反馈是否能告诉你,他们是因为通知很烦而关掉它,还是说这个通知是有用的,他们只是“完成”了它呢?

在确定如何定义这种反馈之前,你可能需要做一些用户体验研究。

其次,你必须要想清楚,把哪些关于通知的数据输入到机器学习模型中,来帮助训练模型。

哪些特征可能有用?可以考虑下通知的性质,是提供信息,还是敦促用户采取行动?或者是通知送达的时间。

这不过是抛砖引玉罢了,我相信有了一些相关的知识之后,你可以想出更多。

此外,要想成为一名有远见的AI产品经理,不仅需要仔细琢磨一下机器学习模型需要输入和输出什么数据,还要确定这些数据是能够使用的。

数据使机器学习成为可能

找出产品或特定功能所需要的数据是确定数据需求的第一步,也是最重要的一步。

说起来也很简单,机器学习模型只不过是一个数学函数,输入一些带有特征的数据,输出预测结果。然后再进行学习,把预测结果与从训练数据中观察到的模式匹配起来。

这样说可能有点难以理解,是时候再举个例子了。下面这张图,是湾区正在出售的5套住房的实际情况。

1.png

为了避免混淆,我们把房屋的已知属性称为特征,将要预测的值称为标签。

值得注意的是,你可以选择各种值来当做标签,比如说房子的大小、卧室、浴室和房价等等,甚至是邮编。

借助这个例子,给大家第一个重要提醒:你需要找到有标签的数据,用于监督式的机器学习。

假设有一套房子,我们知道它的特征和标签,这意味着你已经给数据贴了标签。

另外有一栋我们不知道价格的房子。给定已知的特征,我们可以使用我们训练的机器学习模型来预测这个值。

在开头那个关于通知的例子中,标签是用户在拒绝通知时提供的反馈。如果他们表示通知是有用的,那就是肯定的标签。

在许多产品用例中,都有一个有标签数据的来源:日志。

在我之前的博客文章中,我介绍了一个来自Google Forms的例子,它主要是基于问题的提示,自动为问题选择类型。

之前,用户会提供问题提示,然后手动选择合适的问题类型。问题提示就是特征,手动选择的问题类型就是标签。

2.jpg

数据采集需要一种策略

你需要什么样的数据或者特征?

在某些情况下,产品经理或开发人员的想象力都会被数据限制住。

通常情况下,你可以使用其他数据源的特征来丰富这些数据。不管可行性或成本如何,可以先进行头脑风暴,列出可能对自己的机器学习任务有帮助的潜在特征。

假设你试图预测房价,但你只有大小、卧室、浴室和邮政编码等特征。你能想出其他的特征吗?条件是,对这个任务有帮助,而且你也能拿得到。

举两个例子:

房子的年龄?这可以从公共记录中获得。
离最近的杂货店的距离?可以使用公共地图数据计算。

一旦你能够找到其他的特征,你可以按可用性、有无困难和成本来排定优先级。与此对应的问题是:这些数据存在吗?有授权吗?收集这些数据的成本有多高?

你需要多少数据?

“需要多少数据”,这个问题的答案可以写成一本教科书。但与开发团队进行对接的时候,产品经理需要把握一些重点:

1、在大多数情况下,数据越多越好。

2、如果数据很少或没有数据可用,迁移学习可能会有所帮助,从一项任务中获取数据或者模型,并将它们应用到其他的任务中,比如将一个给狗分类的模型用到给汽车分类上。

3、在获取标记数据需要花费金钱和时间的情况下,需要在模型的质量和性能方面定一个目标,并对花费的钱和时间有清晰的预算。

4、在某些情况下,更多的数据不会有帮助。

这部分表述可能不太清晰。为了让大家更好地理解,可以看看下面这张图。直观地展示了获取更多数据可能有用也可能没用的情况。

3.png

大多数机器学习问题都在曲线的上方,即获取更多数据将会带来更好的性能。

然而,在一些情况下,大量标注的训练数据已经存在,回报可能会减少。也就是说,更多的数据并不能提高模型质量。

你的数据质量是否足够好?

数据在特征和标签的质量上,也可能会有很大差异。

如果你正在通过整理日志获取数据,很可能你会获得一些异常的训练数据。

这可能本身没有问题,比如说在Google Forms的例子中,用户对一些问题归到一个类型中有不同的看法。

在其他的一些情况下,可能是因为不同格式的特征值或语义。比如说一些房价以千美元计,另一些以百万美元计。

就算你可以访问这些数据,并且可以通过抽查来发现有问题的案例。但在写PRD的时候,你对此也无能为力。

但不管怎样,要告诉开发团队应该关注什么,这样他们就可以集中精力调查数据质量。

此外,如果你对数据的质量有所担心,你应该在PRD中提出警告,表示这可能会降低机器学习模型的质量。

关于隐私和安全

如何存储和处理这些数据也非常重要。在开始收集数据之前,最好咨询隐私和安全方面的专家,弄清楚你能做什么和不能做什么。

就算有了这些限制,也要从用户的角度来考虑,什么是应该做的,什么是不应该做的。

此外,还要花时间考虑一下,你的用户从中获得了什么好处,确定这需要用到的数据。当然,也要让用户认可这些好处,不能只是你自己的想法。

数据需求清单

下面是一些具体问题清单。不管你是在构思一个新产品,还是向既有的产品中添加新的功能,都可以作为参考:

数据要求

需要什么数据?

哪些特征是已知的,将是有用的?等等。

这些特征可用吗?如果不可用,获取成本是多少?

数据采集策略

上述数据来自哪里?

现有数据是否存在质量问题?

你认为需要多少数据?

隐私与安全

数据存储和处理的方式是否安全?

你有收集/使用数据的权限吗?

从用户的角度来看,新功能或产品的好处是否能超过他们在提供数据时的担忧?

原文链接:https://medium.com/the-lever/data-a-key-requirement-for-your-machine-learning-ml-product-9195ace977d4

推荐 0
本文由 数智物语 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册