我猜,你还不知道数据标注公司在做什么吧?

浏览: 1908

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

来源:觉醒向量

大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境:

首先对公司的管理方面就是巨大的挑战,在研发产品的同时还得把大量精力放在如何管理大量标注人员身上。

其次大量全职的标注人员的薪酬对于初创型公司和研究实验室也是一个不小的挑战..... 

01

基础架构

数据标注行业,一个因为人工智能崛起而新兴的行业。

大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境:

首先对公司的管理方面就是巨大的挑战,在研发产品的同时还得把大量精力放在如何管理大量标注人员身上。

其次大量全职的标注人员的薪酬对于初创型公司和研究实验室也是一个不小的挑战。

为了更好的协调AI公司、AI实验室与群体标注人员的供需关系,本文中所指的标注公司就是在这样的大背景下,应需而生。

那么问题来了,如何运营一家标注公司呢?

本文先从最基础的标注公司架构开始介绍,不同阶段的标注公司的运营是有差别的。

最基础的标注公司应该具备以下4点:

· 标注员

这也是组成标注公司最重要的一点,有一批优秀的标注员一定可以让你的公司事半功倍。

那么怎么样的标注员才能算是优秀呢?这里有几个衡量标准:首先数据标注的终端是AI、是人工智能。

数据标注的最终数据是为计算机服务的,所以越精细的标注对计算机的训练越高效,这就要求我们的标注员一定要是一个细心认真的人。

越细心、越认真,标注数据的精细度就越有保证。

其次,因为需要标注的数据的场景是千变万化的,会有各种各样复杂的场景出现,这就要求我们的标注员要有较强的观察能力。

观察能力越强的人,标注出的物体轮廓也就离物品的真实轮廓越相近,越准确。

最后,因为数据标注在单一的场景中需要重复一个或者几个动作,除去判断,这种重复的劳动是相对比较枯燥的,这就要求我们的标注员需要有耐心能够坐得住。

越有耐心,能坐得住,标注数据的稳定性就越有保证。

· 审核员

审核员一般都是从优秀的标注员中挑选出来的。

因为数据标注是一个类似于熟能生巧的行业,一个标注员接触过的标注对象越多,场景越复杂,那么他也就越有可能更快、更准确的判断出复杂场景中的被标注元素,这些都是靠时间和经验堆积出来的。

自身是一个优秀的标注员,这种标注员在审核时会同样把自身对标注的要求传达给其他标注员,这对于提升标注数据的整体质量是有很好的帮助带动作用。

· 项目经理

项目经理主要就是对于项目组的各个成员(包括标注员和审核员)的管理,项目经理最好是能够有一定的AI基础。

有AI基础的项目经理,在和上游需求公司对接的时候能够供轻松的进入项目本身,能够更快更准确的了解上游公司标注的具体需求,减少沟通时间的同时,避免因为沟通规则上的误差导致下游标注员重复返工的情况。

· 运营总监

运营总监严格意义上也就是公司的创始人了,运营总监基本上就是奔波于各类 AI 企业,各种 AI 实验室,说简单一些就是寻找需求方。至于可能大家比较关心的怎么找,本文后续会有更多详细介绍。

人工智能或者说AI会成为未来的趋势,已经是大势所趋,不论国外还是国内的互联网科技巨头都在布局 AI 产业,从谷歌、亚马逊、Facebook 到阿里巴巴、腾讯、百度、京东都在积极的布局自己的 AI 体系。

与此同时,我们国家的决策层提出:人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。

02

市场结构

由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。

但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。

才能保证在发放任务的时候总是有充足的大众志愿者进行合作.....

随着 AI 浪潮的斩头露角,数据标注行业也犹如雨后春笋般蓬勃的发展起来。

本文就目前国内数据标注行业存在的几个阶段性结构特征进行展开,让更多想了解数据标注的 AI公司、AI 实验室、准备加入数据标注的朋友们,快速熟悉目前数据标注行业的现状和运营数据标注公司应该注意的若干问题。

数据标注市场目前有下面几种结构:

· 众包结构

顾名思义,就是把需要完成的任务分发给大众志愿者(也就是市场上说的兼职)。这其中就出现了众包公司。

众包公司联系到需求数据标注的客户,和客户建立合作关系后,将客户需求传达给合作的大众志愿者,从而形成一个“需求公司——数据标注众包公司——多个大众志愿者”这样一个众包结构 。

这种众包结构的优点就是可以组织起社会上的大众志愿者进行数据标注,而大众志愿者不用占用太多的公司资源,劳动力成本相对较低。

对于数据标注众包公司费用支出的核心——人工来说,无疑是可以极大的减少公司的运营成本,从而使公司自身在面对需求数据标注的客户时的报价更具有竞争力。

当然,众包结构的缺点和优点一样显而易见,甚至可以说它的缺点已经慢慢的大过了它的优点,为什么这么说呢?

需要拥有大量的志愿者基数:由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。

但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。

才能保证在发放任务的时候总是有充足的大众志愿者进行合作。

沟通成本高昂:而当大众志愿者的数量能够满足任务要求时,我们又不得不面对另一个事实:

数据标注众包公司在与需求公司洽谈合作时只能有针对性的进行数据标注类型的选择。

如果在选择数据标注项目上普遍撒网,就会面对公司自身需要投入巨大的精力去培训那些不断更迭的大众志愿者。

而很多时候公司在大众志愿者合作方面节约下来的成本,其实已经全部转嫁到了公司培训、纠错诸如此类的沟通环节。

数据保密困难:目前国内的AI公司,AI实验室还没有形成井喷之势。但就现阶段而言依然有众多AI公司,AI实验室在进行着高度重叠的产品研发。

对于有标注需求的公司来说,如果被标注数据都是真金白银获取来的,那么倘若在众包环节众包公司处理不当,很有可能AI公司辛苦获取的数据就成了其他AI公司的嫁衣。

无法给予需求公司灵活的服务:因为大众志愿者拥有流动性的特点,一旦需求公司改变原有标注需求,数据标注众包公司是没有办法在较短的时间进行调整的。

同时,数据标注众包公司的客户群体也相对单一,由于大众志愿者的群体特点,数据标注众包公司只能把更多精力放在需要大批量数据标注,同时标注规则相对简单的需求公司。

但是AI的训练是一个阶段性的过程,基本上都是:小批量找特征训练——较小批量简单场景训练——较小批量复杂场景训练——大批量训练。

在数据标注众包公司砍掉处在第一阶段的AI公司和AI实验室的时候,其实也就是砍掉了相当一部分潜在客户。

· 工厂结构

有了众包结构里的兼职架构,下面就着重介绍一下全职架构,也就是工厂结构。

工厂结构相较于众包结构形式上要简单一些,省去了中间众包商这个环节,进而形成了一个“需求公司——数据工厂”这样的工厂结构。

相较于数据众包公司,数据工厂的优点就是标注人员稳定,能做到需求方和数据标注方即时沟通,沟通成本大大降低。

同时,由于数据是以一对一的形式进行传递的,也大大降低了数据被泄露的可能性。

虽然工厂结构可以有效的规避很多众包结构中存在的种种问题,但是依旧有很多问题他是没办法解决的,那我们就看看有哪些问题工厂结构解决不了呢?

选择标注公司的困难:在市场上可能有成百上千个工厂结构的数据标注公司,但是有数据标注需求的公司应该如何选择呢?

如果没有选择正确的标注公司,不仅得不到高质量的标注数据,更有可能因为数据大批量不合格而重复返工,进而耽误了原本项目的工期。

而在这个AI公司百家争鸣的时代,时间才是最重要的,谁的产品最先出世,也就最有机会获得资本的垂青。

但是有标注需求的公司如何在众生百态的标注市场中选择一个质量和效率双重过硬的公司其实是一件非常困难的事情。

工厂结构公司两极分化,因为各种各样的原因,工厂结构的公司两极化很明显:较大的可以达到上千人;而较小的,只有几个人。

因为两级分化的原因,市场现在就会出现一个很有意思的现象:

大的公司很少会去对接短期且数据量较少的项目,因为承接较少的数据量对于一个较大的工厂结构的标注公司来说很有可能都不够公司日常的管理运营成本;

反之,小的标注公司可以承接短期数据量较少的项目,但是在大批量数据杀到的时候,又会显得捉襟见肘,难以承接。

人工成本风险较高:首先因为是全职,不论有没有任务,都涉及一个员工薪酬的发放。

其次,需求方公司的需求有大概率是呈周期性的,就是有可能这周公司有项目做,下周可能就没有了。

这就会映射出一个工厂结构的数据标注公司非常尴尬的处境:合同期限内需要完成的大项目可能需要大量人员进行参与。

可是一旦合同结束了,公司却又没有找到后续能够进行人员分配的项目,这就会给数据标注公司的运营带来挑战。

· 众包+工厂结构

有了众包和工厂结构的总结,我们不难发现,他们各有各的优点,也各有各的缺点。这里提出的众包+工厂结构,其实就是将两者进行了优缺点的融合,扬长避短。

03

资源特点篇

所谓的资源,也就是数据标注公司要面对的甲方:AI公司、AI企业、AI研究所。那么问题来了,人工智能公司、人工智能企业、人工智能研究所多种多样,作为一个数据标注公司应该如何定义自己的服务方向呢?

首先我们要能够准确的了解资源公司的特点,这样才能更好的为其提供符合自身特点的服务。

目前市场上的AI公司、AI企业、AI研究所大致分为以下几种,对于与数据标注公司的合作来说他们各有各的优势和劣势,这里对以下突出的几类进行分析:

1. 初创型 | 这里指的初创型公司一般指未进行过阶段融资的初次创业型公司。

优势:

沟通成本低:初创型公司的核心创始人一般都是公司的核心技术人员,所以他们对数据标注的结果有清晰的需求认知,能够清楚严谨的表述出需要标注数据的规则,数据标注公司与此类资源公司在沟通上比较简单,能够快速的直入主题,迅速建立供需关系,省去冗长的上报、各级的批复等沟通环节。

结算时间快:这类资源公司本身公司架构也相对简单,对于标注完成后的结款时间相对也较短。

劣势:

需求连贯性不强:因为初创型公司很多没有稳定的甲方,同时公司在同一时期对接的甲方数量并不是一定的,有可能在某个月中会有很多,同样也可能一个没有。这就导致了在数据的需求连贯性上并不是很强。

标注需求量不大:在与甲方沟通合作的路上,展示型项目产品并不需要大量数据的验证。更多时候都是以小批量数据进行产品的小样展示,因为初创公司也要考虑项目的成功率和标注成本之间的关系。

2. 企业型 | 这里指已经形成一定规模的人工智能企业,同时可能已经获得多轮融资。

优势:

数据连贯性强:这里指的一定规模的人工智能企业可能已经是市场上第一梯队的领跑者,因为有成熟的产品和合作对象,其在产品需要进行迭代和研发关联产品时是需要大量标注数据作为模型训练的。同时因为其在业界的影响力,与新的需求商进行合作时的成单率也要远高于初创AI公司。

数据价值高:因为大型公司需要综合保密、质量、工期等多方面因素,同时因为已经与需求公司建立了正式的合作关系,此类型的AI公司在提供的数据标注单价上是要略高于初创型企业。

劣势:

结算周期长:因为此类公司的结构相对复杂,同时结构越复杂的公司其对于支出资金的流程也越谨慎,这种谨慎就会导致合同内的结款周期远远高于初创型企业。

沟通成本高:因为此类公司的架构相对复杂,一般一个项目的启动流程是“算法团队将需求提供给项目经理-项目经理联系数据标注公司试标-数据标注公司试标完毕反馈-项目经理检查并反馈给算法团队”。

这其中就避免不了多人传达规则时出现的模糊情况,需要大量的时间进行沟通和验证。同时在项目启动时的流程也相对复杂,不仅需要算法确认规则,需要财务确认支付方式,需要法务进行合同审核,需要项目主管领导批准,这些都会使数据标注公司的沟通成本大大增加。

3. 科研型 | 这里指各类政府、大学等行政事业单位的科研部门。

优势:

结算时间短:一般的科技机构的审批方式都是先进行项目报备,在项目报备通过的时候其实这部分的项目资金就已经预留出来了,只要数据标注公司能够按时按量的完成项目内容同时提供合同内规定的相关发票,就可以顺利结算。

沟通成本低:一般的科研机构都是由项目负责导师指定联系人进行与数据标注公司的沟通,同时被指定人一般也都是项目的参与人,所以在规则的制定上更为清晰,与初创公司一样,能够快速的进入主题,大大节省了数据标注公司在沟通方面所花费的时间。

劣势:

数据连贯性不强:因为此类科研所的项目基本都是阶段性的,一类产品上线后,相关产品再进行上线需要周期。

找寻成本高:因为科研机构的特殊性,在市场上很难准确就定位到需求部门,在众多部门中确立需求部门并与之建立起合作关系是需要耗费大量的时间和精力。

4. 综合型 | 向AI化转型的各类传统行业企业。

优势:

数据连贯性强:因为涉及传统生产的转型,该类企业一般都有独立的AI产品研发组,同时因为此类公司本身的体量和市场占有率,会使其对于需要转型的领域和需求产品更为宽泛。

数据量大:因为AI转型除了成熟的技术支撑之外,最重要的就是时间,越快将生产结合AI的企业,其市场竞争力也就越明显。而如何能让计算机快速的进行训练呢?除了算法团队的技术支撑,剩下的就是给计算机提供大量的符合模型识别的标注数据。

劣势:

结算周期长:和企业型公司性质相同,由于庞大的内部结构,项目资金的结款周期相较于初创型公司和研究所会大大增长。

工期紧张:因为有转型这个宏观任务,所以一般此类企业都对转型项目的落地时间有明确的规定,说简单一些就是工期紧、任务重。由于这种特点,数据标注公司在承接此类公司的项目时,需要有大量的人手进行数据标注,这对于公司本身的管理无疑也是巨大的挑战。

04

数据处理分类

我们是靠眼睛、耳朵来捕获外界信息,然后将信息通过神经元传递给我们的大脑,最后我们的大脑会对获取来的各种信息进行分析从而达到诸如判断、识别等效果。

同样,人工智能之所以称呼他为人工智能,是因为它的核心:也就是神经网络模型。它就是根据模拟人脑的神经网络而诞生的。

而图像、语音这一类信息通过特征标注处理(也就是数据标注),变成计算机能够识别的信息。同时通过大量特征数据的训练,最终达到计算机能够自主识别的目的。

那么目前AI市场上特征数据主要包括哪些呢?

像人类用眼睛和耳朵获取图像、语音数据一样,计算机的特征数据现阶段也分为两大类:图像数据和语音数据。

同时,根据AI产品迭代的不同周期、算法模型的匹配结果,每个大类又可以细分为众多小类,在这里我们主要对目前市场上主流的需求类型进行一个分类说明。

1. 图像类  这里图像类就是指所有照片的统称

图像场景识别作为人工智能不可获取的一部分已经在日常生活中被大批量应用,这里对图像特征的具体处理手法做一个简单介绍:

· 四边形矩形拉框:这个也就是数据标注市场上统称的2D拉框,它主要是用特定软件对图像中需要处理的元素(比如:人、车、动物等等),进行一个拉框处理,同时用一个或多个独立的标签来代表一个或多个不同的需要处理元素,同时在标签的添加上可能会碰到多层次的添加(以人为标注元素为例,长短发、胖瘦、穿衣颜色等)从而实现粗线条的种类识别。

· 多边形拉框:顾名思义就是将被标注元素的轮廓以多边型的方式勾勒出来,不同的被标注元素有不同的轮廓,除了同样需要添加单级或多级标签以外,多边型还有可能会涉及到物体遮挡的逻辑关系。从而实现细线条的种类识别。

· LandMark:标注行业统称打点,对需要标注的元素(比如人脸、肢体)按照需求位置进行点位标注。从而实现特定部位关键点的识别

· 语义分割:通过对需要标注区域或元素的充色,来达到不同元素或区域之间的分割关系,从而可以清晰的通过不同颜色的区域,对元素进行区分。从而实现系统化的识别。

· 点云拉框:在软件生成的三维模型中,对被标注元素进行外轮廓的3D立体拉框,与2d拉框相同,也需要对生成立体框添加特定标签。从而实现具有空间感的识别。

· VR打标:使用VR设备,在虚拟立体场景中,对需要标注的元素(各类物体)进行关键区域的打标签。从而实现更精准的被遮挡物品外观轮廓的感知。

2. 语音类 | 这里语音类就是指所有语音的统称

语音场景在人工智能领域作为和图片场景同样重要的环节,也同样被大批量的进行应用,这里对语音特征的处理手法大致介绍一下:

目前市场上主流的语音场景都是以区间为单元对区间内的内容进行转述,区间里的元素就是被标注元素。

像图片场景里给被标注元素一个特定的标签一样,对区间里的被标注元素也需要提供一个特定的标签,当然这个标签可以是一个词语,也可以是具体的一句话。从而实现对于不同语句类别的判断和对不同语句内容的理解。

05

参考报价

我们应该已经有了一个比较明晰的认识,下面想要分享的是数据标注公司在与需求公司进行沟通合作时应该如何更加科学的进行报价。

所有行业的报价都是基于成本,因为数据标注员在数据标注公司的日常运营中成本占比最高,人工自然也就成为了数据标注公司运营中最大的成本因素。

同时数据标注行业与其他劳动密集型行业还有着一定区别。不同于工厂流水线上的工人,数据标注公司所对接的资源公司的需求是千变万化的,这就要求数据标注员需要有很宽阔的视野、较强的理解能力;

不同于从事单一繁重体力劳动的人工,数据标注公司所对接的资源公司对于数据的质量和准确度是否符合模型训练的预期有着非常高的要求,这就要求数据标注员需要有敏锐的观察能力、较强的耐心和一丝不苟的工作态度。

通过上面的分析,我们可以清晰的了解,在数据标注公司的日常运营中人工就是最大的支出。既然人工是数据标注公司最大的支出,那么问题来了,我们应该基于人工从哪些方面进行科学合理的报价呢?

因为员工每日的工时都是固定的,从效率角度出发,所以我们的报价需要从以下几个方面进行综合考量。

数据

这里的数据指的是资源合作方提供的需要标注的各类数据,在基于数据进行成本预估的时候,我们最重要的是需要注意以下2点:

1. 标注时间:这里指的标注时间就是按照资源需求公司的标注方法对图片进行特征的标注,标注的方法可以按照从简单到复杂的难易程度进行排序。

排序如下:2D 拉框<多边型拉框 < LandMark < 点云拉框 < 语义分割 < VR打标。

同时在标注的基础上,我们还需要对标注对象进行一个分类打标,也就是给每个固定的被标注元素设置一个唯一的标签。按照标签从少到多进行排序,如下所示:

· 单级唯一标签:比如,图中只需要对人或车等唯一元素属性进行打标,有且只有一个需要进行打标的对象

· 单级多个标签:比如,图中需要对人、车、动物等多个元素属性进行打标,同时可以存在多个(不超过10个)被标注对象

· 单级复杂标签:比如,图中需要对众多(超过10个)元素属性进行打标

· 多级复杂标签:比如,图中需要对人、车等众多元素进行打标的同时需要标注出车的种类,人的行进方向等等

标注时间方面的成本核算就是基于以上两个重要因素,难度越高当然在实际标注中耗费的时间也就越长。

2. 判断时间:这里指的判断时间就是在实际标注前,对应标注元素进行识别和判断,因为篇幅有限,这里对哪种判断更为困难不做过多介绍,这里只对影响判断的因素进行一个大致概括,其中包括有:

· 被标注图片的清晰程度:一般指图中被标注元素是否可以清晰辨别

· 被标注元素的专业化程度:类似于金融相关专业知识的快速判定、医学影像中病变区域的打标,各类复杂地貌名称的打标

· 被标注元素关联场景的复杂程度:这里关联场景的复杂程度主要指光线场景(包括逆光、高亮等)、重叠场景(多个被标注元素相互重叠)、颜色场景(只有黑白色)

· 被标注元素标签的细化程度:这里的细化程度主要指被标注元素与采集镜头形成角度的需要标注出具体角度、被标注元素之间有遮挡关系的需要标注遮挡百分比、被标注元素包含复杂颜色的需要对复杂颜色进行区分等等

判断时间方面的成本核算也是基于上面提到的几点。同样的,判断难度越高,实际操作中花费的时间也就越长。

软件

这里的软件指的是数据标注中的操作工具,在基于软件进行成本预估的时候,我们最重要的是需要注意以下2点:

1. 操作方面这里指标注软件在实际标注过程中操作环境是否流畅,操作功能是否便捷。

2. 统计方面这里指标注软件在标注完成后对实际标注的各类元素的分类统计是否足够精确,对于各个标注员的产能是否能够做到有效统计。

在实际使用标注软件进行标注时,操作环境越流畅、功能越便捷,单位时间的产量也就越高,同时越强大的统计功能也同样可以大大降低大规模标注人员的管理成本

规则

这里指和需求公司获取的相关标注规则,在基于规则进行成本预估的时候,我们最重要的是需要注意以下两点:

1. 规则明确:这里指需求公司能够提供完整的规则文档,保证在标注过程中需求边界清晰,不会让标注员在同一个被标注元素的某个方面的判断上左右为难。同时在明确的规则中又分为粗线条的规则和细线条的规则:

· 粗线条的规则主要指需求方能在一般场景中将标注规则清晰的阐述出来,但是在很多情况下需求方并没有进行过自测和相关标注,在标注中可能出现的若干特殊场景使得一般场景的规则并不适用。

· 细线条的规则主要指需求方前期同样花费了巨大的精力对相关数据进行标注,同时对各种特殊场景都做出了详细的描述。

2. 规则笼统:这里指需求公司在筹备研发某项产品时按照预计的设想进行一个大致的规则整理,需要数据标注公司辅助需求公司在标注的过程中不断完善相关规则,规则的明晰与否直接决定了数据标注生产的连续性,一边对规则进行细化,一边标注就会在实际标注环节走走停停,从而影响标注效率。

沟通

这里指和需求公司之间报价前的沟通,在基于沟通进行成本预估的时候,我们按照沟通成本的从低到高进行排序:

1. 沟通反馈迅速:这里指和需求公司沟通过程中能够做到时时通话,这说明需求公司是有专门负责人对此项目进行对接。

2. 反应良好:这里指和需求公司沟通过程中会有时间延时,一般不超过2个小时,说明需求公司同样有专门负责人,但负责人可能同时负责了多个不同项目。

3. 沟通反应不佳:这里指和需求公司沟通过程中有较长时间延迟,一般超过6个小时,说明需求公司可能没有专门负责人或者专门负责人的工作重心并不在此项目上。

4. 沟通反应较差:这里指和需求公司沟通过程中存在无回复等情况,说明需求公司大概率只是对于项目的合作有一个初步的想法,并没有确定是否需要一定实施。

良好的沟通是数据标注行业最最重要的一环。良好的沟通可以省去重复、返工等众多的低效行为。同样的,较差的沟通会使数据标注公司在标注的各个环节上成本极大的上升。

推荐 0
本文由 数智物语 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册