关注官方微博:
| 金融之星 > 生活 > 游戏 > - 正文

国内思想周报|“智能工地”上的掘墓人;教科书删地动仪

2018-12-30 20:34 来源:互联网综合
金融之星 更多文章>>

AI背后的民工:挖掘自己坟墓的人?

来自《GQ报道》的一篇《那些给人工智能打工的人》,让“数据标注员”这个隐秘而庞大的群体呈现在公众眼前。在“人工智能”这一充满“高精尖”光环的名号之下,是一大批默默无闻地为人工智能发展提供数据信息的人:他们做着原始、单调、又有极高精度要求的工作——一张图一张图地拉框、标记,让计算机懂得哪里是人的眼睛、鼻子、嘴唇,又或什么是垃圾桶、红灯、斑马线。一个熟练的数据标注员每小时可能拉下300到400个框,一天标注上千张图片。

人工智能本身并不会识别物体,为了帮助AI建立认识世界的能力,需要大量数据资料来“教会”AI识别。随着人工智能在各领域的应用和发展,数据标注的需求也开始呈指数级增长,专业的数据加工服务公司应运而生。据“甲子光年”提供的业内人士统计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。

这成就了新一批踩着信息技术浪潮的流水线工人。“甲子光年”的作者咖啡猫如此描述其中大部分人和父辈相似的、悖论性的处境:他们同样身处时代的辉煌浪潮里——父辈以铁铲、挑担、拖拉机参与了中国房地产奇迹,他们则用鼠标和键盘,为风口之巅的智能科技提供源源不断的生长燃料;两代人又同样是边缘者,建设城市的人尚且难以在城市找到立足之地,而年轻的一代标注员,正活在被自己教会的人工智能所“取代”的担忧之中。

“数据标注”究竟是怎样一个行业,其中的年轻人又面临何种未来?澎湃新闻综合了来自解放日报、GQ报道、甲子光年和端传媒的各篇报道。以期综合地呈现这群时代舞台“幕后者”的境况。

国内思想周报|“智能工地”上的掘墓人;教科书删地动仪

数据标注员。图片来源:Gabriel/端传媒

标注业“江湖”:层层外包与畸形竞争

与公众下意识里对“数据标注”的高端想象不同,数据标注工作本身是一个低门槛的劳动密集型工种,而数据标注行业则分散在中国三四线的城市里。

据“甲子光年”《数据这点:人工智能背后的人工》,北京和贵阳,是数据标注世界里的两座“双子星”城市——算法公司和人才等“上游”资源在北京、深圳、杭州这样的科技核心区域聚集,“下游”端则以贵阳这样的城市为代表,以庞大人力提供完整的数据服务。在距离贵阳市中心50公里的百鸟河数字小镇上,便存在规模达500人的“数据工厂”。

当然,除了动辄几百人的大工厂,数据标注领域还游离着大量三五人到十几人规模不等的小作坊,它们分散在中国各级城市内。往往几万的启动资金,就可以在四五线小城内建立起一个“工作室”。

如此鱼龙混杂、门派众多的特征,源于AI数据标注行业外包风气的盛行:根据端传媒记者吴婧报道,上游的人工智能公司通常将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会继续下发给“散兵”,比如学生或二三线城市的兼职人员。

层层外包,让数据标注行业趋向外扩、下潜、广泛吸纳分散的劳动力;但另一个后果也不言而喻:外包会直接折损利润,且由于准入门槛低,参与者多,团队间的低价竞争会进一步压缩利润空间。

这时常导致如下恶性状况:人工智能公司压低预算,将项目外包给不靠谱的团队,这些团队难以完成,又将任务转包给另一些小团队或公司,让质量和交期都无法保证。另一方面,那些身处数据标注产业链末端的劳动者,酬劳已经低得惊人——AI很光明,但千万小工作室却在挣扎。

“数据壁垒”则成为数据标注行业的另一锁链。端传媒记者吴婧指出,各公司都将自家数据视为机密,造成“教学材料”无法流通,虽然变相促升了数据标注行业的需求,却也加重了各个下游段“小作坊”的负担:不同公司的标注软件、需求不同,都需要重新培训工人,耗费大量时间成本不提,小作坊的专业度也逐渐显露疲态。

不可否认,数据标注行业本身一直在迭代,一些门槛更高、学科更细分的领域正露出头角;而早年如辨别车辆、行人等基本标注工作正逐渐被淘汰。受多家媒体采访的杜霖便认为,大浪淘沙,有两类机构最终会留下来:注重质量及服务的中小型数据标注公司,以及自有整套数据技术的平台。

但那些在数据标注岗位上日复一日“拉框”的年轻人呢?他们能在高度更迭的信息产业中以何种方式留存呢?

“窄门”中的年轻人:高淘汰率,高流动性与未知的未来

“学历不高”“年轻”,是媒体在描述数据标注员这个群体的常用词。当然,这些相对宽泛的概念难以穷尽其多样性:他们中有从工地辗转而来的农民工,有在读或刚毕业的职高学生,甚至有一批聋哑人——记者咖啡猫便注意到,这个新兴领域为部分特殊群体提供了新的机会:尽管听障人士需要耗费更多培训时间,但因“专注、较劲儿、对视觉信号敏锐”,能在数据标注行业中找到安身之处。

尽管工作本身门槛低、难度不高,数据标注员却有相当高的淘汰率。在接受端传媒记者吴婧采访时,杜霖表示,做图片标注的员工,淘汰率在20%到30%之间,做语音标注的淘汰率甚至接近七成。“找人难、留人难”是管理者面临的共同困境:标注工作需要足够的耐心和责任心,若马虎出错,返工成本更高;也有不少中专生、大专生,待久了觉得“屈才”,没三个月便跳槽离开。

但数据标注行业高流动性并不仅仅由于工作本身枯燥、重复、低薪,多家媒体都注意到,晋升之路的狭窄,是从业者决定离开的又一促因。

“甲子光年”的文章便指出,数据标注的晋升之路只有两条——要么数据公司,攀爬标注员-标注组长-数据经理-数据总监这个每一层都有激烈竞争的阶梯,要么进人工智能公司当数据标注员,然后凭借超人毅力自学技术曲线救国。而对大多数“智能工地”上的劳动者来说,这份工作和电子厂、服装厂流水线上的工作本质上没有区别:“没钱”,“没前途”,收入全在“多劳多得”。

一个尖锐的问题是:这数十万教会AI认识世界的人,是否会在不久的将来被AI取代?

杜霖等从业人员在接受采访时指出,至少在5年内,数据标注行业的增长空间还很大:其一,人工智能行业本身的发展将不断激发新的需要,从而进一步带动数据标注行业;其二,现有的主流算法模型仍依赖于海量数据积累;其三,人工智能的升级会提升需求的数据维度,并可能由此催生更精细的数据标注需求。

必达财经

热点推荐

郑重声明:以上内容与金融之星立场无关。金融之星发布此内容的目的在于传播更多信息,金融之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。