原标题:刷量、买粉、伪创作… 数据造假最终受伤的是谁?
“刷量”“买粉”“伪创作”
数据造假成“套路” 最终受伤的是谁
一篇自媒体文章不仅引起了公众对旅游社区平台马蜂窝点评内容抄袭的质疑,也捅开了互联网行业数据造假的“马蜂窝”。
在对“是否存在内容抄袭或数据造假”的质疑讳莫如深数天后,马蜂窝联合创始人兼CEO陈罡承认,其“在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大”。然而,业内人士指出,互联网领域的数据造假远比想象的更严重,而且造假套路也呈现“道高一尺魔高一丈”的趋势。
从最早的电商刷单、刷好评,到之后的微信公众号买粉、刷阅读量,再到网络直播平台买流量、App机器人用户充数据,各类数据造假的手段不断翻新,而真实数据成为难以获知的“高度机密”。
难道没有机制可以识别、约束这些“套路”吗?事实上,一些平台企业和投资机构早已尝试通过反爬虫 、第三方数据调查等技术手段预防和应对数据造假,但是效果并不好。另外,部分投资机构出于种种考虑,默认一些互联网企业的数据造假行为,甚至与之合谋。技术难题也随之成为更加复杂的人性谜题。
进步最快的是造假的方式
在“马蜂窝事件”中,备受质疑的一个数据造假“套路”是,不少用户在其他平台的旅行攻略、点评内容,被搬运到马蜂窝上。实际上,此类做法并不新鲜。
今年7月,生活社区小红书通过官方微博指责大众点评大量抄袭其用户的内容。具体做法是批量建立虚假账号,抄袭及搬运用户在小红书发布的原创内容。据小红书估计,抄袭的数量在百万条量级。
一些用户专门为小红书平台创作的内容被“copy”后,依然留着原本内容的影子。小红书用户“詹小猪Coco”曾于6月6日发视频庆祝小红书创立纪念日,“copy”后,文案竟变成了“祝点评生日快乐”,但视频中用户说的仍然是“小红书”,而且6月6日也不是大众点评的“生日”。
当时,大众点评方面对此回应称,这是因为新上线试运营的推荐栏目在未经授权的情况下对相关内容进行了违规转载,已第一时间完成所有内容排查与全部清理下线,并通过技术手段确保该类问题不再出现。
段民(化名)从2002年开始从事数据挖掘工作,是国内最早一批大数据行业应用的开拓者。他告诉中国青年报·中青在线记者,这类搬运其他平台内容为己所用的行为,属于常见的“伪创作”造假套路,即通过网络爬虫软件,将其他平台的数据和内容复制过来,稍加修改后变成自己的内容。与其他造假手法相比,这类做法更隐蔽,需要专业人士持续跟踪 、分析 、比对才能发现。
段民表示,除“伪创作”以外,互联网内容平台常见的数据造假“套路”还包括虚报数据、“僵尸用户”、虚假行为等。前两种“套路”因用户了解有限,平台与用户之间存在一定门槛,往往难以得知;而通过机器人冒充真实用户,访问网站或App从而增加流量或点击量的虚假行为,是离普通用户最近的一种造假“套路”。
微博、微信等平台的“刷量”“买粉”,是其中的典型代表。2016年9月末,因微信官方的后台调整行为,屏蔽了公众号刷量工具的操作,许多自媒体大V的真实用户和阅读数量显现出来。此前一周平均阅读量上万的公众号,在当天最少的阅读量只有200;此前阅读量在10万以上的公众号,当天的阅读量只有2万左右。
此外,一些音视频节目的播放量也出现造假。此前,在国内首起因视频网站“刷量”而引发的不正当竞争案件中,被告杭州飞益信息科技有限公司针对爱奇艺 、优酷土豆、腾讯视频等主流视频网站上的视频内容“刷量”,对某个视频节目“刷量”1万次,仅收费15元。
上海市徐汇区人民法院公布的信息显示,飞益公司多名员工通过多个域名、不断更换访问IP地址等方式,连续访问爱奇艺网站视频,在短时间内迅速提高视频访问量,仅2017年2月1日至6月1日,飞益公司在爱奇艺网站制造了不少于9.5亿余次的虚假访问,按照该公司每万次15元的刷量收费标准,共非法获利上百万元。
技术的发展让造假成本更低
与“刷量”“买粉”“伪创作”等内容平台的造假手法相比,夸大用户和产品交易数据,则是互联网平台上更直接,也更难被发现的数据造假方式。
2015年,有业内技术人员在知名社区“知乎”上爆料,通过反向编译蜻蜓FM安卓版本软件,他发现蜻蜓FM软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。前者可以在用户不知情的情况下,在手机后台启动无窗口透明界面;后者则可以自主触发广告商的广告,并回传给第三方数据公司,从而完成“用户自主点击广告”的操作。
因为普通用户很难发现这种技术方法,而且可以提高日活跃用户数(DAU)等数据指标,所以该爆料甫一出现,便立即引发关注。对此,蜻蜓FM曾回应称,相关代码是用于新功能上线时进行AB对照测试、统计相关用户指标。
不过,这类说法未能解释该平台的日活用户数量和广告点击量为何突然增加。此前,蜻蜓FM在宣布用户数量达到1.5亿的两个月之后,就宣布用户数突破2亿,许多业内人士怀疑该数据的真实性。
除这类由专业人士爆料的案例之外,也有一些平台可能因一些“长相奇怪”的数据而引起质疑。同样在2015年,互联网农业公司一亩田因出现“9小时前李老板采购了1073741.8235吨洋葱”“6小时前刘老板采购了999.999吨毛桃”等数额怪异的交易信息而陷入数据造假疑云中。
彼时,一亩田展示了其过去一年的交易后台数据,并称一亩田网站确实还有一些产品和数据不够完善,仍处于数据测试阶段。
中国首席数据官联盟专家成员鲍忠铁表示,许多面向用户端的互联网企业都希望讲述一个快速增长的“独角兽”的故事,而市场份额、客户数量、日活用户等数据就成了体现企业估值快速提高的重要指标。
鲍忠铁在移动互联网界工作多年,他对一些App宣称的用户数量嗤之以鼻。据他的观察,很多App的下载量和用户量都可以通过技术手段造假:
因为安卓系统的开放性,破解系统权限后,一台平板电脑设备上甚至可以装十多个同样的App,配合不需实名制的虚拟运营商电话卡,可以形成十多个看似真实 、独立,实则批量化虚假的用户。而且,由于虚拟运营商的手机号可以包月使用,这样的造假手法成本得以进一步降低。
当数据造假变成一场合谋
数据造假的“套路”如此大行其道,甚至已经形成特定的产业链条,为何会出现如此局面?
前海梧桐合伙人王蔚分析,互联网企业比较常见的是在运营数据上造假,包括用户数据 、产品数据 、财务数据等,因为这类数据可以帮助企业获得激烈竞争中的优势地位,提升业务合作报价。