|
4月3日下午,2013年三天阿里高管访谈在杭州的无界西溪收尾,而压轴的高管正是淘宝网大数据部门负责人车品觉。
大数据是个忽悠?
“在数据中,你能看到人性。”车品觉曾说。
在座的记者问老车:来阿里这几年,你最满意哪个产品?车品觉想了想,黄金策吧。
一年多前,车品觉还在支付宝任商业智能官的时候,开发了“黄金策”。它可在2秒内对你的问题给出答案,比如,全国多少人买了某款浪漫内衣?哪个省份用户买的内衣罩杯最大?买浪漫内衣的同时有多少人又买了杜蕾斯?如果你还有兴趣,还能知道多少人买了早孕试纸、是否有商家给他们发放婴儿用品广告……这只是大数据应用中最简单的层面。
而当下,横亘在车品觉面前的难题,并不是数据不够多,也不是大数据不被人重视,而是大数据背后挖掘出价值的问题。“如果数据没有用来产生价值,那么大数据就是个忽悠。”老车虽然笃信风水,但从未刻意使得“大数据”三个字带有玄幻之意。而眼下,他最关心的问题是:数据足够纯净吗?数据的质量有没有被破坏?
三大任务:数据质量、数据安全、数据运营
对于普通用户来讲,数据的纯净度问题并不在关注范围之内。但是如果数据生产出来,没有标签,就很难知道数据的质量。而在数据只有开放给更多的人,才能有用,但在开放过程中的隐私问题如何解决呢?而在大淘宝数据运营中,以前淘宝BI部门占比80%,业务部门占比20%。但随着大淘宝从“数据运营”到“运营数据”的转型,这个比例可能需要反过来,业务部门发起的数据研究比例需要占大头儿。
在这个转变中,数据产品的位置其实是一直退后的,从一开始做让所有用户使用的产品,到作为平台方让尽可能多的用户参与进来,再到现在,基本需要变成数据服务,这也是今年开始,车品觉旗下部门变为业务共享部门的原因,数据成了基础服务。
千人千面的难度
从2011年开始,天猫逍遥子开始提“千人千面”这个关键词。千人千面意味着个性化,意味着对于买家的精准化营销和产品推送。时至今日,这依然是2013年淘宝重提的一个关键词?从数据的角度看,千人千面的难题在哪儿呢?车品觉认为是数据的稀缺性。
之所以说稀缺,并非指数据不够丰富。这里的稀缺性是指,跟数据发生关联的用户样本。比如说,母婴类目,是否看过这个类目的就是准妈妈和妈妈们呢?未必。这种精准化推送就变得难起来,所以一开始还是要先做一个人群,逐步再精确到一对一的个体。从“看母婴产品”推导出“自己有小孩”这个结论,车品觉说这个准确率只有62%。但如果再加上“一二线城市”“年龄层”两个数据属性,这个准确率可以升到83%。如果再加上“有没有汽车”这个属性的话,准确率可以升到86%。
“大数据,需要用其它参照系数据让主线数据变得更精准。”刚才这个案例中,如果加上更多参照系数据的话,完全可以推出用户小孩儿的年龄在6岁以上还是以下。可以想见,如果准确到这个维度的话,距离千人千面的实现,并不是那么遥远。
2013年,淘宝是数据年
在大淘宝的各个业务部门中,很多配有各自的BI。而车品觉却透露说,今年大数据部门的目标是:把BI干掉,以后不用分数据和运营部门。今年以前,淘宝已经被视为全民网购数据资源大户,但实际上,真正把这些数据用在消费者身上的概率却很低,而这种情况正在改变。
在数据部门中,有这么一个角色“数据科学家”,今年也会做一件有趣的事儿:一个用户登录淘宝5min之内,要判断出这个用户是来逛的还是来购物的。也就是说,会有“逛指数”和“购买指数”两个标签,很快判断出当下该用户的购物意愿度,从而有利于更主动的营销。
从大数据本身来讲,最值得玩味的正是:从有限数据估计无限数据。而研究数据的目的还是要产生价值,在这个过程中,大数据只是一个思考方法,或者说一种数据坐标。 |