【读书笔记】《数据的本质–无人不是分析师》

内容简介*《数据的本质》是阿里巴巴集团前副总裁、红杉资本中国基金专家合伙人车品觉的作品。本书凝练了他多年来的大数据实践和思考,既分享了大数据商业决策的心得,也体现了一位资深数据分析师世事洞察的人生智慧。未来一切都将数据化* 在大数据与人工智能时代,知识越来越成为一种廉价的大宗商品。随着数据的积累,如何通过数据洞察其背后的本质,而不是盲目地被数据牵着鼻子走,从而形成独立、有批判性的分析思考能力,在大数据时代比任何时候都显得更加重要。
* 大数据时代源自应用所产生的巨量数据,比如微信、淘宝。但是,随后大数据反过来成为应用创新的核心,这个循环无疑为我们带来了一种全新的创新型态。那就是:用数据做好产品,用好产品拿到更多的数据。
* 我在阿里就经历了四个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。
* 我们应该清楚地认识到,商业基础正因为众多终端带来的全域大数据而发生着改变。在全域大数据的大浪潮之下,每家公司都要重新思考,当互联网的场景从单一的桌面转移到多源、多终端时,不仅会带来丰富的空间维度,还会增加更多从前匪夷所思的新场景所产生的数据。
* 当下不认真对待数据,之后想用好数据时,就会被死死卡住。的确,当公司规模生态还小时,我们会觉得数据的质量问题不值得注意;但一旦我们想精准地应用数据时,就会发现曾经的“差一点儿”已经成了云泥之别。
* 手机作为功能设备产生的行为数据,不仅有时间维度,还有空间维度,这么多维度叠加在一起,分析的层面和方式也远远多于传统网页。
* 与大数据的4V(量大、多样、速度、价值)相比,移动大数据的核心重在实时(real time)、适时或最佳时机(righttime)以及全时(all the time)。任何一个完整的高效服务都离不开这3T。
* 只有具备在3T的能力下,你才能明确在什么地方、什么时间点,给什么样的用户、什么样的特别优惠。当你已经熟悉用户厾的消费习惯,甚至行路习惯,所有才会知道第二天下午一点半推荐一杯半价咖啡将是一种非常有效的促销方式。
* 数据的价值,必须来自场景。数据是虚的,解决方案才是实在的,没有场景做目标的大数据如同一盘散沙。
* 我认为,大家都忽略了大数据能力的根源来自连接,而连接的基础在于数据的流通和标准化。
* 以断裂数据为基础的任何人工智能算法,都会相应地产生偏差。这种事情表明了什么?的数据流通比较建立在一个永恒不变的道理上:互惠互利,否则你无法做到对数据进行适时的修正。虽然说高层掌握着权力,但要发挥出整体的数据战略,只靠从上而下的命令是不可能的,还必须依靠从下而上的共建共创。
* 数据产业的另一关键是开源的小区,公司之间的合作与竞争关系并存。从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。懂得这个道理的公司才会是未来的数据之王。
* 数据使用权必然会是未来企业之间最大的竞争空间,当然也可能是最大的合作空间。前不久电商阿里巴巴与顺丰快递双方因为数据交换问题不互相让,愈演愈烈的战火终于切断了数据接口,导致淘宝平台的用户连续两天搜索不到顺丰的物流信息。最后不得不由国家邮政局出面,强调双方不可损害消费者利益,事件方才平息。这一事件也引出了两个问题:数据的公有权和私有权到底如何界定?数据流通过程中如何保障个人、企业和公众的应有利益?
* 过去,我们担心的问题是小样本导致的统计误差;而在大数据时代,这个问题并不会消失,反而会更加复杂、更难发现和解释。
* 以无人驾驶汽车领域的事故为例。当意外发生时,如果无人驾驶汽车在没有其他选择时,只能选择撞向一位有权势的大人物或者一个弱小儿童,那么无人驾驶汽车的设计者应该如何处理?作为数据驱动的自动决策,在意外发生后进行责任评估,汽车和软件开发商到底谁的责任更大?同样的道理,如果脑科手术机器人出来意外,又该如何问责呢?
* 人工智能前景美好,但需要先解决包括隐私和伦理在内的诸多问题方能安全着陆。
数字经济引擎* 现在随着技术的优化,更重要的是管理层的投入,数据分析已经能够局部实现及时处理与应用,大数据开始因为闭环系统的修复而产生应有的商业价值。企业的分析模式也从事后分析飞跃到事前分析。
* 由于断点的存在,过去数据闭环系统的工作流程是靠半人力、半机械的方式维持运作的。在过去,达到分析级别的数据生产制作流程需要大量数据工程师人员的ETL程序设计。这有时会导致一份简单的报表要在数据的处理上耽误三天的时间,也难怪业务方对报表态度冷淡了。经过了几年的努力,智能决策的自动化已经逐步扩展到了数据预处理、报表生成、维度自决、问题自排查、异常预警等。
*ETL,一种数据仓库技术,是英文Extra-Transform-Load的缩写。用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。
* 随着移动互联网技术的成熟及物联网技术的普及,我们如今已经可以通过第三方的数据去弥补自己数据闭环系统内的不足。即使你的网站像淘宝网那样有上亿客户的流量,但每当使用数据来为某一个别用户做商品推荐时,你还是会发现存在数据稀缺的情况。这时第三方数据就变得尤为重要了。补充数据可能还包括当客户不在淘宝网时,还登录过什么网站、买过什么、品牌偏好如何等。
* 大数据的价值体现在预测上,而预测的结果需要通过不断决策与行动的过程来验证演算或模型的准确度和稳定性。
* 大数据是来自多源异构的资料,所以“乱”是其特性。为避免出现“garbage in , garbage out”的问题,使用数据前需要对数据资产进行加工,从而带来数据治理这一重要课题。
* 人工智能因大数据而重生,但制约人工智能在各领域实现更广泛利用的,并不是算法不够先进,而是缺乏高质量的数据。
* 数据来源的选择必定与商业模式相关,我的经验是,从小问题入手,弄清楚问题的本质往往是选择数据和算法的前提。
* 数据的收集、处理、运用,短期来说肯定是越贴近业务越有效率,然而从长远看并不有利于数据的标准化及重复使用,导致开发周期变得漫长。我的经验是,起点可以从最小化应用做闭环,基于众多应用做长线规划。
* 大数据安全是一个命门,数据越多,责任越大,而且有时候会超出你的想象。原以为很安全的数据,拼合其他数据之后,可能会成为机密级别。(数据之间的化学反应)
* 大数据的使用与积累是互相促进的闭环系统,断点越少,数据流通越通畅。这个闭环系统的选择是数据项目成败的关键,要考虑的问题也已经超出了数据本身,同时会涉及企业文件、组织架构。所以,我一般给企业的意见是,争取一把手的支持必不可少。
* 企业不应该把客户看成一个整体,因为解决了客户的一般性需求,不等于了解了客户的特殊需求。在大数据的驱动下,批量生产的个性化或许并非遥不可及。
数据变现的四大场景* 算法是否更聪明,重点就在谁“吃”下的数据更多。例如,微软在搜索方面一直在努力追赶谷歌,其技术并不逊色,却始终无法动摇谷歌的地位。原因很简单,因为谷歌“吃”的数据远多于微软。
* 企业高层最怕见到一大堆数据报表而非观点,更怕那些带着观点然后找数据来证明自己的分析师。知识图谱的探究,让我们开始见到从大量数据及其关联之中获得新知识的曙光。以前我们带着问题去找答案,如今在认知科学的带领下,我们可以真正地让数据去探索未知。
* 前些日子,亚马逊宣布计划以137亿美元的价格收购全食超市。同样我也亲身经历过几年内阿里收购银泰百货、商场,与苏宁电器达成合作、培养出盒马鲜生的业务,同时又发展了阿里云、大数据及人工智能平台,其手法与亚马逊如出一辙。更何况,线下数据仍然是零售业大数据中的一大缺口。显然,线上与线下关联起来的数据,便是蕴含着巨大商机的聚宝盆了。
往期精彩回顾【读书笔记】《价值》 作者:张磊 (高瓴资本)【读书笔记】《投资中最简单的事》–邱国鹭【读书笔记】《突围–88位基金经理的投资原则》【读书笔记】《信息规则—-网络经济的策略指导》【读书笔记】《伟大的中国工业革命》【读书笔记】《文明、现代化、价值投资与中国》【读书笔记】《剧变:人类社会与国家危机的转折点》

版权声明