05 价值:“取之不尽 用之不竭”的数据创新

“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。”

20世纪90年代后期,网络逐渐变得拥堵起来。有人开发了一款名为“Spambots”的垃圾邮件程序软件,向成千上万名用户批量发送广告信息,淹没收件人的电子邮箱。他们会在各种网站上注册,然后在评论部分留下成百上千条广告。网络因此成了一个不守规矩、不受欢迎、不够友善的地方。而且,这种软件似乎打破了网络原有的开放性和易用性模式,要知道,正是这种模式向人们提供了各种便利,比如免费电子邮件。当特玛捷这一类公司根据“先到先服务”的原则提供演唱会门票网上订票服务时,作弊软件会偷偷摸摸跑到真正排队的人之前,将门票全部买下。

2000年,22岁大学刚毕业的路易斯·冯·安(Luis Von Ahn)提出了解决这个问题的想法:要求注册人提供真实身份证明。他试图找出一些人类容易辨别但对机器来说却很难的东西,最后他想到了一个办法,即在注册过程中显示一些波浪状、辨识度低的字母。人能够在几秒钟内识别并输入正确的文本信息,但电脑却可能会被难倒。雅虎采用了这个方法以后,一夜之间就减轻了垃圾邮件带来的苦恼。冯·安将他的这一创作称为验证码(全称为“全自动区分计算机和人类的图灵测试”)。五年后,每天约有2亿的验证码被用户输入。

这一切给冯·安这位家里经营糖果厂的危地马拉人带来了相当高的知名度,使他能够在取得博士学位后进入卡内基梅隆大学工作,教授计算机科学;也使他在27岁时获得了50万美元的麦克阿瑟基金会“天才奖”。但是,当他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他并没有感到自己很聪明。

于是,他开始寻找能使人的计算能力得到更有效利用的方法。他想到了一个继任者,恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目。

ReCaptcha的故事强调了数据再利用的重要性。随着大数据的出现,数据的价值正在发生变化。

信息对于市场交易而言是必不可少的。数据使价格发现成为可能,比如众所周知的一点,它是决定生产数量的信号。一些特殊类型的信息也早已在市场上交易,如书籍、文章、音乐、电影以及金融信息(如股票价格)等。这些在过去的几十年中已经通过个人数据加入数据库。美国的专业数据经纪人,如安客诚(Acxiom)、益百利和艾可飞(Equifax)等,专门负责从数亿名消费者中收集个人信息加入综合档案。随着Facebook、Twitter、LinkedIn、Foursquare等社交平台的出现,我们的人脉关系、想法、喜好和日常生活模式也逐渐被加入到巨大的个人信息库中。

总之,尽管数据长期以来一直是有价值的,但通常只是被视为附属于企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别。但在大数据时代,所有数据都是有价值的。

这里所说的“所有数据”包含了那些最原始的、看似最平凡的信息单位。想一想工厂机器上热传感器的读数,GPS坐标上的实时数据流,某一辆或者60000辆车的加速度传感器读数和燃料水平。再想想数十亿旧的搜索查询,或者过去数年美国每趟商务航班上每个座位的价格。

但是,直到目前仍然没有一个简单的方法来收集、存储和分析这些数据,这严重限制了提取其潜在价值的机会。在亚当·斯密论述18世纪劳动分工时所引用的著名的大头针制造案例中,监督员需要时刻看管所有工人、进行测量并用羽毛笔在厚纸上记下产出数据,而且测量时间在当时也较难把握,因为可靠的时钟都尚未普及。技术环境的限制使古典经济学家在经济构成的认识上像是戴了一副墨镜,而他们却几乎没有意识到这一点,就像鱼不知道自己是湿的一样。因此,当他们在考虑生产要素(土地、劳动力和资本)时,信息的作用严重地缺失了。虽然在过去的两个世纪中,数据的采集、存储和使用成本一直在下降,但直到今天也仍然维持在相当昂贵的水平。

我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。

在Farecast或谷歌这样的信息公司眼里,数据开始被视为一个新的生产要素,原始材料在数字流水线的一端输入,而处理后的信息则从另一端输出。

大部分数据的直接价值对收集者而言是显而易见的。事实上,数据通常都是为了某个特定的目的而被收集——商店为了会计核算而收集销售数据,工厂为了确保产品符合质量标准而监控输出,网站记录每一个用户点击(即使是鼠标光标的移动)来分析和优化其呈现给访客的内容。的建议。同样,Facebook跟踪用户的“状态更新”和“喜好”,以确定最佳的广告位从而赚取收入。

这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。因此,亚马逊在向其用户,不论是生成这些数据的客户或是其他客户做出建议时,都可以不断地使用过去的交易数据。

当沃尔玛检查以往的销售数据并发现飓风和蛋挞销售之间存在有利可图的关系时,这种潜力的一部分已经得到实现。这意味着数据的全部价值远远大于其最初的使用价值,也意味着即使首次或之后的每次使用都只带来了少量的价值,但只要数据被多次使用过,企业仍然可以对数据加以有效利用。

想知道数据的重复使用对其终极价值有什么意义吗?来看看电动汽车的故事吧。电动汽车能否成功地作为一种交通工具成功普及,其决定因素多如牛毛,但一切都与电池的寿命相关。司机需要能够快速而便捷地为汽车电池充电,电力公司需要确保提供给这些车辆的电力不会影响电网运转。几十年的试验和错误才实现了现有加油站的有效分配,但电动汽车充电站的需求和设置点目前还不得而知。

有趣的是,与其说这是一个基础设施问题,不如说这是一个信息问题,因为大数据是解决方案的重要组成部分。

明白了这一点,那些创新型企业就能够提取其潜在价值并获得潜在的巨大收益。总之,判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。在我们强调过多次的例子中这一点体现得非常明显:Farecast利用机票销售数据来预测未来的机票价格;谷歌重复使用搜索关键词来监测流感的传播;麦格雷戈博士用婴儿的生命体征来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。

尽管如此,数据再利用的重要性还没有被企业和社会充分认识到。纽约联合爱迪生公司的高管中很少有谁能够想到,19世纪的电缆信息和工作人员的维修记录可以用来预防未来事故的发生。很多互联网和科技公司甚至直到最近才知道数据再利用具有多大的价值。要解锁这些数据价值,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。

用物理学家解释能量的方法或许可以帮助我们理解数据。他们认为物体拥有“储存着的”或“潜在的”能量,只是处于休眠状态,比如压缩了的弹簧或放置在小山顶的小球。这些物体中的能量是隐藏着的、潜在的,直到它们被释放出来。当弹簧被释放或者小球被轻碰而滚下山坡时,这些物体的能量就变成了“动能”,因为它们在移动并对其他物体施力。同理,在基本用途完成后,数据的价值仍然存在,只是处于休眠状态,就像弹簧或小球一样,直到它被二次利用并重新释放它的能量。在大数据时代,我们终于有了这种思维、创造力和工具,来释放数据的隐藏价值。

过去,一旦数据的基本用途实现了,我们便认为数据已经达到了它的目的,准备将其删除,让它就此消失。毕竟,数据的首要价值已经得以提取。而在大数据时代,数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。

数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。乍看起来,这些信息在实现了基本用途之后似乎变得一文不值。但是,以往的查询也可以变得非常有价值。有的公司,如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。通过Hitwise营销人员可以了解到粉红色是否会成为今夏的潮流色,或者黑色是否会回归潮流。谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标都是基于搜索数据得到的。英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。

再来看另一个例子,谷歌在2007—2010年之间计划在本地搜索列表中加入GOOG—411语音识别服务,但这家搜索巨头并没有自己的语音识别技术,因此急需购买许可。于是,谷歌与该领域的领导者Nuance公司达成合作协议,这家公司因为搭上了这样一个珍贵的客户而感到十分高兴。但Nuance公司在数据方面完全是个十足的笨蛋:合同中没有规定由谁来保存语音翻译记录!于是谷歌自己保存了数据。这些数据在改进技术方面是不可或缺的,谷歌甚至据此从头创建了一个新的语音识别服务系统。当时Nuance公司只考虑到了软件许可的业务交易,而忽视了数据的处理。当认识到自己犯下的错误后,它立即与移动运营商和手机制造商达成其语音识别服务的使用交易,从而进行数据收集。

数据再利用的价值对于那些收集或控制着大型数据集但目前却很少使用的机构来说是个好消息,比如在那些线下运作的传统企业。他们或许正坐在尚未开发的信息喷泉上。有些企业可能已经收集了数据并使用过一次(如果可能的话),且因为存储成本低而将其保存了下来,数据科学家们称这类保存旧信息的计算机为“数据坟墓”。互联网和科技公司在利用海量数据方面走在了最前沿,因为他们仅仅通过在线就能收集大量的信息,分析能力也领先于其他行业。但是,所有的公司都可能会从中获利。麦肯锡的咨询顾问们列举了一家物流公司(名称保密)。这家公司在交付货物的过程中积累了大量产品的全球出货信息。嗅到了这个机会之后,该公司成立了专门的部门,以商业和经济预测的形式出售汇总数据。换言之,它创造了谷歌过去搜索查询业务的一个线下版本。

由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但是他们并不急需使用也并不擅长再次利用这些数据。例如,移动电话运营商收集用户的位置信息来传输电话信号。对于这些公司来说,数据只具有狭窄的技术用途。但是当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。有时候,数据的价值并非来自于单个的数据值,而是从数据汇总中体现出来的。因此,AirSage和Sense Networks这些企业会出售诸如人们周五晚上聚集在哪里或者汽车在哪个地段行驶多慢等信息,这种信息集合可以用来确定房地产价值或广告牌的价格。

有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,我们可以做出很有创意的东西来。一个成功的例子是2011年发表的关于手机是否增加致癌可能性的一项有趣的研究。全球约有60亿部手机,几乎人手一部,因而这个问题是至关重要的。人们做了大量的研究来寻找其中的关联,但都受困于各种障碍:样本量太小、研究时间太短或者是被试自己报告的数据中充满错误。然而,丹麦癌症协会的研究团队基于以往收集的数据想出了一个有趣的方法。

如今,互联网用户都熟悉基本的混搭式应用,即将两个或多个数据源以一种新颖的方法结合起来。例如,房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上,同时还聚合了大量的信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。

这个结果极具指导意义,尽管通过视觉展示使得数据更加亲和且非常简单,但采用位置信息并将其置于地图上毕竟不是一个创造性的飞跃。随着大数据的出现,我们可以走得更远,丹麦的癌症研究就为我们提示了更多的可能性。

促成数据再利用的方法之一是从一开始就设计好它的可扩展性。虽然这不总是可能的,因为人们可能在数据收集后很长时间才意识到这一点,但的确有一些方法可以鼓励相同数据集的多种用途。例如,有些零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像机仅用于安全保卫,是一项纯粹的成本支出,而现在却被视为一项可以增加收入的投资。

收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找“一份钱两份货”,即如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。

随http://www•99lib.net着数据存储成本的大幅下降,企业拥有了更强的经济动机来保存数据,并再次用于相同或类似的用途。但是,其有效性是有限的。例如,像奈飞和亚马逊这类公司可以利用客户购买的产品、浏览的页面和评论来推荐新的产品,他们可能会年复一年、一遍又一遍地使用这些数据。考虑到这一点,人们可能会认为只要公司不被隐私保护法等法律法规所限制,就应该永远保存这些数字记录,或者至少在经济条件允许的情况下保存这些记录。然而,事实并非如此简单。

随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如十年前你在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。如果亚马逊继续用这个数据来向你推荐其他书籍,你就不太可能购买带有这类标题的书籍,甚至会担心该网站之后的推荐是否合理。这些推荐的依据既有旧的过时的信息又有近期仍然有价值的数据,而旧数据的存在破坏了新数据的价值。

于是,亚马逊决定只使用仍有生产价值的数据,这就需要不断地更新数据库并淘汰无用信息。这时面临的挑战就是如何得知哪些数据不再有价值。仅仅依据时间来判断显然不够,(即使只考虑因时间不同而造成新旧数据价值的不同,也不是一个容易的问题。2010年Koren在《ACM通讯》上题为“Collaborative Filtering with Temporal Dynamics”的文章向我们展示了这一单一特征亦足以巨大地影响推荐的效果。——译者注)因此,亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。

然而,并非所有的数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。这就解释了为什么一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除(它只是在18个月后删除了最后四位数以隐匿搜索查询)。谷歌希望得到每年的同比数据,如假日购物搜索等。此外,通过了解搜索者的位置,可以帮助改善搜索结果的相关性。例如,很多纽约人都会搜索“火鸡”,但经常会搜索到与“火鸡”无关的关于“土耳其”的网页(英文中“火鸡”与“土耳其”同为turkey)。通过算法可以将他们想要查看的页面放在排名靠前的位置,来方便其他纽约人查找。

数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。两个关于拼写检查的故事给我们提供了一个生动的解释。

这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。

一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。

数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。

很多企业都开始设计他们的系统,以这种方式收集和使用信息。在Facebook的早期,数据科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,Facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。

Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在可以看到,如果大部分学生需要再看一遍课程内容,就可能表明某些地方他们还不太清楚。在斯坦福大学教授安德鲁·恩格(Andrew Ng)讲授的Coursera机器学习课堂上,他注意到约有2000名学生课外作业的答案是错误的,但错误答案居然是相同的。显然,他们都犯了相同的错误,那么是什么呢?

随着一点点的调查,他终于弄清楚了,他们把一个算法里的两个代数方程弄反了。(据此猜测是指期望最大化算法,即Expectation Maximization Algorithm。——译者注)所以如果现在还有其他学生犯同样错误的话,系统不会简单地告诉他们做错了,而是会提示他们去检查算法。这个系统也应用了大数据,通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些都是过去很难得知的,现在却永远地改变了教学方式。

数据废气可以成为公司的巨大竞争优势,也可能成为对手的强大进入壁垒。试想,如果一家新上市的公司设计了一个比当今行业领先者(如亚马逊、谷歌或Facebook等)更优秀的电子商务网站、社交网站或搜索引擎,它也难以同对手竞争,这不仅是因为其经济规模、网络效应或品牌价值不够好,而是因为这些公司收集了来自客户交互的数据废气并纳入到他们的服务中。一个新的在线教育网站有能力与一个已经具备庞大数据库并且由此知道什么最好的对手相抗衡吗?

如今,我们很可能认为谷歌和亚马逊等网站是大数据的先驱者,但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。因此,政府将继续收集和积累大量的数据。

大数据对于公共部门的适用性同对商业实体是一样的:大部分的数据价值都是潜在的,需要通过创新性的分析来释放。但是,由于政府在获取数据中所处的特殊地位,因此他们在数据使用上往往效率很低。最近有一个想法得到了公认,即提取政府数据价值最好的办法是允许私营部门和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。

这种想法让“开放政府数据”的倡议响彻全球。开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据;而且数据必须以标准的可机读形式展现,以方便人们处理。否则,信息的公开只会是徒有虚名。

2008年1月21日,奥巴马总统在就职的第一天发表了一份总统备忘录,命令美国联邦机构的负责人公布尽可能多的数据,这使开放政府数据的想法取得了极大的进展。“面对怀疑,公开优先。”他这样指示道。这真是一个了不起的声明,特别是与那些作出相反指令的前任们相比。奥巴马的指令促成了data.gov网站的建立,这是美国联邦政府的公开信息资料库。网站从2009年的47个数据集迅速发展起来,到2012年7月三周年时,数据集已达45万个左右,涵盖了172个机构。

即使是在严谨的英国(以往大量的政府信息都封锁在英国皇家版权(Crown Copyright)手中,使用起来非常困难和昂贵(比如在线地图公司用到的邮递区号)。——作者注),现在也出现了实质性的转变。英国政府已经颁布相关规定鼓励信息公开,并支持创建由万维网的发明者蒂姆·伯纳斯(Tim Berners-Lee)参与指导的开放式数据中心,这一举措促进了开放数据的新用途并将数据从国家手中解放出来。

欧盟宣布开放数据的举措很快也会遍及整个欧洲。其他国家,如澳大利亚、巴西、智利等也相继出台并实施了开放数据策略。同时,世界各地越来越多的城市和地区也已经加入开放数据的热潮,一些国际组织也是如此,世界银行就公开了数百个之前被限制的关于经济和社会指标方面的数据集。

同时,各种Web开发人员和富有远见的思想家组成了数据团队来最大化开放数据价值,如美国的阳光基金会和英国的开放知识基金会。

无论是向公众开放还是将其锁在公司的保险库中,数据的价值都难以衡量。来看看2012年5月18日星期五发生的事吧。这一天,28岁的Facebook创始人马克·扎克伯格(Mark Zuckerberg)在位于美国加利福尼亚州门洛帕克市的公司总部,象征性地敲响了纳斯达克的开盘钟。这家宣称全球约每十人中就有一人是其用户的全球最大社交网络公司,开启了其作为上市公司的征程。

和很多新科技股的第一个上市交易日一样,公司股价立即上涨了11%,翻倍增长甚至已经近在眼前。然而就在这一天,怪事发生了。Facebook的股价开始下跌,期间纳斯达克的电脑因出现技术故障曾暂停交易,但仍然于事无补,情况甚至更加恶化。感到异常的股票承销商在摩根士丹利的带领下,不得不支撑股价,最终以略高于发行价收盘。

上市的前一晚,银行对Facebook的定价是每股38美元,总估值1040亿美元(也就是说,大约是波音公司、通用汽车和戴尔电脑的市值之和)。那么事实上Facebook价值多少呢?在2011年供投资者评估公司的审核账目中,Facebook公布的资产为66亿美元,包括计算机硬件、专利和其他实物价值。那么Facebook公司数据库中存储的大量信息,其账面价值是多少呢?零。它根本没有被计入其中,尽管除了数据,Facebook几乎一文不值。

这令人匪夷所思。加特纳市场研究公司(Gartner)的副总裁道格·莱尼(Doug Laney)研究了Facebook在IPO前一段时间内的数据,估算出Facebook在2009年至2011年间收集了2.1万亿条“获利信息”,比如用户的“喜好”、发布的信息和评论等。与其IPO估值相比,这意味着每条信息(将其视为一个离散数据点)都有约4美分的价值。也就是说,每一个Facebook用户的价值约为100美元,因为他们是Facebook所收集信息的提供者。

那么,如何解释Facebook根据会计准则计算出的价值(约63亿美元)和最初的市场估值(1040亿美元)之间会产生如此巨大的差距呢?目前还没有很好的方法能解释这一点。然而人们普遍开始认为,通过查看公司“账面价值”(大部分是有形资产的价值)来确定企业价值的方法,已经不能充分反映公司的真正价值。事实上,账面价值与“市场价值”(即公司被买断时在股票市场上所获的价值)之间的差距在这几十年中一直在不断地扩大。美国参议院甚至在2000年举行了关于将现行财务报告模式现代化的听证会。现行的财务报告模式始于20世纪30年代,当时信息类的企业几乎不存在。现行财务报表模式与现状的差异不仅会影响公司的资产负债表,如果不能正确评估企业的价值,还可能会给企业带来经营风险和市场波动。

20世纪80年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数字已经增长为75%。无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。

最终,这意味着目前还找不到一个有效的方法来计算数据的价值。Facebook开盘当天,其正规金融资产与其未记录的无形资产之间相差了近1000亿美元,差距几乎是20倍!太可笑了。但是,随着企业找到在资产负债表上记录数据资产价值的方法,这样的差距有一天也必将消除。

人们正在朝着这个方向前进。在美国最大的无线运营商之一工作的一位高级管理人员透露说,数据持有人在认识到数据的巨大价值之后会研究是否在正式的会计条款中将其作为企业的资产。但是,一旦公司的律师得知此事,便会加以阻止。因为把数据计入账面价值可能会使该公司承担法律责任,律师们并不认为这是一个好主意。

同时,投资者也开始注意到数据的潜在价值。拥有数据或能够轻松收集数据的公司,其股价会上涨;而其他不太幸运的公司,就只能眼看着自己的市值缩水。因为这种状况,数据并不要求其价值正式显示在资产负债表中。尽管做起来有困难,市场和投资者还是会给这些无形资产估价,所以Facebook的股价在最初的几个月中一直摇摆不定。但随着会计窘境和责任问题得到缓解,几乎可以肯定数据的价值将显示在企业的资产负债表上,成为一个新的资产类别。

那么,如何给数据估值呢?诚然,计算价值不再是将其基本用途简单地加总。但是如果数据的大部分价值都是潜在的,需要从未知的二次利用提取,那么人们目前尚不清楚应该如何估算它。这个难度类似于在20世纪70年代布莱克-舒尔斯期权定价理论出现前金融衍生品的定价。它也类似于为专利估值,因为随着各种拍卖、交流、私人销售、许可和大量诉讼的出现,一个知识市场正在逐渐兴起。如果不出意外,给数据的潜在价值贴上价格标签会给金融部门带来无限商机。

在大数据时代,数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付,而不是敲定一个固定的数额。这有点类似于出版商从书籍、音乐或电影的获利中抽取一定比例,作为支付给作者和表演者的特许权使用费;也类似于生物技术行业的知识产权交易,许可人要求从基于他们技术成果的所有后续发明中抽取一定比例的技术使用费。这样一来,各方都会努力使数据再利用的价值达到最大。然而,由于被许可人可能无法提取数据全部的潜在价值,因此数据持有人可能还会同时向其他方授权使用其数据,两边下注以避免损失。因而,“数据滥交”可能会成为一种常态。

一些试图给数据定价的市场如雨后春笋般出现。2008年在冰岛成立的DataMarket向人们提供其他机构(如联合国、世界银行和欧盟统计局等)的免费数据集,靠倒卖商业供应商(如市场研究公司)的数据来获利。另一家新创办的公司InfoChimps,其总部设在得克萨斯州奥斯汀市,希望成为一个信息中间人,供第三方以免费或付费的方式共享他们的数据。就像易趣给人们提供了一个出售家中搁置不用的物品的平台一样,这些科技创业公司想为任何手中拥有数据的人提供一个出售数据的平台。例如,Import.io鼓励公司授权别人使用自己手中的数据,不然别人也可以从网上免费收集到这些数据。谷歌的前员工吉尔·埃尔巴兹(Gil Elbaz)创办的Factual收集数据,然后制成数据库供需要者使用。

微软也带着它的Windows Azure DataMarket登上了历史舞台。它的目标是专注高质量的数据和监督所提供的产品,其方式和苹果公司监督其应用程序商店中的产品类似。微软假设,一位销售主管在准备Excel表格时可能还需要做一份公司内部数据和来自经济顾问的GDP增长预测的交叉表,那么她只要点击想要购买的数据,后者将瞬间出现在她的电脑屏幕上。

到目前为止,没有人知道估值模型将发挥出怎样的作用。但可以肯定的是,经济正渐渐开始围绕数据形成,很多新玩家可以从中受益,而一些资深玩家则可能会找到令人惊讶的新生机。用硅谷技术专家和科技出版社员工蒂姆·奥莱利(Tim O'Reilly)的话来说就是,“数据是一个平台”,因为数据是新产品和新商业模式的基石。

下一章,我们将考察数据的实际运用和日益崛起的大数据行业。