大数据热潮将如何发展?
早在我知道如何制造热点之前,我就已经身处这个行业。而这一切都发生在这里,《Linux Journal》。我从内核开发人员那里学到了一些,他们让 Linux 变得如此有用,以至于任何从事严肃开发的人不考虑它,最终不使用它,都是不负责任的。还有一些是我在这里工作时学到的。但大部分是我通过观察“开源”这个词被世界采用,并作为一名记者参与其中的过程而学到的。
要了解“开源”普及的速度,请参阅图 1,了解 Google Ngram Viewer 显示的内容。

图 1. Google Ngram Viewer:“开源”
Ngram 绘制的是一个词条在书籍中出现的频率。它只到 2008 年,但画面已经足够清晰。
我怀疑这条曲线的曲棍球棒在 1998 年 2 月 8 日开始向垂直方向倾斜。那天,Eric S. Raymond(又名 ESR)发表了一封题为“再见,‘自由软件’;你好,‘开源’”的公开信,并确保它得到充分报道。这封信利用了网景公司在两周前宣布将发布其将成为 Mozilla 浏览器的源代码,后来称为 Firefox。Eric 写道:
现在是关键时刻,各位。网景公司的声明改变了一切。我们已经突破了我们过去二十年一直身处的小角落。我们现在进入了一个全新的游戏,一个更大更令人兴奋的游戏——而且我认为我们可以赢得这场游戏。
我们确实赢了。
如何赢得?嗯,官方机构,例如开源促进会 (OSI),成立了。(有关 OSI 更多历史的链接,请参阅“资源”部分。)O'Reilly 出版了书籍并召开了会议。当时我们写了很多关于它的文章,并且从未停止(这篇文章就是其中一个例子)。但主要的推动者是 Eric 本人,Christopher Locke 将他描述为“一流的修辞学家”。
为了将此置于历史背景中,互联网泡沫在 1998 年和 1999 年处于高潮,Linux 和开源都在其中发挥了巨大作用。每一届 Linux 世界博览会都得到了慷慨的资助,并且挤满了乐观的初创公司,他们拥有各种规模的展位和拥有有趣新工作的极客。在其中一次博览会上,超过 10,000 人参加了 Linus 的座无虚席的演讲。在博览会和其他聚会上,ESR 让挤满房间的人们全神贯注地听了好几个小时,他滔滔不绝地谈论 Linux、黑客精神以及更多内容。但他的主要重点是开源,以及黑客及其雇主采用其代码和方法的必要性——他们确实这样做了,而且数量惊人。(我们还要记住,历史上两次最大的 IPO 分别是 Red Hat 和 VA Linux 的 IPO,分别在 1999 年 8 月和 12 月。)
自从目睹了这些成功案例以来,我一直对模因以及它们在技术世界中的传播方式保持警惕。尤其是“大数据”(见图 2)。

图 2. Google 趋势:“大数据”
2011 年发生了什么?大数据自燃了吗?是否有什么类型的宣传活动?或者是一系列协调的宣传活动?
虽然我无法证明这一点(至少在我拥有的时间内无法证明),但我相信主要原因是麦肯锡在 2011 年 5 月发布了“大数据:创新、竞争和生产力的下一个前沿”,引起了广泛关注。该报告以及麦肯锡后续的报告,推动了《福布斯》、《经济学人》、各种 O'Reilly 出版物、《金融时报》和许多其他媒体的宣传——同时为每个销售大数据产品和服务的供应商提供了充足的销售素材。
在这些大型供应商中,没有哪一家比 IBM 更擅长利用和制造热点。有关 IBM +“大数据”的 Google 搜索结果,请参阅“资源”部分,了解 2010-2011 日历年。请注意,该搜索中列出的第一篇出版物“将大数据带入企业”的日期是 2011 年 5 月 16 日,与麦肯锡报告的月份相同。下一篇“IBM 大数据 - 我从哪里开始?”的日期是 2011 年 11 月 23 日。
图 3 显示了麦肯锡、IBM 和“大数据”的 Google 趋势图。

图 3. Google 趋势:“IBM 大数据”、“麦肯锡大数据”
看到图 3 中 2010 年末 IBM 的那个峰值了吗?那是由于 IBM 方面的大力推动,您可以在仅在 2010 年搜索 IBM 和大数据以及仅搜索大数据中看到这一点。因此,显然已经有一些苗头了。但是,正如我们所见,搜索直到 2011 年才开始增加。那时,热潮席卷了市场,正如我们在搜索 IBM 和其他四个大数据供应商时看到的那样(图 4)。

图 4. Google 趋势:“IBM 大数据”、“SAP 大数据”、“HP 大数据”、“Oracle 大数据”、“微软大数据”
因此,虽然我们可能没有足够明确的答案来解释原因,但我们确实有明确的证据表明其影响。
下一个问题:这些公司向谁销售他们的大数据产品?至少是 CMO,即首席营销官——这个头衔直到互联网泡沫时期才开始普遍使用,并在那之后变得非常流行,因为营销在企业管理费用中所占的份额越来越高。例如,在 2012 年 2 月 12 日,《福布斯》发表了一篇题为“五年后,CMO 在 IT 上的支出将超过 CIO”的文章。文章开头写道:
营销现在是 IT 采购的基本驱动力,而且这种趋势没有任何停止——甚至放缓——的迹象。事实上,Gartner 分析师 Laura McLellan 最近预测,到 2017 年,CMO 在 IT 上的支出将超过他们的对等职位 CIO。
乍一看,这个预测可能听起来有点夸大其词。(仅仅五年后,CMO 在 IT 上的支出将超过 CIO?)但是,请考虑以下几点:1)众所周知,营销正变得越来越以技术为基础;2)驾驭和掌握大数据现在是获得竞争优势的关键;3)许多营销预算已经比 IT 预算更大——而且增长更快。
2012 年 6 月,IBM 的索引页标题是“迎接新的首席执行官客户。正是他们在推动营销新科学。”文案直接针对 CMO。作为回应,我写了“是的,请迎接首席执行官客户”,这篇文章当时质疑了 IBM 的一些宣传。(我很高兴我在那篇文章中引用了我所引用的内容,因为现在除了一个链接外,所有链接都无法访问。唯一有效的链接将原始页面重定向到“面向数据驱动型 CMO 的新兴趋势、工具和技术指导”。)
根据 Wikibon 的数据,到 2013 年,IBM 是最大的大数据供应商,收入高达 13.68 亿美元。今年 2 月(2015 年),路透社报道称,IBM“的目标是到 2018 年,云计算、大数据、安全和其他增长领域的年收入达到 400 亿美元”,并且这“将占分析师预计 IBM 在 2018 年的总收入 900 亿美元的约 44%”。
所以我确信所有的宣传都有效。我也确信存在一种狂热,尤其是在为了营销目的而不择手段地肆意收集个人数据方面。请看 IBM 和 Aberdeen 联合发布的“大数据蒸馏厂”,其中描述了这个系统的工作原理(见“资源”部分)。我在 2013 年 9 月的 EOF 中写过关于它的文章,标题为“Linux 与胡说八道”。“数据蒸馏厂”将人类描绘成传送带上的烧杯,被喂入营销浆糊,并释放气体供“数据蒸馏厂”加工成更多的营销浆糊。它贬低和侮辱我们人性的程度衡量了营销狂热在沉迷于大数据的情况下变得多么疯狂。
T.Rob Wyatt,一位资深极客和 IBM 资深人士,并没有挑战我对大数据热潮兴起的时间或围绕其作为术语的使用的狂热的看法。但他确实指出,大数据在其原始意义上与之前的流行语(例如数据处理)截然不同,并且值得一些尊重:
“大数据”这个术语在其原始意义上代表了数据处理主流方法的完全逆转。“大数据”特指保留数据的价值超过成本的时刻,并且主流策略从清除数据转变为保留数据。
他补充道:
CPU 周期、存储和带宽现在都非常便宜,以至于选择要省略哪些数据的成本超过了存储所有数据并在以后挖掘其价值的成本。即使今天它没有价值也没关系,我们可以只是推测性地存储数据,因为我们知道,只有一小部分数据最终需要返回价值才能实现利润。过去我们无情地丢弃数据,而今天我们却无情地囤积数据;即使我们不知道该如何处理它。我们只是知道,我们今天丢弃的任何数据元素都将是我们明天在新的算法出现时真正需要的数据元素。
这让我想起了 NSA 前分析师 Bill Binney 的故事。他在该机构的专长是通过识别数据中的模式,从最少的数据中获得最大的结果。这种方法的一个例子是 ThinThread,这是他和他的同事在 NSA 开发的一个系统,用于识别指示可能发生的恐怖活动的模式。Binney 认为,如果该计划没有在 9/11 袭击事件发生前三周被取消,ThinThread 本可以识别出 9/11 劫机者。相反,NSA 倾向于更昂贵的计划,这些计划基于从各处收集和囤积尽可能多的数据,这使得分析变得更加困难。他的观点是:你不会在更大的草堆中找到更好的针。
Binney 在 ThinThread 被取消后从 NSA 辞职,此后与该机构的关系一直充满争议。我有幸与他共度了一段时间,我相信他是一位好美国人——这是一部关于他的即将上映的纪录片的片名。我看过预发行版本,我建议大家在它上映时去看。
与此同时,我想知道大数据热潮何时以及如何消退——或者它是否会永远存在。
我打赌它会消退,原因有三:
首先,很大一部分大数据工作致力于营销,而市场中的人们越来越厌倦既成为大数据的来源,又成为大数据营销的目标。他们正在通过越来越高的速度阻止广告和跟踪来反抗。鉴于这种需求的规模,其他预防性技术肯定会随之而来。例如,Apple 正在为其移动 Safari 浏览器添加“内容阻止”功能。这让开发人员可以为用户提供在其 IOS 设备上阻止广告和跟踪的方法,并且以比当前插件更深的层次进行阻止。当然,所有这些都让被称为“广告技术”的监视驱动型营销业务感到恐慌(正如搜索 adtech + adblock 所揭示的那样)。
其次,其他公司职能部门肯定也厌倦了营销部门占用如此多的预算,同时在市场上招致客户的憎恨。在多年赢得 CXO 之间的预算争夺战之后,预计 CMO 将开始输掉一些——甚至更多——预算。
第三,营销部门已经在寻求从物联网中获取最大的数据缓存。再次引用 T.Rob 的话:
物联网设备供应商将把他们的数据出售给幕后的阴暗聚合商(“……我们可能会与我们的关联公司共享……”)。这些公司只提供足够的服务,以便面向客户的供应商可以说聚合商是他们业务的必要组成部分,因此是关联公司或合作伙伴。
聚合商将做一些类似于“大数据”的事情,但通常更关注状态而不是趋势(我根据当前架构猜测),并且将处理非常专门的实际行为数据集,寻求的不仅仅是预测,而是操纵近期(几分钟到几天)的行为。由于算法和数据集与过去大不相同,因此名称将会改变。关键将是在收集、聚合、关联和分析数据集方面开发新的专业角色。
这之所以成为可能,仅仅是因为我们当前的监管制度默认允许所有新的数据技术。如果我们能做到,那么我们就应该这样做。数据离开面向客户的供应商之手后,去向何处,没有问责制。对于收集的关于非账户持有人或服务成员的人员的数据,没有问责制。
我敢打赌,客户和公司中非营销部门的人员都会对此进行抗争。
最后,我担心我在图 5 中看到的情况。

图 5. Google 趋势:“开源”、“大数据”
如果事情像 Google 趋势预测的那样发展,那么明年开源和大数据将大致吸引搜索引擎用户的相同兴趣。这可能毫无意义,也可能意义重大。我不知道。你怎么看?
资源Eric S. Raymond 的“再见,‘自由软件’;你好,‘开源’”: http://www.catb.org/esr/open-source.html
“网景宣布计划在网络上免费提供下一代 Communicator 源代码”: http://web.archive.org/web/20021001071727/wp.netscape.com/newsref/pr/newsrelease558.html
开源促进会: https://open-source.org.cn/about
OSI 的历史: https://open-source.org.cn/history
O'Reilly 关于开源的书籍: http://search.oreilly.com/?q=open+source
O'Reilly 的 OSCON: http://www.oscon.com/open-source-eu-2015
Red Hat 历史(维基百科): https://en.wikipedia.org/wiki/Red_Hat#History
Terzah Ewing、Lee Gomes 和 Charles Gasparino(《华尔街日报》)的“VA Linux 股价暴涨 698%”: http://www.wsj.com/articles/SB944749135343802895
Google 趋势“大数据”: https://www.google.com/trends/explore#q=big%20data
麦肯锡的“大数据:创新、竞争和生产力的下一个前沿”: http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
IBM +“大数据”,2010-2011 年 Google 搜索结果: https://www.google.com/search?q=%2BIBM+%22Big+Data%22&newwindow=1&safe=off&biw=1267&bih=710&source=lnt&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2010%2Ccd_max%3A12%2F31%2F2011&tbm=
“将大数据带入企业”: http://www-01.ibm.com/software/au/data/bigdata
“IBM 大数据 - 我从哪里开始?”: https://www.ibm.com/developerworks/community/blogs/ibm-big-data/entry/ibm_big_data_where_do_i_start?lang=en
Google 趋势:“IBM 大数据”、“麦肯锡大数据”: https://www.google.com/trends/explore#q=IBM%20big%20data,%20McKinsey%20big%20data&cmpt=q&tz=Etc/GMT%2B4
2010 年“IBM 大数据”的 Google 搜索结果: https://www.google.com/search?q=ibm+big+data&newwindow=1&safe=off&biw=1095&bih=979&source=lnt&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2010%2Ccd_max%3A12%2F31%2F2010
“IBM 大数据”、“SAP 大数据”、“HP 大数据”、“Oracle 大数据”、“微软大数据”的 Google 趋势: https://www.google.com/search?q=ibm+big+data&newwindow=1&safe=off&biw=1095&bih=979&source=lnt&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2010%2Ccd_max%3A12%2F31%2F2010#newwindow=1&safe=off&tbs=cdr:1%2Ccd_min:1%2F1%2F2010%2Ccd_max:12%2F31%2F2010&q=big+data
1900 年至 2008 年间“首席营销官”的 Google Books Ngram Viewer 结果: https://books.google.com/ngrams/graph?content=chief+marketing+officer&year_start=1900&year_end=2008&corpus=0&smoothing=3&share=&direct_url=t1%3B%2Cchief%20marketing%20officer%3B%2Cc0
Lisa Arthur 在《福布斯》上发表的“五年后,CMO 在 IT 上的支出将超过 CIO”: http://www.forbes.com/sites/lisaarthur/2012/02/08/five-years-from-now-cmos-will-spend-more-on-it-than-cios-do
Gartner 分析师 Laura McLellan 主持的“到 2017 年,CMO 在 IT 上的支出将超过 CIO”(网络研讨会): http://my.gartner.com/portal/server.pt?open=512&objID=202&mode=2&PageID=5553&resId=1871515&ref=Webinar-Calendar
Doc Searls 的“是的,请迎接首席执行官客户”: https://blogs.law.harvard.edu/doc/2012/06/19/yes-please-meet-the-chief-executive-customer
面向数据驱动型 CMO 的新兴趋势、工具和技术指导: http://www-935.ibm.com/services/c-suite/cmo
2013-2017 年大数据供应商收入和市场预测 (Wikibon): http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017
路透社的“IBM 目标是到 2018 年云计算和其他增长领域收入达到 400 亿美元”: http://www.reuters.com/article/2015/02/27/us-ibm-investors-idUSKBN0LU1LC20150227
“大数据蒸馏厂:加速数字数据回报的策略”: http://www.ibmbigdatahub.com/blog/big-datastillery-strategies-accelerate-return-digital-data
Doc Searls 在《Linux Journal》2013 年 9 月刊上发表的“Linux 与胡说八道”: https://linuxjournal.cn/content/linux-vs-bullshit
T.Rob Wyatt: https://tdotrob.wordpress.com
William Binney(美国情报官员): https://en.wikipedia.org/wiki/William_Binney_%28U.S._intelligence_official%29
ThinThread: https://en.wikipedia.org/wiki/ThinThread
《好美国人》: http://www.imdb.com/title/tt4065414
Safari 9.0 安全扩展分发(“内容阻止”): https://developer.apple.com/library/prerelease/ios/releasenotes/General/WhatsNewInSafari/Articles/Safari_9.html
adtech adblock 的 Google 搜索结果: https://www.google.com/search?q=adtech+adblock&gws_rd=ssl
“开源”、“大数据”的 Google 趋势结果: https://www.google.com/trends/explore#q=open%20source,%20big%20data&cmpt=q&tz=Etc/GMT%2B4