大数据坏处
对大数据的痴迷已经失控。以下是原因。
我于 2014 年 9 月 11 日撰写此文,那是恐怖分子劫持飞机撞向建筑物,造成数千人死亡并使世界变得更糟的著名日子 13 年后。在过去的三天里,我还与比尔·宾尼共度时光,他说 9/11 袭击本可以避免。比尔提出这一主张是因为他领导了一个旨在寻找线索并将它们组合在一起的 NSA 项目。它被称为ThinThread。NSA 在袭击发生前三周停止了 ThinThread,最终选择采用另一个名为Trailblazer的项目。比尔说部署 ThinThread 将耗资 900 万美元。Trailblazer 最终花费了数亿美元,并且糟糕透顶。
像其继任者一样,例如棱镜计划,Trailblazer 的全部意义在于尽可能从任何地方收集一切。“至少 80% 的音频通话,而不仅仅是元数据”,比尔告诉我们,“被记录并存储在美国。NSA 在其存储内容上撒谎。” 至少,比尔和其他来源(如爱德华·斯诺登和切尔西·曼宁)的揭露清楚地表明,第四修正案不再保护美国公民免受不合理的搜查和扣押。在大数据无处不在的时代,抓取所有数据是合理的。
监视也对我们所说的话产生了寒蝉效应。谈论________,联邦调查局可能会将你标记为________。除其他外,爱德华·斯诺登和格伦·格林沃尔德透露,Linux Journal已被列入名为XKeyscore的 NSA 计划的嫌疑。作为读者,您可能已经在某个 NSA 名单上。我想说“小心”,但为时已晚。
ThinThread 与 NSA 现在所做的事情之间的区别在于方法和自由裁量权。ThinThread 的方法是在国际数据管道上实时监视可疑通信,并增强或自动化人工分析师的工作,他们的工作是找到做坏事的坏人,同时保护人们的隐私权。此后,NSA 收集的数据范围已转向绝对。在支持电子前沿基金会对 NSA 的诉讼 (Jewel v. NSA) 的宣誓证词中,比尔这样评价该机构的数据处理和存储计划的规模
这种容量的庞大规模表明,NSA 在存储之前并未过滤电子邮件等个人电子通信,而实际上是在存储他们正在收集的所有内容。NSA 计划的基础设施的容量远远超过了存储谨慎的、有针对性的通信,甚至存储来自所有电子通信的路由信息所需的容量。从数学角度来看,NSA 计划的基础设施的容量与捕获路由信息和所有电子通信的内容是一致的。
因此,早在“大数据”一词流行之前至少十年,NSA 就已经涉足大数据领域(图 1)。

图 1. 大数据趋势(来源:Google 趋势,2014 年 9 月 11 日)
2011 年并非巧合地是麦肯锡和大型科技供应商开始通过积极营销模因来推动对大数据解决方案的需求的那一年。
推销是这样的:世界正在变成数据,数量呈指数级爆炸式增长。至关重要的是要走在浪潮的前面并加以利用,否则就有被淹没的风险。借助大数据,您可以“释放价值”、“获得洞察力”、“提高绩效”、“改进研究”、“细分营销和服务”、“改进决策”。当然,还有“拯救生命”。
许多推销都谈到了科学和健康,在科学和健康领域,更多数据的优势一直显而易见。在科学方面,这种迫切性无疑有助于说服 NSA 转向 Trailblazer 和 PRISM,而不是 ThinThread,后者是关于用更少的资源做更多的事情。但是,正如您在图 1 的图表中看到的那样,现在大数据模因正在达到顶峰。鉴于我们也被营销人员监视的程度,也出现了抵制。在 “大数据如何像大型烟草公司——第 1 部分”中,SAP 全球副总裁、客户互动和商务主管 Tim Walsh 为福布斯撰写了这篇文章
大数据正在走类似的道路。欺骗?没问题。用户现在才广泛意识到,许多公司都在不断地监视、记录和操纵他们。这不仅仅是你买什么。那是原始的东西。您访问的每个站点,您“喜欢”的每件事,您在网上互动的每个人,您在“免费”电子邮件或聊天服务中键入的每个单词,您拍摄的每张照片(是的,包括您认为立即删除的照片),您使用移动设备去的每个物理位置,半夜醉酒冲浪——是的,是的,是的。
而且这不仅仅是在线活动。记住,公司已经在这方面努力了几十年。所有公开可用的信息现在都与您的数字生活联系在一起,以提供令人难以置信的关于您是谁以及您可能想要什么、花费什么、做什么的亲密画面。只需将其留给大数据进行预测即可。(进行准确预测的最佳方法是什么?操纵结果!)
任何不住在枪支棚里的人都有一个包含数千个数据元素的个人资料。您无需成为 Facebook 成瘾者即可拥有 6 英寸厚的档案,其中包含您的购买历史、选民登记、居住地、重大信用事件、朋友网络等。该列表呈指数级增长,因为现在小型数据行业已成为大数据,拥有无限的资源。越来越多的情况下,大数据甚至懒得征求用户对此的同意。正如他们所说:“不为产品付费?您就是产品。” 政府(美国和欧盟)正在关注并采取行动。用户感到受骗,政府已经闻到了味道。
在 纽约时报的“大数据的八个(不,九个!)问题”中,加里·马库斯和欧内斯特·戴维斯列出了更多问题
-
“……尽管大数据非常擅长检测相关性,尤其是对较小数据集的分析可能会遗漏的细微相关性,但它永远不会告诉我们哪些相关性是有意义的。”
-
“……大数据可以很好地作为科学探究的辅助手段,但很少能成功地完全替代科学探究。”
-
“……许多基于大数据的工具很容易被玩弄。”
-
“……即使大数据分析的结果不是有意被玩弄的,它们通常也会变得不如最初看起来那么稳健。”
-
“……回音室效应,这也源于大数据的大部分来自网络的事实。”
-
“……相关性过多的风险。”
-
“……大数据容易为毫无希望的不精确问题提供听起来像科学的解决方案。”
-
“……大数据在分析非常常见的事物时效果最佳,但在分析不太常见的事物时往往会失败。”
-
“……炒作。”
另一个问题:它往往不起作用。在 “大数据失败的地方……以及原因”中,彼得·斯威尼解释了增加数据规模和模式的复杂性(知识的表现力和多样性)如何导致实现营销“个性化媒体”这一圣杯的价格/性能不佳。他的底线是:“当面对我们日益复杂和分散的知识领域的小数据问题时,这些分析方法不可避免地会崩溃。”
没有什么比人类更复杂和分散的了——尤其是当您是一个想与某人建立亲密关系的机器人时。我们每个人不仅与其他人不同,而且也与我们自己不同,从一个时刻到下一个时刻。因此,虽然大数据非常适合对人群进行概括,但在个人层面上,它往往会失败。当营销监视系统使用 cookie、跟踪信标和其他侵入性和不受欢迎的东西跟踪我们时,他们收集的垃圾也几乎没有揭示我们。以下是彼得·斯威尼逐字逐句地阐述的方式
-
“最终用户的个人兴趣和偏好仅部分地在媒体中得到体现。”
-
“个人用户资料和活动无法为特定兴趣建模提供足够的数据。”
-
“市场参与者没有生成关于单个产品和服务的足够数据。”
-
“媒体和信息传递只是最终用户兴趣的影子;最终用户兴趣的直接证据相对稀少。”
这就是为什么广告拦截器(大多数也阻止跟踪)的普及率很高且增长迅速的原因。这是 “广告拦截走向主流”的明确信息,该报告于 2014 年 9 月 9 日由 PageFair 和 Adobe 发布。以下是一些逐字逐句的结果
-
“2014 年第二季度,全球每月活跃的广告拦截用户约为 1.44 亿(占所有互联网用户的 4.9%);这个数字在过去 12 个月中增长了 69%。”
-
“Google Chrome 正在将广告拦截带给大众,并且广告拦截器的增长幅度最大,在 2013 年第二季度至 2014 年第二季度之间增长了 96%,达到每月活跃用户约 8600 万。”
-
“‘最终用户安装’浏览器拦截的广告份额是‘预安装’浏览器的 4.7 倍。”
-
“广告拦截的采用正在全球范围内发生——波兰、瑞典、丹麦和希腊处于领先地位,2014 年第二季度平均有 24% 的在线人口使用广告拦截软件。”
-
“像日本、西班牙、中国和意大利这样的国家正在迎头赶上;在过去 12 个月中,他们使用广告拦截插件的在线人口比例增长了高达 134%。”
这是市场在说话。图 2 中显示的内容也是如此。

图 2. 隐私扩展
图 2 显示了我添加到 Firefox 中的所有广告和跟踪拦截扩展程序。
我可能是一个极端案例(我对这方面的东西很感兴趣,因此我会检查所有内容),但我们很少有人喜欢被监视,或者被监视对我们做了什么——无论是咬紧牙关,还是让我们拒绝为我们在网络上享受的免费商品付费的东西。
政府监视问题的法律和政策解决方案是存在的。在法律方面,我们有 EFF 和其他人,对政府提起诉讼,并在开放网络上阐明论点。在政策方面,我们有我们的选票,以及 EFF、StandAgasinstSpying、DemandProgress、Sunlight Foundation 等机构的共同努力。
在商业方面,我们收到了广告和跟踪拦截发出的明确信息,以及基于大数据的监视的高成本——在某些时候,这将开始提出反对自身的 ROI 论点。我个人最喜欢的反对基于监视的广告的论点是针对老式的品牌广告。这就是 Don Marti(我们以前的总编辑)最近一直在做的事情。例如
您通过阻止每个人都讨厌的那些令人毛骨悚然的定向广告来保护您的隐私的选择并非自私。您正在帮助重塑经济。您正在帮助将广告支出从针对您的广告转移出去,并产生更多负面外部性,并转向与内容相关的广告,并产生更多正面外部性。
对于我们Linux Journal以及整个新闻业来说,最积极的外部性是新闻业本身。品牌广告不是个人的。它在数据驱动方面仅限于需要将其目标调整为人群。例如,喜欢 Linux 的人。品牌广告以一种清晰的方式支持编辑内容:通过认可它并与之关联。
通过认可新闻业的实际作用,品牌广告是一个伟大的支持者。(它也支持很多垃圾,但这与这里无关。)另一方面,监视驱动的个性化广告支持用点击诱饵取代新闻业。
唐有一个简单的解决方案
因此,让我们重新向网络介绍广告,只是这一次,让我们尝试不使用令人毛骨悚然的东西。品牌广告商和网络内容人员比任何一方与数据库营销人员有更多的共同点。在后令人毛骨悚然的网络上有很多很好的机会,但第一步是让合适的人交谈。
因此,如果您要宣传 Linux 相关的东西,请致电我们的销售部门。