爱视科技股份有限公司 ,什么是大数据科技

从大数据神话拯救隐私

时间:2022-01-17 19:47:46 | 作者:爱科技网 | 点击: 137 次

  编者按:大数据技术并不关心现代科学和法律赖以存在的因果机制,也不关心个体的动机和意识,而是主张“让数据自己说话”,通过挖掘海量的历史数据,不断提升数据的精确度,来发现事物的相关性和潜在秩序,以指导和控制未来。这种大数据理性被认为和古代的占卜理性有着惊人的一致性,因此也可称是一种迷思。它本质上将人的主体性和不确定性抽离,用算法系统代替人的自主理性,可以预见的是,现代主体的心智隐私将一步步丧失,逐步被改造为算法依赖主体,进而影响人类社会的创新和未来。正是在这个意义上,作者反思大数据神话,提醒其可能带来的人类文明的深层危机。

  《从大数据神话拯救隐私》

  文 | 余成峰(《读书》2022年1期新刊)

  壹

  博尔赫斯曾写过一则短故事,在这个故事里,他描述了一片遥远的陆地,那里的地图学达到了荒谬的极端:地图师们雄心勃勃地绘制了一张精确的地图,跟整个帝国的比例是一比一。博尔赫斯讽刺地写道:子孙后代根本找不到这张笨重地图的实际用处。于是,这张地图就这样烂在了沙漠中,并和它代表的地图学一起随风而逝。

从大数据神话拯救隐私

博尔赫斯(Jorge Luis Borges)(图片来源:genius.com)

  博尔赫斯的地图悖论是:如果地图和地理同样庞大,那么地图也就丧失了存在的意义。但当大数据技术兴起,这一悖论似乎有了新的解读可能。当数据存储、处理和展示的能力足够,一张与帝国比例相同的实时数字地图,理论上已不再是天方夜谭。

  对于美国《连线》杂志前主编克里斯·安德森(Chris Anderson)来说,博尔赫斯的讽刺本身就是讽刺。在二〇〇八年著名的《理论的终结:数据洪流淘汰科学方法》一文中,安德森宣告,面对海量数据,“假设、模型、检验”的一系列科学方法正变得过时。我们可以停止寻找模型,在不经假设的前提下对数据进行分析,将数据投入尽可能大的计算集群,让统计算法找到科学未能寻找到的模式。

  安德森介绍了科学狂人J.克雷格·文特尔(J.Craig Venter)“鸟枪法”基因测序的工作。通过高速测序仪和超级计算机对大数据进行统计分析,文特尔先是对单个有机体测序,接着对整个生态系统测序。二〇〇三年,跟随库克船长的航程,他对大量海域进行了测序。而在二〇〇五年,他开始对空气展开测序。在整个过程中,他发现了数千种以前未知的细菌与其他生命形式。

从大数据神话拯救隐私

J. 克雷格·文特尔(左)进行海洋测序(图片来源:microbiologiaitalia.it)

  与现代性主要基于个人意向思考和社会自由沟通的理性模式不同,大数据的技术原理主要依循后验性的推断。它并不预设任何前瞻性标准,而是通过历史数据的搜集、回看与整理,从混沌的数据海洋中回溯性地挖掘可供算法自主运作的模式。正如麦肯齐(D.A.MacKenzie)在《引擎,而非照相机:金融模型如何塑造市场》中所说,将过去作为线索,以推断不可知的未来。

  大数据的运行基于自我指涉(self-reference)的技术系统闭合性。这要求摆脱人类意志的干预,排除外界意见交流的干扰,通过自身算法和代码的设置,完成数据挖掘与概率预测的全过程。例如,网络平台的个性产品推荐和广告分发,就不再需要专家系统或市场调查机构的帮助,也不再预备各类前期知识与相应的假设,只需要经由机器学习,通过特定的算法机制自动在全平台流通的信息中搜索、比对和分析,从而产生新的可用知识。这类知识主要基于历史与实时行为数据的存储记录,通过特定的算法技术赋予信息以结构,提炼其相关性模式,用以预测和指导后续的运作方向。借助互联网时代海量的数据规模,以及各种用以过滤、筛选与再合成历史信息的算法技术开发,从而将冗余的数据资源通过新的循环和再利用机制,转化为一种具有自我观察与自我指向功能的技术装置。

  正因如此,基于“数据完备性假设”的大数据强调定量先于定性,在这种认知信念下,海量的数据和统计学工具为理解世界提供了一种全新的方式,“相关性取代了因果关系;即使没有自洽的模型、统一的理论或真正的机械论解释,科学也会进步”(安德森语)。因果是主观的,数据是客观的。大数据相信表象世界背后的概率相关性,从而拒绝任何带有主观色彩的因果设定。世界虽然高度复杂,但此种复杂性只是一种既定的、可被算法有效化约的可计算对象。于此,大数据为我们许诺了一个社会物理学的美丽新世界,在这个新世界中,最关键的是掌握所有颗粒(你和我)的隐私细节。一旦掌握了所有细节,便可以设计出更为公平、智能和高效的企业、组织与社会,这便是大数据所宣扬的“微粒社会”(The Granular Society)。

  贰

  但是,博尔赫斯的讽刺是否具有更为深邃的内涵?大数据技术是否已完全破解全景帝国地图的悖论?大数据的可能性及其限度是什么?对此,意大利社会理论家埃斯波西托(Elena Esposito)提出的创见颇具启发性。她的惊人发现是,大数据理性不同于现代科学理性,而存在某种“返祖”现象,它与古代近东、希腊和中国的占卜术有异曲同工之妙:关注表象、相关性、展示先于提问、完美记忆。

  事实上,在近代科学革命之前,占卜术长期是知识发现、行动决策和应对不确定未来的重要手段。古典学家韦尔南总结了占卜理性的认知结构:强调必然性,否定偶然性,摒弃对于事件线性因果关系的追索,核心是揭示万事万物的同源性、相关性以及宇宙的命定秩序。因为,在占卜世界中,所有现象都是其他现象的征兆,并不存在非对称的线性因果关系;无论是鸟的飞行轨迹、动物肝脏、星宿迁移、龟甲裂纹、水纹波动,都暗藏了宇宙秩序的玄机,可以用来解释所有其他未知事物。根据法国汉学家汪德迈的研究,占卜理性乃以形态学为基础,关注事件之间的关联,忽视因果链,重视图形组合变化,以此代表与每一个无穷尽的新变化相应的宇宙状态的整体变化。因此,占卜理性恰与神学理性相区别,后者将每一事件解释为神意,每一事件都是神意设计的结果。神意安排是手段,超验是目的,而此种神学目的论恰恰也正是因果思想的生发基础。

  如汪德迈所说,占卜术把现象世界的无穷偶合转化为几种格式化的、付诸计算的知性。它的工作原理是高度技术化和程式化的,“卜”的类型化是对无数未设定的卜兆的抽象,从而成为可标准化操作的信息一般化媒介。与占卜理性指向宇宙世界的技术类似,大数据则以人的数字痕迹作为勘察资源。大数据预设的世界图景也同样屏蔽了偶然性的存在,一切事物无非是数字比特和信息熵潮起潮落的映射,不需要探究现象的深层目的与意义指向,而只需在数据的表面搜索其概率空间和模式变量。与占卜术的指导原理相同,大数据技术同样假设在事物之间存在同时性原理,万物在终极数学意义上可以相互操作,从而形成控制论意义上的数字相关性。它同样无需在过去和未来之间,在原因与结果之间,在问题和答案之间,建立直接的因果律关系,无需理解、诠释与沟通其深层意涵。相反,代码、算法和数据的同步化运行,借助人工神经网络与深度学习技术,就可以为我们呈现事物的潜在秩序。正如我们无法挑战神谕,我们也同样无法对大数据提供的答案置言。与占卜术一样,大数据的基本目标也是通过展示世界的隐匿秩序来指导未来,进而控制与塑造未来,或者说,它们都是一种去时间的时间性技术。