SCI论文(www.lunwensci.com)
摘要:大数据时代最深刻的思维变革是从追求因果关系转向关注相关关系,但关注相关关系并非就要否定因果关系。重新厘清因果关系和相关关系之间的关系是大数据时代的核心问题。对这一问题的解决需要我们重构因果关系,这种重构可以通过:首先,引入因素概念改造原因概念,进而发现大数据时代因果关系和相关关系在外在关系上是相互补充的;其次,建构新的因果阶梯模型,进而在内在关系上从相关关系走向因果关系。
关键词:大数据,相关关系,因果关系
由于通信技术的高速发展,大数据时代已经来临。在大数据时代,人们的日常生活信息,如微博的浏览记录,抖音的点赞信息,淘宝的个人历史购买清单,高德的实时地址信息等均已经作为个人数据被大数据公司所分析。人们的思维方式在大数据时代也受到巨大冲击,从追求“为什么”转向关注“是什么”。因果关系在相关关系巨大的冲击下是否已经丧失了意义?因果关系和相关关系两者之间的关系是什么?这些都是我们目前所面临的问题。
一、大数据
“大数据”是一个发展着的概念,其最早可以追溯到《第三次浪潮》这部由阿尔文·托夫在上世纪80年代所著的书中。大数据研究中最关键的问题是“大数据究竟是什么?”。关于这一问题,学者对此颇有争议。国外学者舍恩伯格在其《大数据时代》一书中为大数据下的定义是:“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的”。[1]中国的学者也在大数据进入中国后对其概念展开了研究。邬贺铨教授认为:“大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。”[2]李国杰教授指出:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”[3]。黄欣荣教授总结说:“虽然目前大数据没有统一的定义,但基本上都从数据规模、处理工具、利用价值三个方面来进行界定。”[4]总之,从上述定义来看,正如黄欣荣教授所说,主要从体量、速度和价值三个方面来定义大数据,这已然符合数据定义中的“3V”原则。
虽然大数据发展至今依然没有明确的定义,不过“5V”原则已经成为业界衡量一个数据集合能否成为大数据的标准。2001年,道格?莱尼首次提出衡量大数据的“3V”原则,即体量、速度与多样性。2011年,国际数据公司(IDC)在其发布的报告中,在大数据传统“3V”特征的基础上增加了一个新特征:Value(价值),从而形成“4V”特征。随着大数据的发展,学界在4V原则之上又加上真实性(Veracity)演变成“5V”原则。因此,“5V”就是指体量、速度、多样、价值和真实。
第一,体量是针对数据规模而言的,是指大数据的数据规模巨大;第二,速度是对于传输工具而言的,指数据的收集、分析和传输速度快;第三,多样性是针对数据类型而言的,小数据时代的数据基本都是统一和标准化的结构化数据,而大数据时代的数据类型丰富多样,其相较结构化数据而言更多的是非结构化数据。第四,价值是对于数据集合的运用而言的,这种运用价值主要包含两个方面:价值密度低和商业价值高。大数据的规模巨大,但对研究对象来说,真正有价值的数据相较数据集合来说非常少,因此被称为价值密度低。商业价值高是指这些从海量数据中所抽取的的有价值的数据在模型中分析起来却有着很好的预测效果,因而可以发挥巨大的商业价值。第五,真实性是对涉及数据的精度和无差错程度。因此,数据集合需要满足规模巨大、数据类型丰富多样、数据采集、存储、处理和传输速度快,时效高且能发现重大价值才能成为大数据。
二、相关关系兴起,因果关系遭遇挑战
维克托·舍恩伯格指出大数据时代思维发生三大变革:“首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,我们乐于接受数据的纷繁复杂,而不再追求精确性;最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。”[1]在这三个重大思维变革中,学界对相关关系和因果关系的关系问题更为关注,并展开了细致的研究。
(一)大数据时代相关关系兴起
维克托·舍恩伯格指出在大数据时代,人们更加重视相关关系,也就是说我们没必要知道“为什么”,只需要知道“是什么”。为什么会发生这种现象的转变?
首先,数据概念本身发生了变化。在小数据时代,数据基本都是结构化数据,追求统一和标准化,强调因果联系。而在大数据时代,数据的类型大多是非结构化,甚至是无结构化数据,比如人们的博客信息,朋友圈文案等。因此,我们很难再像小数据时代那样发现数据之间的因果联系,因此我们更关注相关关系。
其次,数据收集技术本身得到了高速发展。数据收集技术的发展使得现代收集的数据不再是一种静态的数据,而是一种动态和实时的数据。在小数据时代,我们做实验一般是先假A和B之间有联系,然后设置对照组,排除干扰变量,最终力图证明A与B的因果关系,这种实验本身所依赖的数据收集方法是人工收集。由于人工收集的局限性导致用于分析的数据本身是静态的,而这种数据本身的静态性又往往导致实验结果存在滞后性。因此,商业公司、政府部门、实验机构等在大数据时代再去通过这种复杂且耗费巨大的因果关系模型去预测未来发展趋势将变得低效和无意义。在大数据时代,比起因果关系,我们更应该关注一种动态的相关关系。
(二)因果关系遭到严重挑战
牛顿经典力学的诞生使一种建立在必然性因果关系基础上的决定论世界观深入人心。这种世界观认为给定一个初始状态,也就严格规定了其他任一时刻的状态。拉普拉斯把牛顿的定律拓展到整个宇宙唯一根本的规律,宇宙在某一时刻的运动状态是由之前的一个初始状态决定的。霍布斯用机械运动解释因果关系,认为世界本身是一个必然的因果链条,世界只有必然性,不存在偶然性。休谟对这种必然性的因果关系产生了怀疑,其认为在经验世界中,原因与结果之间并没有一种必然的联系,而是一种习惯的联想,即我们总是看到A发生之后跟着B,因此我们看到A发生的时候就会自然联想到B的发生。休谟对因果关系的怀疑,使经验论和唯理论都走入了死胡同,进而动摇了知识的根基。康德试图把必然性因果关系推向先验的阐明得以重新构建了决定论因果关系,进而再次稳固了哲学和科学的认识论根基。
而在人们刚拨开迷雾,对重新证实决定论因果关系感到欢欣雀跃之时,20世纪量子力学的发展却对因果关系发出了新的诘难。在量子力学的挑战下,建立在经典力学基础上的决定论因果关系被动摇了,非决定论因果关系进而凸显出来。在量子力学的世界中,波粒二象性的发现使我们发现世界并非二元的,因此我们要跨越非此即彼的二元思维。量子纠缠告诉我们原因和结果并非是线性的、确定的,而是彼此纠缠在一起的。海森堡的不确定性原理则说明量子力学世界中,初始状态受到主客体之间关系的影响因而造成因果关系不具有一种必然性。总之,虽然量子理学没有能够动摇必然性因果关系的根基,但至少表明这种建立在必然性基础上的因果律已部分失效。
随着大数据时代的到来,因果关系遭到了更为严重的挑战。其中,最严重的挑战是“理论的消失”。克里斯?安德森强调“数据爆炸使得科学的研究方法都落伍了”。[1]大数据使得无需理论指导的相关关系将完全取代传统的因果认识方法,最终宣告“理论的终结”。虽然安德森关于“理论之死”的言辞过于激进,但却值得深思。大数据究竟像安德森所说的只需关注数据还是需要因果联系?一切认为大数据不要成形的理念,不需要建立在因果关系基础上是荒谬的,“理论之死”的论断只是强调我们应该走出传统的、固定的的思维模式,进而真正认识相关关系和因果关系的本质联系,得到更多的理论洞见。
三、因果关系与相关关系之辩
传统的因果关系一般被理解为两个事件之间具有时间顺序的作用关系,其中后一事件被认为是前一事件的确定性的结果。这种因果关系也被称为因果决定论。因果决定论包含两方面的内容。第一,因果关系具有普遍性,即任何一件事情的发生都有一定的原因,而且任一事件发生都会引起一定的结果;第二,因果关系具有必然性,即作为原因的那个事件一经发生就一定会引起确定的结果。相关关系则是需要量化两个事件之间的数理关系,并且两个值之间是一种非确定性的依存关系。相关关系只是说明两个事件之间具有一种或然的联系,这种联系建立在概率和统计的基础上。
(一)外在关系:因果关系与相关关系相互补充
实际上,相关关系和因果关系的关系由于两者概念的不确定性显得具有很强的复杂性。在现实生活中,我们关于相关关系和因果关系的区别更多是一种直觉上的区别,因此,王天思老师认为:“我们应该重新刻画因果观念,然后我们就可以看到相关关系如何飞跃到因果关系。”[5]重新刻画因果关系首要的就是反思传统因果概念。在传统的决定论因果概念中,原因只是一个原子式的、静态的存在,这导致我们在大数据时代用这种原子式的因果关系理解世界时将导致机械决定论,而这种世界观在大数据时代已经被证明不能理解全部现象。
重新刻画因果关系的重要方法就是引入因素。国内学界第一次把因素引入原因是在王天思教授于1993年所作的《原因是因素的相互作用过程》一文中[6]。在引入因素后,要想重构因果关系,需要区分原因和因素。原因是因素间的相互作用。也就是说,原因是大量因素构成的物质系统,并且因素之间存在着复杂的相互作用关系。因此,偶然的、不确定的因素在原因总是大量存在的。当偶然因素影响较小时,我们可以忽略不计,而当偶然性因素干扰大时,因果关系就不能足以说明两个事件之间的情况,此时就需要借助于相关关系。相关关系以偶然性为前提,它只说明两个事件之间发生的概率,而不说明其背后产生的原因。而因果观念中,我们只考虑过程的内在必然性,而不考虑偶然因素对结果的影响。因此,在大数据时代,因果关系和相关关系不是互相取代的关系而是相互补充的关系。在现象世界中,实际的因果运动总是必然性和偶然性的统一,因此在绝大多数情况下,把两种关系结合起来才能刻画实际的运动过程。
(二)内在关系:相关关系应走向因果关系
大数据时代最严重的问题就是“数据的独裁”,亦即通过数据的搜集,基于相关关系进行分析从而主宰人的生活,而解决这一问题的方法并非只是防止其误用,而是应该从根本上挖掘数据背后的因果关系。在大数据时代,因果必然性并没有因为相关关系的产生而受到动摇,因果关系依然是实在的,是人类理性和科学的基础。因果关系和相关关系在大数据时代纵然是外在关系上的互相补充,但从更深层次的内在关系出发,则需要从相关关系走向因果关系。因为只有这样,我们才不会丧失人类意识对人工智能的优越性。正如朱迪亚·珀尔指出,因果推理是人类的根本能力,人类必须从相关关系走向因果关系。
我们想要从相关关系走向因果关系需要从更深层次重构因果关系。朱迪亚·珀尔指出因果关系包含关联、干预和反事实三个层次。首先,处于因果关系之梯第一层级的是“关联”,其对应的是客观现象世界,在这一世界中需要我们运用观察能力来发现因果规律。其次,在人类的实践领域,当我们开始需要改变世界之时,就需强调行动能力,通过预测采取某种行动会对结果造成的改变。最后,反事实层级,这一层次对应的是逻辑世界,即回到过去改变现状。因果关系之梯的发展实际上是相关关系逐渐发展到因果关系的过程,在这个过程中需要数据作为支撑,最高等级的因果联系是逻辑上的演绎推理。
总之,大数据时代的到来给人的思维、生活方式等都带来了翻天覆地的变化。在这些变化中,对人们冲击最大的就是要脱离传统的认知框架去重新理解因果关系和相关关系。在大数据时代,我们不再仅局限于追求决定论的因果联系,而是接受因果关系和相关关系的辩证统一。最终,我们通过重构因果关系从相关关系发展到因果关系,进而发展人的认识能力,这将把人类导向一个更崭新的未来。
参考文献:
[1]舍恩伯格,库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[2]邻贺铨.大数据时代的机遇与挑战[J].求是,2013(04)
[3]李国杰.大数据成为信息科技新关注点[J].硅谷,2012(13)
[4]黄欣荣.大数据的语义、特征与本质[J].长沙理工大学学报(社会科学版),2015(06)
[5]王天思.大数据中的因果关系及其哲学内涵[J].中国社会科学,2016(05)
[6]王天思.原因是因素的相互作用过程[J].争鸣,1993(06)
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网! 文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jingjilunwen/77208.html