64、关联与因果
自然科学家们让我们相信,世界是遵从因果律的,事物按照因果关系在时空中不断演化,通过求解满足因果律的演化方程,就可以具有预测未来的能力。这种方法在牛顿、麦克斯韦、爱因斯坦、薛定谔等人的努力下深入人心,取得了丰富的成果,因果性思维也逐渐被越来越多的人们理解和接受。但是因果关系往往深深的隐藏在事物表象的深处,没有发达的头脑、深邃的直觉与好的运气是很难发现的。为了发现事物之间的因果联系,一般需要付出极高的成本,而且目前发现的一些纯粹的因果联系往往只局限在自然科学的较小领域内,因此因果思维也有它固有的一些缺点。
人们寻找事物之间因果联系的目的,往往是为了对未来或未知进行预测,而我们能够应用的也仅仅是一些通过感官或仪器收集并记录的一些数据。随着数据的不断积累,数据形式也发生了很大的变化,除了传统的数字外,文字、图像、视频、位置信息、网页的点击率等等都属于数据的范畴,而传统的因果分析法在新型数据面前也有些力不从心。好在我们找到了一种新的思维方式,不需要事物之间的因果联系也可以具有预测未来与未知的能力,这就是事物之间的关联。
古埃及人发现,当天狼星与太阳同时升起的时候,尼罗河水开始泛滥,当河水退去后,留下的肥沃污泥可用于耕作,因此把这一天作为新年第一天,并编制了相应的历法。这实际上是一种利用关联来预言事物的典型例子。托勒密的本轮和均轮与天体的运动同样没有因果联系,但是以此为基础编制的历法却在应用了1500年之后,也仅仅产生了10天的误差。从现代的观点来看,托勒密的工作更像是数据拟合,也就是依据数据之间的相关性建立模型并预测未来。当北斗七星出现在北方天空,其斗柄指向东方时,说明春天到来了。与季节有因果联系的是黄赤交角和地球相对太阳的位置,而与星星的位置无关,但是这种没有因果联系的位置关系却可以预测季节的到来。从中我们可以看到关联预测的力量。
随着计算机与互联网的兴起,网络上的数据也越来越多,通过寻找数据之间的因果联系来做出预测变得越来越困难,因此通过数据之间的相关性进行预测就变得更加重要。依据数据之间的相关性不仅可以处理传统的数据,还可以应用于文本、图片、视频等新型数据,扩展了人们的预言能力。通过搜索引擎寻找答案应用的也是数据之间的关联,可以在只知道某些片段的情况下搜索出整篇文章。当我们想寻找很久以前看过的一篇文章时,只需要输入残存在记忆中的只言片语,就可以找到它。而像最近兴起的语音识别、图像识别、机器翻译等应用,都是通过数据间的联系才取得显著突破的。数据之间往往会存在一些统计上的关联,就像“你好”这样的词,当第一个字是“你”的时候,与之相关联的字虽然虽然有很多,但是这些字拥有不同的概率,而“好”字相比一个生僻字显然有更高的概率,结合文章的语境,我们甚至可以大致预测出这下一个字会是什么。
通过关联预测未来不同于因果方法,当我们用因果进行预测时,需要知道的是事物之间的因果联系甚至演化方程,只需要很少的作为初始条件的数据就可以进行,而预言结果的准确程度主要受制于干扰和体系的抗干扰能力。但是通过数据之间的相关性预测结果需要大量的数据,当数据量较大时,才能应用数据拟合的方式建立数学模型,从而针对新的数据预言结果。在古代,大量的数据一般来自天文学等领域,出现像托勒密模型这样的体系也就不奇怪了。而如今,大量的数据主要来自互联网或移动互联网用户产生的数据,通过这些数据,我们就可以建立数学模型,预测用户的行为。这显然会对商业有帮助,通过分析用户的兴趣、喜好以及不同年龄段或不同季节的购物习惯可以有针对性的向用户提供商品信息,这比铺天盖地的大众式广告效果好多了。
在用相关性预测未知事件的过程中,事件出现的周期性会对预测行为具有重要的帮助作用。古人通过天文观测数据编制历法就是应用周期性的一个例子。当古人们每天看到太阳从东边升起,尽管当时可能不知道它的真正原因,但人们仍然可以预测明天的太阳也会从东方升起。通过月相变化的周期以及星星在天空中出现的位置变化周期就可以编制出实用而精确的历法,因此,如果数据在过去存在某种周期性的节律,那么在未来很可能会继续延续这种周期。如今,我们可以通过数据的相关性以及周期性寻找信息,预测未来。通过对信息周期性的把握,可以很明显的感受到周期在日常生活中的作用。当我们搜索关键词“高考”时,它的趋势每年都会有一个挨的很近的双峰,第一个峰对应的时间是高考时,第二个是查分时。如果输入“中考”、“考研”、“公务员”等则会发现每年考试的时候都会有一个很高的搜索高峰。通过信息出现的周期性可以用来寻找商机,而利用历史趋势预测未来也是一种不错的选择。
当我们面对大量的数据时,从错综复杂的数据网络中寻找因果联系往往是可遇不可求的事情,除非我们拥有开普勒、牛顿或爱因斯坦的智商或运气,否则我们往往只能退而求其次,通过数据间的关联应用类似数据拟合的方式进行预测。也就是说,当我们不知道地球在绕着太阳转的时候,通过类似托勒密的方法也可以足够精确的预测未来。