前面已经说过,在交易过程中,西蒙斯发现许多价格的变化是有规律可循的,他曾这样说:“有的价格的走势不完全是随机的。这就是说很有可能通过一定的方法来进行预测。一是数学模型减少你的投资风险;二是数学模型减少你每天所要承受的各种心理压力。”
或许,后面一点更加重要。那就是西蒙斯运用的模型。依据上面资料,西蒙斯的模型就是处理复杂系统的模型。并且这个模型可以被学习语音识别的员工来理解和完善。
那时候最早改进最大嫡模型算法的就是西蒙斯的员工德拉·皮耶特拉兄弟。他们在20世纪90年代初离开IBM之后,便退出了学术界,到证券市场大显身手。他们兄弟两人与很多IBM语音识别的同事一起来到了一家当时还不大,然而目前却是世界上最成功对冲基金公司——文艺复兴科技公司。大家都知道,决定股票涨落的因素可能有几十种甚至上百种原因,而最大嫡方法正好能够找出一个同时满足成千上万种不同条件的模型。德拉·皮耶特拉兄弟等科学家在这里,利用最大嫡模型以及其他先进的数学工具对股票预测,取得了很大的成功。为此,下而介绍什么是最大熵模型和最大熵原理。
1.最大熵模型
西蒙斯的大奖章基金的主要策略是最大熵模型,或是说其中一个部分最重要的模型是最大熵模型,据公开的资料,德宁加皮耶特拉兄弟后来是这个基金的负责人,山此推测,大奖章基金的主策略就是最大嫡模型。
那么这个模型起到什么作用的呢?是否用以识别交易场内的操盘手来推测下一步的买卖动向呢?
最大嫡原理是这样指出的:当投资者需要对一个随机事件的概率分布进行预测的时候,投资者的预测必须满足全部已知的条件,而对未知的情况不要作出任何主观假设。在此情况下,概率分布是最均匀的。预测的风险是最小的。由于这时概率分布的信息熵最大,因此人们称这种模型为“最大嫡模型”。
最大嫡模型会输出每个规则的权重,对规则进行指数加权就能够用以预测。
对于自然语言处理中的各种模型而言,尽管最大嫡模型是一种在形式上非常简单,然而在实践上却是非常复杂的模型最大熵模型指的是在满足已知条件的情况下,求出让熵最大的概率模型。说起来比较简单,事实上要求这个上最大的概率模型,计算量非常大,所以必须经过仔细设计细节。
最大熵模型最大的难点就是在于特征的选择和参数估计。其中特征选择必须经过很多次迭代,在迭代的过程中渐渐对参数加以估计。在最大熵模型参数的计算过程当中,由于把特征作为已知,所以必须对已知情况进行计算,而这种计算则是最大似然概率估计算法的特长。
2.最大熵原理
大家经常说,不要将所有的鸡蛋放在一个篮子里,实际上就是最大熵原理的一个朴素的说法,由于当人们遇到不确定性的时候,就要保留各种各样的可能性。
在投资的时候通常说不要将所有的鸡蛋放在一个篮子里,这样能够降低风险。在信息处理当中,该原理同样也适用。在数学上,该原理称为最大熵原理。
最大熵原理于1957年是由E.T.Jaynes,所提出的,它的主要思想就是,在仅仅掌握关于未知分布的部分知识的时候,必须选择符合这些知识而熵值最大的概率分布。由于在此情况下,符合已知知识的概率分布可能不止一个。由于熵定义的实际上就是一个随机变量的不确定性,熵最大时,表示随机变量最不确定。也就是说,随机变量是最随机,对它的行为作出准确预测是非常困难的。
从这个意义上来说,则最大嫡原理实际上就是,在已知部分知识的前提条件下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是投资者能够作出的唯一不偏不倚的选择,任何其他的选择都意味着投资者增加了其他的约柬与假设,这些约束与假设按照投资者掌握的信息很难作出。
“最大嫡”听起来十分深奥,然而其原理却非常简单,投资者每夭都在用。简单地说,就是必须要保留全部的不确定性,把风险降低到放低。
在金融理论之中,有一个相同的教训就是,为了减少风险,投资必须多样化,不要将所有的鸡蛋都放在一个篮子里。
最大熵原理就是如上一个综合信息的工具。用鸡蛋和篮子的问题来说,事前投资者不了解哪个篮子里面可能有鸡蛋孵化器,哪个篮子很有可能被石头所击中,因此投资者不会将所有的鸡蛋放在同一个篮子里,而是在每个篮子里面均放一些。如此做法,错误预测哪个篮子里面的鸡蛋能够变成小鸡的风险最小。然而,假如投资者对其中的一些篮子的情况了解稍微多一些,那么投资者就可以对篮子里面的鸡蛋分布略进行调整,投资者认为很好的篮子里面可以多放两个蛋,很可疑的篮子里面则少放两个蛋。
举了这么一个例子来说明。对一个均匀的骰子,它每个面朝上的概率分别是多少呢?大多数人都会说是1/6。这种“猜测”当然是正确的,由于对这个“一无所知”的骰子,如果它每一个朝上概率均等是最安全的做法,你不要假设它被做了手脚。从信息论的角度来说,就是要保留最大的不确定性,使得熵达到最大化。从投资的角度来看,这则是风险最小的做法。然而,假如这个骰子被灌过铅,己知四点朝上的概率为1/3,在此情况下,每个面朝上的概率是多少?其实,按照简单的条件概率计算,除去四点的概率为1/3外。其余的概率都为2/150换言之。除已知的条件(四点概率是1/3)必须满足外,对其他各点的概率。人们依然无法知道,也只好认为它们是相等的。这种根据直觉的猜侧之所以准确,是由于它恰好符合了最大熵原理。
总的来说,我们了解的信息,我们运用我们现在不了解的信息,我们假设一切都有可能。这则是最大熵原理。