在西蒙斯的交易活动过程中,复杂的统计技术比如数据挖掘等占据非常重要的地位。数据挖掘就是指从大量数据中提取有用信息和知识的技术。西蒙斯聘请了大量的IBM实验室机器翻译研究小组人员。大家都知道,数据挖掘在自然语言处理(包括机器翻译)领域具有很多成功的应用。该领域中的专家的专长表现在两个方面:对多种数据挖掘算法和海量数据的处理非常熟悉。而这两种技能的结合也正好符合投资领域的要求,有人质疑文艺复兴科技公司用语音识别技术去分析交易所的噪声信号,这完全是没有道理的。其实,语言就是交易员情绪的反应,语言揭示的信息最终依然表现为交易活动。更何况交易员可能言不由衷,然而交易数据却是客观的。既然交易活动能够从交易数据上观察到,还有必要去分析充满噪声以及欺骗性的语言信号吗?
如下就是西蒙斯数据挖掘技术的应用方法。
(1)遗传规划(GP)。遗传规划以及遗传算法都是进化算法中的一员。进化算法指的是根据达尔文进化思想发展起来的一系列算法,这里面非常重要的就是遗传算法。遗传算法运用染色体来表示问题的一个可行解。染色体运用一定长度的二进制或者十进制编码串来表示。父代染色体通过遗传操作如交叉和变异等形成子代染色体,经由一定代数的进化所获得的最优染色体也就是问题的最优解。遗传规划就是在遗传算法基础上而产生的一种技术。它不如遗传算法那样运用固定长度的染色体编码方式,而是使用树结构来表示解空间。遗传操作是在树结构上进行的。在证券交易领域中,遗传规划通常用以寻找最优交易规则的技术。比如,交易策略往往由入市规则和退场规则所组成。不管是入市规则还是退场规则都有很多的备选规则可用,比如,很多的技术交易策略都能够当作入市规则和退场规则。最大的问题就是如何找出两者的最优组合呢?这就要借助遗传规划技术。
(2)隐含马尔可夫模型(HMM)。隐含马尔可夫模型实际上就是一个数学模型,一直以来被当作是实现迅速、精确的语音识别系统的最成功的方法。复杂的语音识别问题就是通过隐含马尔可夫模型可以很简单地被表述和解决。隐含马尔可夫模到就是描述一个由状态序列以及信号序列组成的随机系统:投资者能够观察到信号,然而决定信号的状态序列却观察不到;同时状态序列就是一个马尔可夫过程。这则是隐含马尔可夫模型名字的由来。对于从信号序列中学习HMM的参数并且推测状态序列,很有名的鲍姆-威尔士算法和Viterbi算法能够运用。这两种算法是信息科学领域中非常有名的算法之一,在股票市场上获得非常广泛应用。比如说,如果股票价格的涨跌是由市场心理控制的。股票价格就是信号,市场心理则是观测不到的状态。股票价格和市场心理所组成的系统便构成了一个隐含马尔可夫模型。通过上面算法就能够通过股票价格来推断和预测市场心理。
特别指出的是,鲍姆-威尔士算法的发明人之一——里昂纳多·鲍姆曾经为西蒙斯开发过交易模型。鲍姆-威尔士算法,能够确定某种不可确知的变量出现的概率。从统计的角度来看,交易是能够套利的。西蒙斯当初运用鲍姆的算法。
(3)条件最大熵模型(CMEM)。最大嫡原理就是指在一定的约束条件之下,很可能出现的概率分布是熵最大的分布。条件最大嫡模型。是最大熵原理在分类问题中的运用。很多分类问题可以描述这些:估计目标类别x在一定上下文y中产生的概率,即为(|)xy。在证券分析当中,上下文往往会包括证券的历史交易信息,比如证券历史价格、成交量历史类别信息等,证券价格资料通常包含关于x与y的一些共同出现信息,然而由于关于y的信息往往总是比较稀少的,因此对于所有可能的(,)xy对,完全精确确定(|)pxy是做不到的。条件最大熵模型根据、与y的统计特征,估计熵最大的概率模型为(|)pxy。可以举一个例子来说明。交易者要预测明天股票价格的涨跌情况。从历史数据中就能够知道,有成千4HMM就是图模型中的一类。图模型在证券预测中获得大量的应用。
特别指出的是。求解条件最大熵模型的IIS算法的发明人之一就是德拉·皮耶特拉兄弟,他们曾经就职于西蒙斯的公司。
上面这三种模型在证券领域具有广泛的应用,然而它们都有替代品。隐含马尔可夫模型与条件最大熵模型均是贝叶斯网技术中的一员,遗传规划也能够用进化算法中的其他算法来代替。
总的来说,证券领域为大量的数据挖掘算法提供了试验场。众所周知,生物信息学领域和自然语言领域都是数据挖掘技术具有广泛应用的领域。