西蒙斯的成功之处在于:他有一个精通数据挖掘技术的团队。在市场无效率的地方进行数据挖掘,不仅能够针对高频数据或低频数据,而且也能够针对成熟市场或者新兴市场。西蒙斯的长处就是掌握了观察市场的正确方法。市场并非处处是有效的。市场是否有效则是市场参与者竞争的结果。市场参与者的行为是具有偏差的,个体的偏差有的时候会造成集体的偏差,这种偏差进而产生套利机会。而高频金融数据就是提供了观察这些偏差与市场的机会。
那么,什么是高频数据?
20世纪90年代以前,大家对金融时间序列的研究都是针对日、周、月、季度和年度数据进行的,这种金融数据在金融计量学研究领域往往称为低频数据。
最近以来,随着计算工具以及计算方法的发展,大大地减少了数据记录和存储的成本,从而对更高频率的金融数据进行研究成为可能。
在金融市场当中,高频率采集的数据可分为:高频数据(high frequency data)和超高频数据(ultra high frequency data)这两大类。
(1)高频数据。高频数据指的是以小时、分钟以及秒为采集频率的数据。高颇数据实际上就是日内数锯,指的是在开盘时间和收盘时间之间进行抽样的交易数据,主要基于以小时、分钟甚至秒为抽样频率的、按照时间顺序排列的时间序列。
(2)超高频数据。超高频数据指的是交易过程中实时采集的数据。
高频数据与超高频数据之间有最大的差异,主要的差异在于:高频数据是等时间间隔的,超高频数据的时间间隔是时变的。
通常来说,金融市场上的信息会对证券市场价格运动产生连续的影响。数据的离散采集一定会导致信息不同程度的缺失。采集数据频率越高,信息丢失越少;相反地,信息丢失越多。
从大数据和数据的角度来说,金融市场主要是两种数据:结构性的数据和非结构性的数据。结构性的数据比较好理解,比如你在市场上购买黄瓜.黄瓜定价为1元钱,或者2元钱,这个“1”或者“2"为一个结构性的数据。假设你买入一只股票,这个股票是9元钱一股,或者24元钱一股,这个是结构性数据。
因此。从这个角度来讲,最近几年以来随着收集数据能力的进步,比如人们通常所讲的高频数据。过去大家能看到的是一天的数据,比如第一天的A价为多少,第二天的A价为多少,或是开盘价等,几个数据大家能够看到。当前你必须知道,大家现在所看的数据,每间隔可以达到为五秒,这个数据仅仅在一天里就是巨大的。随着科学信息技术的进步,可能大家比5秒以下单位的数据更容易涉及。将来对这种数据的运用,目前金融界都知道,对高频数据的运用和开发,大家已经认识到威力是非常大的,也能够带来巨大的投资收益。比如。西蒙斯所做高频收益的套利和做高频数据的配对交易等。他已经获得很好的收益。
西蒙斯偏好的是根据数据挖掘而制定交易策略。20世纪90年代中期,很多交易所开始提供高频金融数据。交易者在支付一定的费用之后,指令册数据以及订单流数据均可以得到。实际上,这就是金融市场微结构领域研究开始发展的时期。研究发现价格并非实时反映信息,信息融入价格必然要有一个过程。然而人们高频时间框架下对金融市场的运行规律并不太了解。实际上这个领域成了西蒙斯的蓝海。
大家推测,通过手下精通数据挖掘技术的团队。经过对指令册数据以订单流数据的大规模数据挖掘,西蒙斯在该领域中找出了许多成功的交易策略。只要有了备选交易策略集合,投资者就能够筛选出有效的交易策略。有效的交易策略可以在一定程度上对市场的将来行为进行准确预测。
数据挖掘通常的方法就是交叉验证,即把数据划分为建模样本与验证样本。有效的交易策略应当能够在建模样本和验证样本上体现出很好的预测效力。
对于高频数据而言。是因为数据量巨大,所以进行交叉验证非常容易。对于低频数据来说,通常需要在一套数据上进行模型的开发与验证。这便涉及数据窥探问题。
在一套数据上对大量的交易策略进行测试的时候,出于随机性不可避免会有某一些规则表现较好。比如,假如交易策略全体的分布服从正态分布,那么将会有5%的策略的绩效高于平均绩效1.65个标准差,有1%的策略的绩效比平均绩效2.33个标准差要高,等等。如果投资者认为绩效高于平均缔效2.33个标准差的策略就是有预测力的策略(优异策略)。若测试1000条策略,尽管出于随机性也会有10条规则会被当成优异策略。之所以会产生这种情况,是由于共用一套数据检验的时候,除第一条策略以外的策略“窥探”了数据导致的。有两个很有名的统计检验能够用来控制数据窥探偏差:真实性检验(White, 2000)以及优异预测能力检验(Hanson, 2005)。这两个检验的最重要思想是,假如一个交易策略集合中的最优规则是真正有预测能力的,那么它的回报一定要比随机情况下该策略集合可能带来的最大回报来得大。至于控制数据窥探偏差的重要性,西蒙斯的团队有可能运用了上面所说检验及其替代方法。