基于机器学习的股票交易时机研究

基金投资基本知识-徐若瑄年轻照片

2021年8月23日发(作者:顺丰阿里)




资料范本



本资料为word版本,可以直接编辑和打印,感谢您的下载


基于机器学习的股票交易时机
研究



地点:__________________

时间:__________________


说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与
义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时
请详细阅读内容


毕业设计(论文)
题 目 基于机器学习的股票交易时机研究
专 业 信息与计算科学
班 级 2006 级 1 班
学 生 佘 开 勇
指导教师 韩 逢 庆
重庆交通大学
2010 年 6 月
目 录
TOC o 摘 要
PAGEREF _Toc4 h I
HYPERLINK l = 2 * ROMAN II
PAGEREF HYPERLINK l 第一章 前 言
_Toc6 h 1
HYPERLINK l 研究背景
_Toc7 h 1
PAGEREF
HYPERLINK l 股市预测的发展概况 PAGEREF
_Toc8 h 1
HYPERLINK l 支持向量机简介
_Toc9 h 3
HYPERLINK l 本文的主要内容
_Toc0 h 3
HYPERLINK l 第二章 股市知识的准备 PAGEREF
_Toc1 h 5
HYPERLINK l 引言
_Toc2 h 5
PAGEREF
PAGEREF
PAGEREF


HYPERLINK l 我国股票市场的发展
PAGEREF _Toc3 h 5
HYPERLINK l 进行股票投资分析的必要性
PAGEREF _Toc4 h 6
HYPERLINK l 股票的相关知识

PAGEREF
_Toc5 h 6
HYPERLINK l
_Toc6 h 7
HYPERLINK l
PAGEREF _Toc7 h 7
HYPERLINK l
_Toc8 h 9
HYPERLINK l
_Toc9 h 9
HYPERLINK l
PAGEREF _Toc0 h 12
HYPERLINK l
_Toc1 h 12
HYPERLINK l
_Toc2 h 12
HYPERLINK l
_Toc3 h 12
HYPERLINK l
_Toc4 h 12
HYPERLINK l
_Toc5 h 13
股票常用术语 PAGEREF
股票价值和股票指数
企业财务指标 PAGEREF
股市技术指标简介 PAGEREF
第三章 股市预测问题研究方法
引言 PAGEREF
投资分析法 PAGEREF
技术分析法 PAGEREF
基本面分析法 PAGEREF
组合分析法 PAGEREF


HYPERLINK l 时间序列分析法
_Toc6 h 13
HYPERLINK l 模型简介
_Toc7 h 14
HYPERLINK l 非线性系统分析法
_Toc8 h 14
PAGEREF
PAGEREF
PAGEREF
HYPERLINK l 神经网络预测方法概述
PAGEREF _Toc9 h 14

HYPERLINK l 多层前馈神经网络(BP网络)
PAGEREF _Toc0 h 15
HYPERLINK l 第四章 统计学习理论与支持向量机
PAGEREF _Toc1 h 17
HYPERLINK l 理论背景
_Toc2 h 17
HYPERLINK l 机器学习分类
_Toc3 h 17
HYPERLINK l 机器学习存在的基本问题
PAGEREF _Toc4 h 17
HYPERLINK l 统计学习理论 PAGEREF
_Toc5 h 18
HYPERLINK l 维 PAGEREF
_Toc6 h 19
HYPERLINK l 推广性的界 PAGEREF
_Toc7 h 19
HYPERLINK l 结构风险最小化(Structural
Risk Minimization,SRM) PAGEREF _Toc8 h 20
PAGEREF
PAGEREF


HYPERLINK l 支持向量机基本原理 PAGEREF
_Toc9 h 21
HYPERLINK l 基本概念
_Toc0 h 22
HYPERLINK l 线性支持向量机
_Toc1 h 23
HYPERLINK l 非线性支持向量机 PAGEREF
_Toc2 h 25
HYPERLINK l 基于支持向量机的回归分析
PAGEREF _Toc3 h 28
HYPERLINK l 第五章 基于支持向量机的股市预测
PAGEREF _Toc4 h 31
HYPERLINK l 基于支持向量机的股市预测流程
PAGEREF _Toc5 h 31
HYPERLINK l 基于向量机的分析预测工具
Libsvm PAGEREF _Toc6 h 32
PAGEREF
PAGEREF
HYPERLINK l 实际预测结果与数据验证分析
PAGEREF _Toc7 h 33
HYPERLINK l 股票交易时机的确定 PAGEREF
_Toc8 h 38
HYPERLINK l 结束语
_Toc9 h 39
HYPERLINK l 致 谢 PAGEREF _Toc0 h
40
HYPERLINK l 参考文献
_Toc1 h 41
摘 要
PAGEREF
PAGEREF


股票市场是一个复杂的非线性动态系统,但由于传统的预测技术并没有准
确的揭示股票市场的内在规律,导致最终的预测结果并不十分理想。

本文采用
了支持向量机的方法对股市进行预测。


支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学
习问题的新工具。

特别是近年来支持向量机在回归算法的研究方面也表现了极
好的性能,但是将其应用到股市预测中却并不多。


本文介绍了股市的相关背景知识,然后对股市里的常用术语作了介绍以及
对传统的股市预测的方法进行了介绍,特别详细介绍了基于神经网络的预测方
法。

接着全面介绍了统计学习理论和建立在其上的支持向量机方法,详细描述
了支持向量机方法的基本原理。


最后,对支持向量机方法用于股市预测问题进行了尝试。

提出了使用支持
向量机的方法进行股市预测的基本流程,然后通过使用实际的股市交易数据进
行预测,在具体股价的预测都表现出很好的效果。


关键词:股票,股市预测,支持向量机,核函数
ABSTRACT
Stock market is a complex non-linear system, and is affected by
many factors. The traditional prediction technologies cannot disclose
the inherent rule of stock market. In this paper, a new prediction
technology based on Support Vector Machine (SVM) has been proposed.
The support vector machine is a data mining new technology; it is
a new tool that draws support the optimized method to solute the
machine learning questions. Specially in recent years, supported the
vector machine also to display the extremely good performance in the
return algorithm research aspect, but applied it the stock market to
forecast certainly were not actually many.
This paper introduce the background knowledge of stock market,
then common terms on the stock market was introduced and traditional
prediction technologies are introduced in detail, especially the


technology based on neural network, and then the basic principles of
SVM are discussed.
Finally, this paper uses SVM to predict the price of stock, and
propose a common framework to solve stock market prediction problems
using SVM. Data from real stock market is used to evaluate the
exactness of the algorithm. Result shows that SVM is an effective
method, and get precise result.
Key Words:Stock, Prediction of Stock market, Support Vector
Machine, Kernel function
第一章 前 言
1.1 研究背景
股票是市场经济的产物,股票的发行和交易促进了市场经济的方展。

自从
股票 1773 年在英国率先发行以来,已有二百多年的历史。

现在已经成为整个
社会经济的“晴雨表”和“报警器”,其对于经济发展的作用不可估量。

随着
股票市场的不断规范壮大和计算机技术的发展,越来越多的人进入到股票交易
市场,也相应产生了很多股票分析和预测系统。

由于股市行情受经济政治等因
素的影响,其内部规律非常复杂,变化周期无序,同时我国资本市场投资者结
构具有特殊性,个人投资者的比例很高,投资者的心里状态不同,对股票交易
的行为会产生直接的影响,导致股价波动。


在信息爆炸的今天,迫切需要一种方法能从大量的数据信息中提取出有用
的信息,数据挖掘技术在这种情况下诞生了。

确切的说, 数据挖掘 (Data
Mining)是指从大型数据仓库中提取出隐含的、未知的、非平凡的及有潜在的
应用价值的信息或者模式,它是数据库研究中一个很有应用价值的新领域,融
合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

在最近
十几年间,成熟的技术和高性能的关系数据库引擎以及广泛的数据集成,使数
据挖掘技术的研究工作取得了很大的发展,各种数据挖掘技术的应用极大的提
高了分析、处理大量数据信息的能力,并为人们的生产生活带来了很大的经济
效益,数据挖掘技术在股市预测中也具有很强的应用价值。


1.2 股市预测的发展概况
预测是指从已知事件测定未知事件。

预测理论作为一种通用的方法论,既
可以应用于研究自然现象,也可以应用于研究社会现象。

将预测理论应用于各
个领域,就产生了预测的各个分支,如人口预测、经济预测、气象预测等等。


在金融经济学的发展上,人们对金融预测作了大量的探索,取得了丰硕的
成果。

典型的金融预测时是时间序列预测。

时间序列是按照时间顺序取得的一
系列观察值。

时间序列的典型特征是相邻观测值之间的依赖性。

为了研究这
种依赖性,人们提出了许多时间序列模型,并对这模型的性质及分析方法进行
了深入的研究。


传统的金融时间序列大致上有两种研究方法,一种方法是从基本的经济原
理出发建立金融时间序列服从的数学模型,像 Markovitz的投资组合理论
[1],资本资产定价模型(CAPM)[1]、套利定价理论(APT)[1]、期权定价模
型[1]等。

实际上,这部分成果就是确定金融时间序列的趋势项。


另一种方法是从统计角度对金融时间序列进行研究。

这种方法直接从实际
数据出发,应用概率统计推断出市场未来的变化规律。

虽然这种方法从经济学
角度来讲缺乏理论性,但是在实际应用中效果较好。

而且,统计方法还可以对
经济模型的好坏进行检验和评价。

二十世纪 80 年代以前,人们对时间序列的
研究主要集中在一种线性模型,即自回归移动平均模型(AutoRegressive
Moving Average Modes,ARMA),这种模型结构简单,有着完善的统计推断技
术,应用非常广泛。

但是 ARMA 模型毕竟是一种线性模型,有些实际现象在模
型中得不到反映。

在这种情况下人们开始提出并研究非线性时间序列,最重要
的就是 在八十年代初提出的自回归条件异方差模型
(AutoRegressive Conditionally Heteroscedastic Models ,ARCH),由于
ARCH模型将方差看作随时间变动的量,而不是一个常量,从某种程度上克服了
线性模型的局限性。

与实际情况更相符,从而得到了广泛的应用。


股市预测,是金融经济预测的一个重要分支。

它对股票市场所反映的各种
资讯进行收集、整理、综合等工作,从股市的历史、现状和规律性出发,运用
科学的方法,对股市未来发展前景进行测定。


股市预测一般基于以下三点假设[2]:
(1) 有效市场假设:指股票市场会对每一条有可能影响股价的信息都会作
出反映,而各种价格的变动正是这种反映的结果。


(2) 供求决定假设:指一切信息都会对股票市场的供求双方力量对比产生
影响,供求决定交易量和交易价格。


(3) 历史相似原则:指由历史资料所概括出来的规律已经包含了未来股票
市场的一切变动趋势。


股市预测按不同的标准可以有不同的分类。

按涉及的范围不同可分为:指
数预测和个股预测;按预测时间长短不同可分为:长期预测、中期预测和短期
预测;按预测方法的不同可分为:定性预测和定量预测等等。


Charles Dow在 1900 年到 1902年,写了一系列的评论来阐述他的市场
观。

Sam Nelson 收集了他的评论并将他的观点发展为市场行为原则,这就是成
为技术分析基础的道氏理论。

Richard Schabacker 第一个将通用图表形态分
类,研究出“缺口”理论,被称作技术分析科学之父。

瑞夫·N·艾略特通过研
究市场波动和循环的形态,提出了“波浪理论”。

W·D·Gann 研究了时间要素
的重要性,提出了“价格时间等价”的概念。

随后,又出现了各种分析方法,
包括 K 线图分析法、柱状图分析法、点数图分析法、移动平均法、形态分析
法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法
等。

这些分析方法主要依赖于图表,图表信息具有明显的直观化优点,但图表
的分析与指标的选择却要依靠主观的判断,这是这些分析方法面临的主要问
题。

由于股票交易的模式和相关信息的复杂性,这样一种严重依靠经验的方
法,其可靠性在很大程度上是要受到质疑的[2]。


从 60 年代开始,人们尝试使用各种时间序列分析方法来预测股市。

在时
间序列分析中,线性模型的研究比较成熟。

但是股市是一个非线性系统,用线
性模型逼近容易丢失有用信息。

为了更确切描述实际系统特性,又发展了阈值
自回归模型、多项式自回归模型和指数自回归模型[3]等,用这些方法对股市进
行建模和预测也取得了比较好的结果。


1.3 支持向量机简介


支持向量机[4-7](support vector machine ,SVM)是数据挖掘中的一项
新技术,是借助于最优化方法解决机器学习问题的新工具。

它最初于20世纪
90年代由Vapnik提出,近些年来在其理论研究和算法实现方面都取得了突破
性进展,并开始成为克服“维数灾难”和“过学习”等传统困难的有利办法,
虽然他还处在飞速发展的阶段,但它的理论基础和实现途径的基本框架已经形
成。

支持向量机目前主要来解决分类问题(模式识别,判别分析)和回归问
题。

支持向量机的最大特点是改变了传统的经验风险最小化原则,而是针对结
构风险最小化原则提出的,因此具有很好的泛化能力。

另外,支持向量机在处
理非线性问题时,首先将非线性问题转化为高维空间中的线性问题,然后用一
个核函数来代替高维空间中的内积运算,从而巧妙地解决了复杂计算问题,并
且有效地克服了维数灾难以及局部极小问题。


尽管支持向量机有以上的优点,但是在金融时间序列预测这方面研究还很
少。

Tay和Cao[8]证明5种金融时间序列数据可以用支持向量机进行预测,并
指出,支持向量机在标准均方误差,均方绝对误差,趋势正确率,加权趋势正
确率标准下优于人工神经网络。

Kyoung-jae Kim用支持向量机对股市指数的运
动趋势进行预测。


1.4 本文的主要内容
股票市场受很多因素影响,变化规律很难把握。

本文采用统计学习理论的
支持向量机方法进行了股市预测问题的研究。

主要完成了以下工作:
(1) 介绍了股市的相关背景知识,并对传统的股市预测问题的研究方法进
行了总结,指出了它们的优缺点。


(2) 介绍了统计学习理论与支持向量机,然后在此基础上提出了通过支持
向量机进行股市预测的具体流程,并使用实际股票交易数据检验了基于支持向
量机的预测方法的实际效果。

实验结果表明,应用支持向量机的方法进行股市
预测具有良好的预测精度。


第二章 股市知识的准备
2.1 引言
2.1.1 我国股票市场的发展


中国的证券市场形成于上个世纪九十年代初期,经过十几年的发展,我国
股票市场已初具规模,股票已成为现代人生活中的一个重要组成部分,股票投
资已成为社会公众谈论的中心之一。

随着我国资本市场的快速发展我国资金融
通的重心已由货币市场逐步向资本市场转移。

越来越多的人把股票投资作为自
己金融资产增值的主要方式。


股市是股票市场的简称,也称为二级市场或次级市场,是股票发行和流通
的场所,也可以说是指对已发行的股票进行买卖和转让的场所。

股票的交易都
是通过股票市场来实现的。

一般地,股票市场可以分为一、二级,一级市场也
称之为股票发行市场,二级市场也称之为股票交易市场。


股票市场是上市公司筹集资金的主要途径之一。

随着商品经济的发展,公
司的规模越来越大,需要大量的长期资本。

而如果单靠公司自身的资本化积
累,是很难满足生产发展的需求的,所以必须从外部筹集资金。

公司筹集长期
资本一般有三种方式:一是向银行借贷;二是发行公司债券;三是发行股票。


前两种方式的利息较高,并且有时间限制,这不仅增加了公司的经营成本,而
且使公司的资本难以稳定,因而有很大的局限性。

而利用发行股票的方式来筹
集资金,则无须还本付息,只需在利润中划拨一部分出来支付红利即可。

把这
三种筹资方式综合比较起来,发行股票的方式无疑是最符合经济原则的,对公
司来说是最有利的。

所以发行股票来筹集资本就成为发展大企业经济的一种重
要形式,而股票交易在整个证券交易中因此而占有相当重要的地位。


我国的沪深股市是从一个地方股市发展而成为全国性的股市的。

在1990年
12月正式营业时,上市的股票数量只有为数很少的几只,其规模很小,且上市
的股票基本上都是上海或深圳的本地股,如上海的老八股中只有一支是异地股
票。

在其后股市的发展中,由于缺乏战略性的考虑,造成了资金的扩容与股票
的扩容不同步,特别是资金扩容,其速度远远快于股票扩容。

在1991年至
1996年的五年间,股市的供求关系极不平衡,这样就造成了股价在最初两年出
现暴涨的局面。


股票市场的变化与整个市场经济的发展是密切相关的,股票市场在市场经
济中始终发挥着经济状况晴雨表的作用。

所谓“牛市”,也称多头市场,指市


场行情普遍看涨,延续时间较长的大升市。

所谓“熊市”,也称空头市场,指
行情普遍看淡,延续时间相对较长的大跌市。


2.1.2 进行股票投资分析的必要性
股票投资具有增值快、风险大的特点,中国股市的这种特点更为突出。


前大多数的股票投资者并不能很好的把握市场的发展规律,对于过量的信息缺
乏筛选、识别的能力,因此对于股票的投资往往是盲目的、非理性的。

进行股
票投资分析的必要性[9]在于:
第一,股票属于风险性资产,其风险由投资者自负,所以每一个投资者在
做每一个决定时都应谨慎行事。

高收益往往伴随着高风险,在从事股票投资
时,为了争取尽可能大的收益,并把可能的风险降到最低限度,首先我们要做
的就是认真进行股票投资分析。


第二,股票投资是一种智慧型投资。

长期投资者要注重于基本方法,短期
投资者则要注重技术分析。

而要在股市上进行投机,更是一种需要高超智慧与
勇气的举动,其关键是把握好时机才去投资。

而时机的把握需要投资者综合运
用自己的知识、理论、技术,信息进行详尽的周密分析,进行科学的决策。


第三,从事股票投资要量力而行,适可而止。


因此,选择适当的投资分析法对股市或个股进行认真分析是能否降低投资
风险,获取投资收益的关键。

我们买卖股票,追求的是投资收益最大化和投资
风险最小化。

但是,影响股票投资收益率和风险的因素很多,其作用机制也相
当复杂。

只有通过认真的、有效的和科学的专业分析,才能客观的把握住这些
因素及其作用机制,做出尽可能准确的走势预测。


2.2 股票的相关知识
股票到底是什么?股票是股份证书的简称,是股份公司为筹集资金而发行
给股东作为持股凭证并借以取得股息和红利的一种有价证券。

每股股票都代表
股东对企业拥有一个基本单位的所有权。

股票是股份公司资本的构成部分,可
以转让、买卖或作价抵押,是资金市场的主要长期信用工具。


股票的作用有三点:(1) 股票是一种出资证明,当一个自然人或法人向股
份有限公司参股投资时,便可获得股票作为出资的凭证;(2) 股票的持有者凭


借股票来证明自己的股东身份,参加股份公司的股东大会,对股份公司的经营
发表意见;(3) 股票持有者凭借股票参加股份发行企业的利润分配,也就是通
常所说的分红,以此获得一定的经济利益。


2.2.1 股票常用术语
(1) 开盘价:开盘价是根据开市前集中竞价形成的。


(2) 收盘价:指每天成交中最后一笔股票的价格,也就是收盘价格。


(3) 最高价:指当日所成交的价格中的最高价位。


(4) 最低价:指当日所成交的价格中的最低价位。


(5) 成交量:股票成交的数量。

手是股票成交的最小单位,一手为100
股。


(6) 成交金额:指用货币表示的股票的成交总量,等于成交价格乘以成交
量。


(7) 涨跌:以每天的收盘价与前一天的收盘价相比较,来决定股票是涨还
是跌。


(8) 压力点、压力线:股票在涨升过程中,到达某一高点(或线)后停止
涨升,此点称为压力点(或压力线)。


(9) 支撑点、支撑线:股价在下跌过程中,到达某一点(或线)后停止下
跌,甚至回升,此点称为支撑点(或支撑线)。


(10) 换手率:也称“周转率”,指在一定时间内市场中股票转手买卖的频
率,是反映股票流通性强弱的指标之一。

计算公式为:某一段时期内的成交量
发行总股数×100% (在我国:成交量流通总股数×100%)。


(11) 市盈率(Price to Earning Ratio,简称PE或PE Ratio):市盈率
是某种股票每股市价与每股盈利的比率。

通常用来作为比较不同价格的股票是
否被高估或者低估的指标。


2.2.2 股票价值和股票指数
从本质上讲,股票仅仅是一种凭证,其作用是用来证明持有人的财产权
利,而不像普通商品一样包含有使用价值,所以股票自身并没有价值,也不可


能有价格。

所以股票是一种虚拟资本,它可以作为一种特殊的商品进入市场流
通转让。

而股票的价值,就是用货币的形式来衡量股票作为获利手段的价值。


所谓获利手段,即凭借着股票,持有人可取得的经济利益。

利益愈大,股票的
价值就愈高。

在股市中股票可根据一定的价格进行交易,单支股票的交易价格
是一个随机变量,同时也受到整个市场行情的影响,逆流而行的股票总是少
数,而且其走势也难以维持长久。


股票价格指数是用以表示多种股票平均价格水平及其变动并衡量股市行情
的指标,例如:道.琼斯股票价格指数,日经指数,香港恒生指数等等。

在股票
市场上,成百上千种股票同时进行交易,各种股票价格各异、价格种类多种多
样,因此,需要有一个总的尺度标准,来衡量股市价格的涨落,观察股票市场
的变化。

用股票价格平均数指标,来衡量整个股票市场总的价格变化,能够比
较正确地反映股票行情的变化和发展趋势。

股票价格指数—般是由一些有影响
的金融机构或金融研究组织编制的,并且定期及时公布。

世界各大金融市场都
编制或参考制造股票价格指数,将一定时间点上成千上万种此起彼落的股票价
格表现为一个综合指标,以代表该股票市场的一定价格水平和变动情况。

股票
价格指数及其变动不但集中反映了股市的投资容量、资金增量、平均股价、股
市升跌等信息,还基本剔除了市场中的投机因素,真实的反映了市场的本来面
目。

股市综合指数包含了所有上市公司的股票,将每支股票的价格及其上市的
股数作为权数加权平均。

而成分指数只选取了股市中各个行业股票里最有代表
性的股票,而非全部。


股票指数的作用在于为股民提供一个衡量股市价值的参考依据,因为买卖
股票是一种投资活动,它的收益和风险并存,为了帮助投资者实现投资增值的
目的,建立正常的股票投资环境,就需要一种能够反映投资发展变化情况的指
标作为依据。

借助股票指数,人们可以观察分析股票市场的发展动态,研究有
关国家和地区的政治、经济发展趋势,拟定投资策略。

为了给投资者创造上述
条件,所有的股市几乎都在股价变化的同时及时公布股票价格指数。


综合指数形式的股票指数,是将所有的上市挂牌的股票都纳入计算指数的
投资组合之中,所以市场上每一只股票价格的变动,都将影响综合指数的变
化,其代表性最好。

但由于综合指数投资组合的权数是上市公司的总股本,当


上市公司的总股本在与其流通量不相一致时,总股本大的股票对股票指数的影
响就较大,如有时股票指数上涨时只有马钢、石化等少数几个大盘谷的价格在
上涨,其它股票几乎基本不动甚至在下跌。


上证综合指数。

上证综合指数是上海证券交易所于1991年7月15日开始
编制和公布的,以1990年12月19日为基期,基期值为100,已全部上市股票
为样本,以股票发行量为权数进行编制。

由于该股票指数的权数为上市公司的
总股本,并且我国上市公司的股票有流通股和非流通股之分,其流通量与总股
本并不一致,所以有时会出现股票指数走势与大部分股票的涨跌相背离。

该指
数的发布几乎与股市行情的变化相同步,是我国股民和证券从业人员研判股票
价格变化的趋势必不可少的参考依据。


成份股形式的股票指数其入选股票数量是恒定的,所选用的权数为股票的
流通量。

由于采用流通量为股票权数所以相对综合指数来数有所进步。

但是由
于入选股票数量有限有时很难贴切反映股市行情的变化。

因此在评价成份指数
时其代表性非常重要。


上证180指数。

上证成份指数(简称上证180)是上海证券交易所所对原
上证30指数进行了调整并更名而成的,是在所有A股股票中抽取最具市场代表
的180种样本股,以2002年6月28日的上证30指数收盘点为为基点,从7月
1日起对外正式发布,每半年有专家委员会调整构成份股。


2.3 企业财务指标
股票价格从长期来看是由其公司的经营和财务状况决定的,研究上市公司
的经营和财务状况,以及发展前景是股票投资的关键环节。

要了解上述状况,
重要的财务指标[10]是必需的。


营业收入: 营业收入是一家公司在某一段内通过生产、销售或提供服务等
方式所取得的总收入。


利润总额:利润总额是一家公司扣住成本和营业税后的剩余,这就是人们
通常所说的盈利,它与营业收入的关系为: 利润总额=营业收入-成本-营业
税。


净利润:净利润是指在利润总额中按规定缴纳的所得税后公司的利润留
成,一般也称为税后利润和净收入。

净利润=利润总额×(1-所得税率),净利
润是一个企业经营的最终成果,净利润多,企业的经营效果就好。


资产总额:资产总额是一家公司进行经营时所能动用的资产总额,包括公
司自有的资产与借贷资产。


净资产:净资产是一家公司的自有资本,对股份公司来说,净资产就是股
东所拥有的财产。


资产负债率:资产负债率是公司的负债在资产总额中所占的百分比。

资产
负债率=公司负债资产总额×100%。


净资产收益率:净资产收益率是单位净资产在某时段的经营中所取得的净
收益。

净资产收益率=净收益/净资产×100%。


2.4 股市技术指标简介
技术分析是许多投资者进行中短期投资主要分析方法,技术指标往往是投
资决策的重要参考。


(1) 平滑异同平均线MACD(Moving Average Convergence Divergence),
是由Gerald Appel首先在Systems And Forecasts一书中发表,主要是利用长
短期的二条平滑平均线,计算两者之间的差离值,作为研判行情买卖之依据。


算法:
DIFF线:收盘价短期、长期指数平滑移动平均线间的差
DEA线:DIFF线的M日指数平滑移动平均线
MACD线 DIFF线与DEA线的差,彩色柱状线
参数:SHORT(短期)、LONG(长期)、M为天数,一般为12、26、9
用法:
① DIFF、DEA均为正,DIFF向上突破DEA,买入信号。


② DIFF、DEA均为负,DIFF向下跌破DEA,卖出信号。


③ DEA线与K线发生背离,行情反转信号。


④ 分析MACD柱状线,由正变负,卖出信号;由负变正,买入信号。


(2) 随机指标KDJ
原理:用目前股价在近阶段股价分布中的相对位置来预测可能发生的趋势
反转。


算法:对每一交易日求RSV(未成熟随机值)
RSV=(收盘价-最近N日最低价)(最近N日最高价- 最近N日最低
价)×100
K线:RSV的M1日移动平均
D线:K值的M2日移动平均
J线:3×D-2×K
参数:N、M1、M2为天数,一般取9、3、3
用法:
① D>80,超买;D<20,超卖;J>100%超卖;J<10%超卖。


② K线向上突破D线,买进信号;K线向下跌破D线,卖出信号。


③ K线与D线的交叉发生在70以上,30以下,才有效。


④ KD指标不适于发行量小,交易不活跃的股票。


⑤ KD指标对大盘和热门大盘股有极高准确性。


(3) 威廉指标(William's %R)
原理:用当日收盘价在最近一段时间股价分布的相对位置来描述超买和超
卖程度。


算法:N日内最高价与当日收盘价的差,除以N日内最高价与最低价的
差,结果放大100倍。


参数:N为统计天数,一般取14天。


用法:
① 低于20,超买,即将见顶,应及时卖出。


② 高于80,超卖,即将见底,应伺机买进。


③ 与RSI、MTM指标配合使用,效果更好。


(4) 相对强弱指标RSI(Relative Strenth Index)
原理:用向上波动幅度和总波动幅度的比值来描述走势强弱。


算法:先求相对强弱值RSI=N日内收盘价上涨幅度总和/上涨下跌幅度总
和乘以100。


参数:N1、N2、N3为统计天数,一般取6、12、24。


用法:RSI在50以上准确性较高
① 6日RSI向上突破85,超买;向下跌破15,超卖。


② 盘整时,RSI一底比一底高,多头势强,后市可能续涨;反之,是卖出
信号。


③ 股价尚在盘整阶段,而RSI已整理完成,股价将随之突破。


④ 6日RSI向上突破12日RSI,买进信号;反之,卖出信号。


(5) 布林通道BOLL
原理:以移动平均线为中线,收盘价的均方差为带宽的轨道带。


BOLL带绘制支撑线(LOWER)、阻力线(UPER)、中线(MID)。


MID:收盘价的N日移动平均
UPER:中线加偏移值
LOWER:中线减偏移值
参数:N为设定统计天数,一般为26
P为设定BOLL带宽度,一般为2
用法:
① 股价处于盘整状态时,股价下碰支撑线买入,上碰阻力线卖出。


② 股价连续上涨时,会沿着中线和阻力线形成的通道上升。

当股价不能再
触及阻力线时,则上涨趋势减弱,应卖出。


③ 当股价连续下跌时,会沿着中线和支撑线形成的下降通道下跌,当股价
不能再触及支撑线时,下跌趋势减弱,应买入。


第三章 股市预测问题研究方法
3.1 引言
在进行股票投资时,投资者会获得与其承担的风险相对应的回报,预期回
报率与风险之间是一种正向的互动关系。

因此,对股市和个股进行认真的分析
才能降低投资风险,获得投资效益。

但是,影响股票分析的因素很多,作用机
制也很复杂。

只有通过认真的、有效的和科学的专业分析,才能客观的把握住
这些影响因素及其作用机制,做出尽可能准确的预测,并以此作为股票投资的
重要参考,争取尽可能大的受益,并将可能的风险降到最低限度。

由于股票预
测问题具有重要的实际意义,因而一直受到国内外学术界的广泛关注,提出了
很多股市预测的方法。

这些方法主要分为三类:投资分析法、时间序列分析法
和非线性系统分析法。


3.2 投资分析法
投资分析方法是分析和预测股价变动方向和趋势的方法,可分为:技术分
析法、基本面分析法和组合分析法三大类。


3.2.1 技术分析法
技术分析法是通过对过去股票的价格、时间、成交量的分析来推算未来的
行情,主要是研究市场行为,是市场行为的经验总结。

技术分析同市场比较接
近,考虑问题比较直接,用技术分析指导股票买卖见效快,获得利益的周期
短。

因为它对市场价格变化的反应较直接,分析的结果比较接近市场的局部价
格运动规律。

崇尚技术分析的人认为投资者心理和大众情绪对股票价格影响大
于公司基本面因素的影响。

股票市场上的投资群体的行为是受投资者对股市下
跌的恐慌和对股市上涨的贪婪心理驱使的。


技术分析能够根据那些图表上的变化轨迹了解基本面的变化,它在预测股
价的短期趋势,特别是从旧趋势向新趋势变化的方面具有优势。

但是由于技术
分析法难以事先预测市场总的结构变化,经常会出现不够准确的问题。


3.2.2 基本面分析法


基本面分析法是根据环境因素来决定股票买卖时机,是研究影响证券市场
供给和需求的各种因素。

基本因素分析能够让投资者理解在某些时刻为什么价
格发生变化?是什么原因造成的?
基本面分析着重于对一般经济经济状况以及上市公司的经营管理状况,行
业动态等因素进行分析,以此来研究股票的内在价值,把它与现价进行比较,
从而决定股票的买卖。

影响股票价格因素有很多,较为重要的有:
企业因素:企业的财务状况,经营成果,资本结构决定了企业股票的价
值,此外,行业特点,企业的重大合同,及人事变更都对企业股票价格也产生
影响。


主要的社会经济指标:这些指标往往表明了国家经济的景气状况,未来经
济的发展前景。

主要包括,消费品零售物价指数(CPI,衡量通货膨胀的状
况)、GDP增长率,城镇登记失业率,财政状况,国际收支状况等。


宏观金融指标:利率,关系到企业的资金成本,汇率,对一些外贸为主的
企业至关重要。


行业因素,股票发行公司的所属行业对于股票价格的影响较大。


政治因素,外交关系,国际环境,领导人的更换等等政治活动会对股票的
价格产生重大的影响。

此外,在我国,新的政策,法律,管理办法对股票市场
的影响也不容忽视。


基本分析方法能够比较全面的把握价格的基本走势,而且应用起来比较简
单。

但是它对市场的反应迟钝,预测的时间跨度相对较长,因此对市场短线操
作缺乏指导意义,在对市场预测的精确度上不如技术分析。


3.2.3 组合分析法
组合分析法是将技术分析法和基本分析法二者结合起来的一种方法。

在股
票市场上进行股票投资时,运用技术分析指导市场,同时对基本因素进行分
析。


目前,一般投资者和股票市场预测专家运用的大多是这三种分析工具。


这些方法并不是学术范围内研究的方法。


3.3 时间序列分析法
时间序列预测方法的基本思想是:预测一个现象的未来变化时,用该现象
的过去行为来预测未来,即通过时间序列的历史数据揭示现象随时间变化的规
律,将这种规律延伸到未来,从而对该现象的未来作出预测。

时间序列分析方
法是通过分析不同时刻变量的相关关系,揭示其相关结构,是研究事物发展变
化规律的一种量化分析方法[11]。

一般情况下,那些依时间排列起来的一系列
的相同内涵的数据都可以称为时间序列。

它与一般的数据不同的是,这是一些
有严格先后顺序的数据,大多数情况下,它们之间往往存在着某种前后相承的
关系,并不互相独立。

而时间序列分析方法就是针对这种独特数据而建立起来
的一种分析方法,ARMA 模型在经济预测过程中既考虑了股市指标在时间序列上
的依存性,又考虑了随机波动的干扰性,对股市收益率指标短期趋势的预测准
确率较高[12]。


3.3.1 ARMA模型简介
ARMA模型是由美国统计学家G. E. P. B o x和英国统计学家G. M
jenkins在二十世纪七十年代提出的时间序列分析模型,即自回归移动平均模
型。

一般的ARMA模型的形式可以表示为:
, (3.1)
其中是白噪声序列,和都是非负整数,AR和MA模型都是ARMA模型的特殊
情形,当时,ARMA成为自回归模型AR(),当时,ARMA成为移动平均模型
MA()。


3.4 非线性系统分析法
投资分析方法和时间序列方法或强调内在价值,或依赖股价间的线性关
系,因此具有很大的局限性,很难分离出噪声信号,因而导致预测效果并不理
想。

股价与影响股价的各因素之间呈现明显的非线性特性,因而需要通过适当
的方法逼近系统内的复杂非线性特性,神经网络预测法是这种方法的典型代
表,它主要包括前向神经网络预测法,时间延迟神经网络预测法和自回归神经
网络预测法。


3.4.1 神经网络预测方法概述


神经网络是一种大规模并行的复杂的非线性动力系统,它可表示极其复杂
的非线性模型系统,具有高度并行的处理机制、高速运算的能力、高度灵活可
变的拓扑结构、高度的非线性运算,具有自学习、自组织的能力,得到了预测
科学研究的重视。

自从 1987 年 Lapedes 和 Farber 首先将神经网络技术应用
到预测研究领域以来,国内外许多研究人员开始从事神经网络预测方法的研
究,涌现了许多神经网络在预测中成功运用的实例。


实践中通常采用前馈式神经网络来进行预测。

这是因为当我们试图预测系
统的下一个输出时,假定在两个不同时刻,若系统有同样的输入,两次的输出
应是相同的,即系统具有一定的确定性。

只要能提供适当的输入,确定性系统
是能够被模拟的。

因此,预测的过程实际上是一个模拟确定性系统的过程。


前馈式神经网络是很好的模拟确定性系统的工具。


由于三层前馈式神经网络具有可逼近任意复杂连续函数关系的能力,而这
些能力是其它方法所不具有的,因此三层前馈神经网络非常适合对时间序列进
行预测,在具体使用中,不需要对所分析的时间序列做任何假设,仅用一个神
经网络来拟合该时间序列即可。


这种方法通常是根据已有的样本数据对网络进行训练,若希望用过去的
N(N>=1)个数据预测未来M(M>=1)个时刻的值,即进行M步预测,可取序列N个
相邻的样本为滑动窗,并将它们映射为M个值,这M个值代表在该窗之后的M
个时刻上的样本的预测值。


表3-1列出了训练数据的一种分段方法,该表把训练数据分为K段长度为
N+M的有一定重叠的数据段,每一段的前N个数据作为网络的输入,后M个数
据作为网络的输出。


表3-1 训练数据的分段方法
从理论观点来看,上述过程就是拟合过程,即寻找一个RN到RM的映射,
并使该映射具有预测未来M个时刻的数据的能力。

理论上已经证明,一个用历
史数据充分训练后的三层前馈式神经网络能一致逼近这个未知映射。

此网络的
输入层有N(N>=1)个节点,输出层有M(M>=1)个节点,隐层节点数由所分析序
列的复杂程度、要求的预测精度和训练样本的多少而定。


3.4.2 多层前馈神经网络(BP网络)
在众多的神经网络结构中,多层前馈神经网络(Muti-Layer Feedforward
Neural Networks,简称 MFNN)是目前应用最广泛也是最成熟的一种网络结
构。


Rumelhart,McClelland 和他们的同事洞察到神经网络信息处理的重要
性,于1982年成立了一个PDP小组,在研究并行分布信息处理方法,探索人类
认知的微结构的过程中,于1986年提出了BP网络模型。

在多层前馈神经网络
MFNN中,网络权值的调整是通过著名的误差反向传播(Back Propagation,简
称BP)学习算法来进行的。

因此,多层前馈神经网络MFNN通常又称为BP网
络。


基于BP神经网络的证券预测技术研究就是选择股票价格作为训练样本,将
某些交易日的股票价格及影响价格的因素作为输入向量,按照前向传播方向,
得到输出层的实际输出值;然后按照反方向传播方向,根据输出层的实际输出
和期望输出之间的误差,修正节点间的连接权值,直到误差达到允许的最小
值。

经过调整的最后的权值,就是BP网络经过自适应学习所得到的正确的内部
表示。

使用经训练后的BP网络模型进行股票价格走势的预测,从而达到增加投
资收益、降低投资风险的目的。


股票的价格是一种离散时间序列数据。

设第K天的股票价格为 XK,则XK
=g(XK)。

其中XK=(XK-1,…,XK-T)T,g(?)为一非线性连续函数。

g(?)刻
画了生成这一时间序列的动态机制。

只要找到合适的g(?),就能对这一时间序
列做出适当的预测。

然而,由于股票市场的复杂性,刻画其具体的动态过程是
极其困难的,而BP网络对非线性函数的逼近特适合,因此利用它对股票市场的
动态过程进行建模是合适的。


对于股票价格预测来说,它的预测特点是:多输入、单输出的非线性映
射。

对于这种高度的非线性关系,选取多层前馈神经网络结构即BP网络建模,
既清晰又明了。

采用BP神经网络模型,输入是 XK=(XK-1,…,XK-T)T,输
出端信号是XK。

选取一些匹配对(XK,XK)作为训练样本,学习后的g(?)便可
作为一预测器,对未来的股票市场做出单步预测。


第四章 统计学习理论与支持向量机
4.1 理论背景
4.1.1 机器学习分类
基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)
出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。

关于机
器学习还没有被统一接受的理论框架。

根据其实现方法的不同大致可以分为以
下三类:
第一种是经典的(参数)统计估计方法。

包括模式识别等在内,现有机器学
习方法共同的重要理论基础之一是统计学。

参数估计方法中,参数的相关形式
是己知的,训练样本是用来对模型的参数进行估计。

这种方法需要知道样本的
分布形式,同时基于传统统计学理论的参数估计方法是一种隐含了样本数目无
穷大的渐进理论。

由于实际问题中样本的有限性使得基于传统统计学理论的一
些学习方法在实际表现中并不尽如人意。


第二种是如人工神经网络(ANN)等基于经验的非线性方法。

这种方法无需事
先知道样本的分布形式,直接利用己知样本建立非线性模型,克服了传统参数
估计方法的困难。

但是这种方法其本质也是建立在样本数无穷大的经典统计学
理论基础上,同时由于缺乏统一的数学理论,在应用上神经网络的结构确定主
要依赖经验的选取。


第三种是统计学习理论(StatisticalLearningTheory或SLT)。

与传统统计
学方法相比,它是一种专门研究小样本情况下机器学习规律的理论。

Vapnik等
人从六、七十年代开始致力于此方面研究,统计学习理论是建立在一套较坚实
的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。

它能将
很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络
结构选择问题、局部极小点问题等);到九十年代中期,随着其理论的不断发展
和成熟,也由于神经网络等学习方法在理论上缺乏实质性的进展,统计学习理
论开始受到越来越广泛的重视。


4.1.2 机器学习存在的基本问题


机器学习的目的是根据给定的训练样本求出对某系统输入输出之间依赖关
系的估计,使它能够对未知输出做出尽可能准确的预测。

机器学习一般地可以
表示为:变量与存在一定的未知依赖关系,即遵循某一未知的联合概率,机器
学习问题就是根据个独立同分布观测样本
(4.1)
在一组函数中求一个最优的函数对依赖关系进行估计,使期望风险
(4.2)
最小,其中称作预测函数集,为广义参数;为损失函数,不同类型的学习
问题有不同形式的损失函数。


机器学习问题有三类:模式识别、函数逼近和概率密度估计。


对模式识别问题,输出是类别标号,两类情况下,其预测函数也称作指示
函数,其损失函数可以定义为
(4.3)
在函数逼近问题中,是联系变量,采用最小平方误差准则,损失函数可定
义为
(4.4)
而对概率密度估计问题,学习的目的是根据训练样本确定的概率密度,记
估计的密度函数为,则损失函数可定义为
(4.5)
上面的问题表述中,学习的目标在于使期望风险最小化,但由于我们可以
利用的信息只有样本数据,因此式(4.2)的期望风险无法计算。

传统学习方法采
用经验风险最小化(Empirical Risk Minimization,ERM)准则,经验风险定义

(4.6)
最小化经验风险在多年的机器学习方法研究中占据了主要地位,但ERM准
则代替期望风险最小化没有经过充分的理论论证,只是直观上合理的想当然做
法。

ERM准则不成功的一个例子是神经网络的“过学习”问题,训练误差小,


并不能总导致好的预测效果,某些情况下,训练误差过小反而会导致推广能力
的下降,即真实风险的增加[13]。


可以看出,有限样本情况下,经验风险最小并不一定意味着期望风险最
小;学习机器的复杂性不但应与研究的系统有关,而且要和有限数目的样本相
适应。

我们需要一种能够指导我们在小样本情况下建立有效的学习和推广方法
的理论,这就是统计学习理论。


4.2 统计学习理论
与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习
规律的理论。

Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代
中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺
乏实质性进展,统计学习理论开始受到越来越广泛的重视。

统计学习理论是建
立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一
的框架。

它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问
题。


4.2.1 VC维
统计学习理论的一个核心概念是VC维(VC Dimension)概念,它是由
Vapnik和Chervonenkis提出的(VC就是Vapnik和Chervonenkis名字的首字而
成),它是描述函数集或学习机复杂性或者说是学习能力(Capacity of the
machine)的一个重要指标。

一个函数的VC维可以直观理解为:对一个假设函数
集,如果存在个样本的样本集能够被该函数集打散,而不存在有个样本的样本
集能够被该函数集打散,则函数集的VC维就是。

若对任意数目的样本都有函数
能将它们打散,则函数集的VC维是无穷大。

VC维反映了函数集的学习能力,
VC维越大则学习机器越复杂(容量越大)。

在此概念基础上发展出了一系列关于
统计学习的一致性(Consisteney)、收敛速度、泛化性能(Generalization
Performance)等重要结论。

如图4.1所示,平面中直线的VC维等于3。


图4.1 平面中直线的VC维
4.2.2 推广性的界


在分析学习过程中,核心问题是如何能使风险最小化。

传统算法中一般以
经验风险来衡量机器学习的推广能力,即经验风险最小化原则。

然而在实际的
应用当中发现,经验风险最小化并不代表实际风险最小化,因此在某些问题上
只关注经验风险往往会引发“过学习”现象。

统计学习理论系统地研究了对于
各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界。

关于两
类分类问题,对指示函数集中的所有函数的经验风险和实际风险之间以至少的
概率满足如下关系:
(4.7)
其中代表函数集的VC维,代表样本数。

这一结论从理论上说明了学习机的
实际风险由经验风险(训练误差)和置信范围两部分组成。

它表明在有限训练样
本下,学习机的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验
风险之间可能的差别越大。

置信范围不但受置信水平的影响,而且更是函数集
的VC维和训练样本数目的函数,这个界限反映了根据经验风险最小化原则得到
的机器学习的推广能力,所以称它为推广性的界。

可以看出,置信界限反映了
真实风险和经验风险差值的上界。

因此,要想得到期望风险最小值,除了控制
经验风险最小外,还要控制函数集的置信界限,而置信界限随着函数集VC维的
增长而增大。

在有限训练样本下,学习机器的复杂性越高,VC维越高,则置信
界越大,也就会导致真实风险与经验风险之间可能的差别越大,这也是为什么
会出现“过学习”现象的原因。


4.2.3 结构风险最小化(Structural Risk Minimization,SRM)
传统方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理
的,因此需要同时最小化经验风险和置信范围。

事实上,在传统方法中,学习
模型和算法的过程就是优化置信范围的过程,如果选择的模型比较适合现有的
训练样本,则可以取得较好的效果。

结构风险最小化原则的基本思想是:不仅
要使经验风险最小,还要使 VC 维尽量小,另外,在获得的学习模型经验风险
最小的同时,希望学习模型的推广能力尽可能大。

这样就需要值尽可能小,即
置信范围尽可能小。


如果固定训练样本数目的大小,则控制结构风险的参数只有两个和。


中,


(1) 经验风险依赖于学习机器选定的函数,这样就可以通过控制此函数来
控制经验风险。


(2) VC维依赖于机器学习所工作的函数集合。

为了获得对的控制,可以将
函数集合结构化,建立与各函数子结构之间的关系,通过控制对函数结构的选
择来达到控制 VC维的目的。


也就是,首先把函数集分解为一个函数子集序列(或子集结构),使各个
子集按照VC维的大小排列,即:,这样,在同一个子集中置信范围相同。

在同
一个子集中寻找最小经验风险,通常各子集的经验风险随着子集复杂度的增加
而减小。

选择最小经验风险与置信范围之和最小的子集,就可以达到期望风险
最小,这个子集中使经验风险最小的函数就是要求的最优函数。


图4.2 结构风险最小化示意图
在结构风险最小化原则下,一个学习机器的设计包括两个方面的任务:
(1) 选择一个适当的函数子集(使之对问题来说有最优的分类能力);
(2) 从这个子集中选择一个判别函数(使经验风险最小)。


第一步相当于模型选择,而第二步则相当于在确定了函数形式后的参数估
计,与传统方法不同的是,模型的选择是通过对其推广性的界的估计进行的。


实现SRM准则可以有两种思路,一是在每个子集中求最小经验风险,然后
选择使最小经验风险和置信范围之和最小的子集。

显然这种方法比较费时,当
子集数目很大甚至是无穷时不可行。

因此有第二种思路,即设计函数集的某种
结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选
择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优
函数。

支持向量机方法实际上就是这种思想的具体实现。


4.3 支持向量机基本原理
支持向量机的主要研究内容是,当问题是线性可分时,给出一个求解最大
间隔的方法;而当问题不是线性可分时,提出利用一核函数将样本集映射到某
一高维空间,使得样本集在高维空间中的像是线性可分的。

其学习方法最大的
特点是,根据结构风险最小化原则,尽量提高学习机的泛化能力。

其中,通过
非线性映射,将低维空间中的非线性问题转变为高维空间的线性问题,并采用


一核函数代替高维空间中的内积运算,达到避免高维运算和解决非线性的目
的。


4.3.1 基本概念
一个内积空间中的任何一个超平面都可以表示为
, (4.8)
其中,是一个垂直于超平面的向量。

如果为单位长度,则是向量沿方向的
长度;而对于一般的,其长度要乘以。

但不论哪种情况,超平面集合包括所有
的沿方向的长度相等的向量。


一个超平面完全可以由其参数决定,所以我们可以简单地将超平面表示
为。

但是,对参数同时乘以任意的非零常数,超平面式不变的,即同一个超平
面可以用不同的参数来表示,为了避免这种情况,我们引入规范超平面。


超平面
(4.9)
称为关于点的规范超平面,如果它满足
, (4.10)
即这个规范超平面最近的点和它之间的距离为。

超平面和均满足规范超平
面的条件,而对于分类问题来说,由于它们方向不同,这两个超平面是不同
的,它们分别对应两个决策函数。

在模式没有类别标号的情况下,是没有办法
区别这两个平面的;而对于一个有标号的训练集,则可以区分,因为这两个超
平面对应的类别正好相反。


间隔在支持向量学习算法中起着重要的作用,对于一个超平面,称
(4.11)
为点的几何间隔;而称
(4.12)
为关于训练集
(4.13)


的几何间隔。


假定大部分的测试点至少距离其中的一个训练点比较近,所有的测试点可
以认为是训练点进行一个较小的扰动得到的。

对于训练点,我们得到的测试点
的形式为,其中扰动的范数以一个正数为上界。

显然,如果我们用一个间隔为
的超平面来划分训练点几何,那么我们就一定能正确的分开所有的测试点。


4.3.2 线性支持向量机
支持向量机是从线性可分情况下的最优分类面发展而来的,基本思想可用
图4.3的二维平面的情况来说明。


图4.3 两类线性分划的最优超平面
图4.3中,方框点和圆点代表两类样本,中间的实线为分类线,其附近的
两虚线分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间
的距离就是分类间隔(margin)。

所谓最优分类线就是要求分类线不但能将两类
正确分开,即训练错误为0,而且使分类间隔最大。

对分类线进行标准化处
理,使得对线性可分的样本集,满足下面的不等式:
(4.14)
此时分类间隔等于,使间隔最大等价于使最小。

训练样本正确可分,且使
最小的分类面就是最优分类面,位于两虚线上的训练样本点就称作支持向量。


因此,可以通过最小化减少VC维,从而实现SRM准则中的函数复杂性的选
择,固定经验风险,最小化期望风险就转化为最小化,这就是SVM方法的出发
点。


根据上面的分析,在线性可分条件下构建最优超平面,就转化为下面的二
次规划问题:
(4.15)
式(4.15)的最优解为下面的Lagrange函数的鞍点:
(4.16)
其中,为Lagrange乘数。


由于在鞍点处的和的梯度为零,因此


(4.17)
(4.18)
把式(4.17)和式(4.18)代入到式(4.16)中,构建最优超平面的问题就转化
为一个较简单的对偶二次规划问题
(4.19)
如果为问题(4.19)的一个解,则
(4.20)
根据KKT定理,最优解还满足
(4.21)
对于大多数样本来说,,对应的样本被称为支持向量(Support Vector,简
称SV)。

由式(4.20)可知只有支持向量对有贡献,也就是对最优超平面、决策
函数有贡献,支持向量由此得名,对应的学习方法称之为支持向量机。

通过选
择不为零的,代入式(4.21)中解出,对于给定的未知样本,只需计算
, (4.22)
就可以判断所属类别。


但在实际应用时,大多数情况下并不能满足线性可分性。

即使问题是线性
可分的,由于各种原因,训练集中也可能出现“野点子”。

比如一个标错的
点,可能会对最终的分类超平面产生严重影响。

事实上,对应线性不可分的情
况,可以在条件中增加一个松弛项,将约束放宽为
(4.23)
此时目标函数变为
(4.24)
其中,为可调参数,表示对错误的惩罚程度,越大惩罚越重,“最大间
隔”支持向量机就转化为在式(4.23)的约束下,最小化式(4.24)。

我们称上述
模型为“软间隔”线性支持向量机,这是一个二次规划问题,其最优解为下面
Lagrange函数的鞍点


(4.25)
根据KKT定理,最优解满足
(4.26)
构建最优超平面的问题可转化为下面的对偶二次规划问题:
(4.27)
求解问题(4.27)得到的中,可能是:①;②;③,后两者所对应的为支持
向量。

在支持向量中,所对应的位于边界上,称为边界支持向量(Boundary
Support Vector,BSV);所对应的位于间隔内,称为标准支持向量(Normal
Support Vector,NSV)。


对于标准支持向量,由式(4.26)可知,因此,对于任一标准支持向量,满

(4.28)
所以为
(4.29)
其中为标准支持向量的集合,为支持向量的集合。

为了计算可靠,可以对
所有标准支持向量分别求的值,然后求平均。


4.3.3 非线性支持向量机
对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问
题,在变换空间求最优分类面,这种变换比较复杂,在一般情况下不易实现。


但是上面的对偶问题都只涉及训练样本之间的内积运算。

设有非线性映射,满
足:当时,将输入空间的样本映射到高维的特征空间中,在高维的特征空间中
构造最优超平面时,训练算法仅仅使用空间中的点积,而没有单独的出现,因
此,只要找到一个函数使得即可,因此,在高维空间上甚至不需要知道非线性
变换的形式,只需要它的内积运算即可。

这种内积运算可以用原空间中的函数
实现,即使变换空间的维数增加很多,在其中求解最优分类面的问题也并没有
增加计算复杂度。

统计学习理论指出,根据泛函的有关理论,只要一种核函数
满足Mercer条件,它就可以作为内积使用。


根据Mercer条件:任意的对称函数是某个特征空间中的内积运算的充分必
要条件是,对于任意的且,有
(4.30)
可见,这一条件并不难满足。


因此,用内积函数代替最优分类面中的点积,就把原特征空间变换到了某
一个特征空间,此时,式(4.19)的目标函数就变为:
(4.31)
相应的分类函数也变为
(4.32)
支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中
间层节点的线性组合,而每个中间层节点对应于输入样本与一个支持向量的内
积,因此也称为支持向量网络,如图4.4所示:
图4.4 支持向量机示意图
输出(决策规则):
(4.33)
基于个支持向量的非线性变换,输入向量。


由于最终的判别函数中实际只包含与支持向量的内积和求和,因此识别时
的计算复杂度取决于支持向量的个数。

根据关于最优分类面的推广能力的结
论:如果一组训练样本能够被一个最优分类面分开,则对于测试样本分类错误
率的期望上界是训练样本中平均的支持向量占总训练样本数的比例。

可知,支
持向量机的推广性也是与变换空间的维数无关的,只要能够适当的选择一种内
积定义,构造一个支持向量数相对较少的最优分类面,就能够得到较好的推广
性。


同样,“软间隔”非线性支持向量机就是下面的最优化问题:
(4.34)
其对偶问题为


(4.35)
常见的核函数有:
(1) 线性核函数;
(2) 多项式核函数;
(3) 径向基核函数;
(4) Sigmoid核函数。


4.3.4 基于支持向量机的回归分析
基于支持向量机的股市预测的基础是基于支持向量机的回归分析,假定根
据某种概率分布生成的样本
(4.36)
支持向量回归(support vector regression,SVR)问题就是希望找到适
当的实值函数来拟合这些训练点,使得
(4.37)
最小,其中为损失函数。


观测值与函数预测值之间的误差,我们用- 不敏感函数
(4.38)
来度量,即当点的观测值与预测值之间的误差不超过事先给定的小正数
时,认为该函数对这些样本点的拟合是无差错的。

在图4.5中,当样本点位于
两条虚线之间的带子里时,我们认为在该点没有损失,称两条虚线构成的带子
为带。


在图4.5中的上的损失对应于图4.6中所示的值,即。


图4.5 带 图4.6 上的损失
在回归分析中,选择带是合理的,模式识别中,如果样本被正确划分并且
在间隔以外时,该样本点不提供任何损失值。

相应地,回归估计中也应该存在
不为目标函数提供任何损失的区域,即带。


由于未知,不能直接最小化,因此考虑最小化


(4.39)
其中, 为- 不敏感函数,等式(4.39)右边前一项表示函数的复杂性,后一
项则表示训练集上的损失,常数则体现了函数的复杂性和训练集上的损失之间
的折中关系。


最小化式(4.39)等价于最优化问题
(4.40)
问题(4.40)的拉格朗日函数为
(4.41)
式(4.41)对于参数的偏导数都应等于0,因此
(4.42)
将式(4.42)中的条件代入式(4.41),就得到问题(4.40)的对偶形式
(4.43)
其中,为核函数。


问题(4.43)的解为,从而
(4.44)
计算的公式为:
(4.45)
(4.46)
SVR是基于结构风险最小化,而不是传统意义上的经验风险最小化,可以
保证好的预测能力。


第五章 基于支持向量机的股市预测
5.1 基于支持向量机的股市预测流程
股市预测问题是对非线性函数的拟合与外推的问题。

支持向量机的方法进
行预测具有坚实的理论基础,且最终决策函数只由少量的支持向量所决定,计
算的复杂度与样本空间的维数无关,在某种程度上避免了维数灾难。


使用支持向量机的方法进行股市预测需要经过选择输入向量、选择输入样
本数据、选择核函数、选择核函数参数、模型训练、参数优化与结果评价等几
个过程,具体的预测流程如图5.1所示:
选择输入向量
选择输入样本数据
选择核函数
选择核函数参数
模型训练
N
Y
结果评价
训练结束
精度达到要求?
参数优化
图5.1 基于支持向量机的股市预测流程图
选择输入向量就是对那些可能影响预测目标的各种因素进行选择,对各种
影响因素进行权衡,将最重要的影响因素抽象为输入向量,但由于股市预测问
题是一个非常复杂的非线性问题,并受到诸多因素的影响,因此在预测初期只
能凭借经验进行选择,并在模型训练过程中进行逐步修正,直到获得一个较满
意的输入向量。


输入样本数据前首先需要对样本数据进行选取,样本数据选取的好坏对整
个预测过程具有非常重要的影响,但股市的波动具有一定的周期性且受到政
治、经济、行业、市场、投资人心理、公司自身等诸多因素的影响,是一个极
复杂动态变化的过程,为了减小这些非正常因素的影响,这里选取那些受主要
因素影响,价格波动基本平稳的股票作为分析对象。

对股市预测而言,由于输
入向量各分量的量纲不同,极有可能数值大但重要性小的分量对最终结果产生
决定影响,因此在输入过程中要对训练数据进行标准化。


核函数的选择与训练参数的输入主要是确定要使用的支持向量机的核函数
及各项参数,目前国际上对支持向量机用于分类或回归问题时所采用的核函数
及参数的选择都没有形成一个统一的标准,因此在现阶段还只能通过经验、实
验对比或各种优化算法进行寻优,选择出最适合股市预测问题的核函数与参
数。


在上面这些工作完成以后就可以开始进行模型的训练,通过进行多次训
练,使模型的精度达到要求。

在这个过程中根据需要对模型的参数进行优化,
并将优化后的参数作为新的参数输入继续进行模型训练。

在模型训练完成以后
需要使用实际数据对模型结果进行评价,通过对评价短期与长期模型预测的精
度,检验模型的推广能力。


5.2 基于向量机的分析预测工具Libsvm
使用Libsvm作为数据分析与预测工具。

Libsvm是台湾大学林智仁教授等
开发设计的一个简便易用的使用支持向量机的方法来处理分类与回归问题的软
件包,它可以使人们方便的使用支持向量机作为数据分析工具。

该软件包可用
来解决c-SVM分类、v-SVM分类、-SVM回归和v-SVM回归以及one-class-SVM
等问题。

Libsvm是一个开源的软件包,其中用来进行支持向量
机的训练,它的使用方法如下:
svm-train [选项] <训练集文件> [模型文件]
可用的选项及表示的涵义如下:
-s <类型>:设置svm的类型(缺省为0),0代表c-SVM 分类,1代表v-
SVM分类,2代表one-class-SVM,3代表-SVM回归,4代表v-SVM回归。


-t <类型>:设置核函数的类型(缺省为2),0代表线性核函数,1代表多
项式核函数,2代表高斯径向基核函数,3代表sigmoid核函数。


-d <阶数>:设置多项式核函数的阶数,缺省为3。


-g :设置多项式核函数,高斯径向基核函数和sigmoid核函数
中的gamma值,缺省为1k,其中k是指输入数据中的属性数。


-r :设置多项式核函数和sigmoid核函数的coef0值,缺省为
0。


-c :设置c-SVM分类、-SVM回归和v-SVM回归的参数,缺省为
1。


-n :设置v-SVM分类、one-class-SVM和v-SVM回归的参数,缺省
为0.5。


-p <值>:设置-SVM回归中代价函数的参数值,缺省为0.1。


-m <缓冲大小>:设置缓冲区内存大小,以MB为单位,缺省为40。


-e <中止值>:设置中止判断条件值,缺省为0.001。


-h :设置是否使用启发式,取值为0或1,缺省为1。


-b <概率估计>:设置是否使用SVM分类和SVM回归进行概率估计,取值为
0或1,缺省为0。


训练集文件是要进行训练的数据集,模型文件是训练结束后产生的文件。


用来根据己获得的支持向量机模型对数据集进行预测,
使用方法如下:
Svm-predict <测试文件> <模型文件> <输出文件>
训练数据和测试数据的文件格式如下:

是从1开始的整数,是一个
实数,一个对表明了输入向量的一个分量。


5.3 实际预测结果与数据验证分析
从第2章技术指标简介中可以看到,这些技术指标大多只是一些日K线数
据简单计算的结果。

本文采取时间序列指标和技术指标相结合的方式作为输入
向量,模型的输入包括今日最高价、今日最低价、今日开盘价、今日收盘价、
10日移动平均价、今日成交量、5日平均成交量、10日平均成交量、今日涨跌
幅、5日平均涨跌幅、10日平均涨跌幅、换手率、MACD(平滑移动平均线)、
PSY心理线、威廉指标、RSI相对强弱指标、BIAS乖离率。

将股票在第二天的
收盘价作为预测变量,本文选取代码为(中国石化)、(兖州煤


业)两只股票进行预测。

对于中国石化,收集了2009年9月1日至2010年3
月4日期间120个数据,其中前100个数据作为训练数据集,后20个数据作为
检验集;对于兖州煤业,本文收集了2009年9月14日至2010年3月19日期
间120个数据,其中前100个数据作为训练数据集,后20个数据作为检验集。


由于各个分量的量纲不同,在模型训练前,需要对样本数据进行预处理,
将输入向量的各分量通过下面的公式进行标准化:
(5.1)
其中为输入向量的各分量的值,为该分量的平均值,为该分量的标准差。


数据输入完成后即可开始进行模型训练,采用-回归,选择不同的核函数及
各个参数的值,预测效果也大不相同,经过多次试验,线性核函数对于中国石
化的股价预测准确度最高,而高斯径向基核函数对于兖州煤业的股价预测准确
度最好,训练结果如表 5-1所示:
表5-1 模型训练结果
表5-1中的rho相当于公式(4.44)中的常数项,在模型训练完成后,需要
对模型的训练结果进行评价,这里将用20个数据对模型进行验证,具体预测结
果如表5-2和表5-3所示。


表5-2 股价预测结果()
表5-3 股价预测结果()
表中的预测偏差通过(预测值-真实值)真实值求出,从预测结果中可以看
出,使用支持向量机进行股价的短期预测具有较高的精确性,大部分预测值与
真实值之间的偏差保持在2%以下。


预测值与真实值之间的拟合程度可用图5.2和图5.3直观地表现出来。


图5.2 预测值与真实值比较()
图5.3 预测值与真实值比较()
从上面的实际预测结果可以看出,应用支持向量机的方法对预测股价具有
良好的结果,预测的拟合程度很高,经过对输入向量、核函数与具体参数的调
整最终可以达到令人满意的预测效果。


若对于股价当天的涨跌幅不是特别剧烈(如涨停、跌停),根据支持向量
回归对股票价格做中期预测,也可得到令人满意的结果。

以兖州煤业股票为
例,将2009年4月2日到2009年11月20日期间的150个数据作为训练集,
将2010年3月1日到2010年3月26日期间的20个数据作为检验集。

通过各
种核函数的比较,线性核函数可得到比较好的训练结果如表5-4所示。


表5-4 模型训练结果
模型训练结束后,由该模型对检验数据做预测,所得结果如表5-5所示。


表5-5 股价预测结果()
预测值与真实值之间的拟合程度如图5.4所示:
图5.4 预测值与真实值比较()
用支持向量机做股价预测的准确度还体现在,当市场行情很好的情况下,
股价在将来一段时期不断上涨,或者当市场行情很差的情况下,股价不断下
跌,使得这段时期的股价超出了前期股价的波动范围,而根据已有模型预测股
价得到的效果也较好。

在2009年11月23日到2010年5月20日期间,中国石
化的股价走势如图5.5所示。


图5.5 中国石化()股价走势
由图5.5可知,在2010年4月21日到2010年5月20日期间,股价一直
下跌,以2009年11月23日到2010年4月20期间的100个数据作为训练集,
来预测其后20天的股价。

选择核函数和参数,得到线性核函数的预测效果较
好,训练结果及股价预测结果如表5-6和表5-7所示。


表5-6 模型训练结果
表5-7 股价预测结果()
预测值与真实值之间的拟合程度如图5.6所示:
图5.6 预测值与真实值比较()
5.4 股票交易时机的确定
本文对股票价格的预测是以天为单位的,因此交易时机的确定就是确定今
天是否应该买入某只股票。

如果预测股价第二天会涨,并计算出预计涨幅,若


预计收益大于买入这只股票所需的手续费,则今天可买入,否则不买;如果预
测股价第二天会跌,则今天就不买这只股票。


因为预测第二天的股价需要用到今天的数据,而且要在今天停盘之前得出
预测结果,所以需要用到的数据就以离停盘还有几分钟时的数据代替,因为最
后几分钟数据的变化一般不会太大,且如果确定今天要买入某只股票,也有时
间操作。


当天买入了某只股票,若第二天股价涨了,可预测下一天股价涨跌情况,
预测出涨,则可继续持有;预测出跌,便可抛出,也可计算出跌幅后,视情况
继续持有还是抛出,因为频繁交易造成的手续费不容忽视。

虽然根据前面的实
证分析,对于一般情况,预测的偏差不是很大,但毕竟有误差,故即使第二天
股价走低,也不必立即抛出,可先预测下一天的股价及算出涨跌幅,再做决
定。


结束语
支持向量机作为一门新兴的,发展极为迅速的边缘学科,以统计学习理论
作为基础,可以解决许多其它技术无法解决的问题,具有很好的拟合精度与泛
化能力。

将支持向量机的方法用于股市预测问题具有良好的应用前景。


但是,支持向量机在股票市场预测中还有许多问题值得研究:
1.对于一些预测模型泛化能力差,即拟合的非常好而预测的非常差。

造成
这一现象可能有几种原因:
(1)输入参数选择不合理,由于股市运动的影响因素很多,选择过多的输
入参数会增加误差,和计算量;
(2)训练集规模选择不当,进行短期预测,训练集过大会掩盖短期趋势,
训练集过小很难把握运动趋势。


2.奇异点问题。


由于我国股市发展还不完善,投机性和政策性特征明显,经常出现暴涨暴
跌的情况,造成股价运行中出现了很多的奇异点。

由于造成奇异点的因素很多
而且难以量化,仅靠支持向量机本身难以解决这个问题。


3.模型的优化。


从应用经验上讲,几种常用的核函数已经足够,但对于股市,未必是最适
合的核函数,因此,为实际问题构造适当的核函数也许是最好的选择。


4.输入量的选择。


股市的数据量非常庞大,各种指标层出不穷,这些数据和指标都有它的实
际意义,都反映了一定的股市信息。

但是要把这些都作为输入量是不现实的,
选择哪些数据作为输入量可以获得最好的模型并没有可靠的结论。


尽管支持向量机的方法用于股市预测问题还存在这样或那样的问题,但由
于其本身的固有优势,相信随着今后进一步研究的深入,应用支持向量机的方
法进行股市预测将会显示出更大的优势。


致 谢
四年的大学生活就要画上圆满的句号了,在此期间,我得到了许多老师、
同学的真诚帮助,在此向各位老师、同学表示我真诚的谢意!
首先,衷心感谢我的导师——韩逢庆教授,感谢他在百忙之中审阅我的论
文,给予我耐心的讲解和指导,使我能顺利的完成毕业论文的撰写工作。

在韩
老师的严格要求下,我不但在学业上增长了更多的知识,更主要的是,从他身
上,我学到了一种对待学术,对待工作,对待生活的积极向上的态度。

其次,
感谢其他所有教过我的老师,感谢他们对我的孜孜不倦教诲。


最后,我要感谢所有帮助过我的人,感谢他们的真诚和友爱!祝愿他们生
活幸福,身体健康,工作顺利。


参考文献
王一鸣.数理金融经济学 [M].北京:北京大学出版社,2000.
陈之大,贺学会.证券投资技术分析 [M].西南财经大学出版社,1996.
方子良.时序法在股市行情技术分析中的应用 [N].南京理工大学学报,
1999,23(2):149~153.
Vapnik V,The nature of statistical learning theory [M],
NewYork:Springer,1995.


邓乃杨,田英杰.数据挖掘中的新方法—支持向量机 [M].北京:科学出
版社,2004.
陶小龙.基于支持向量机的股市预测 [D].北京工业大学硕士论文,
2005.
马洁.基于支持向量机的股市预测问题研究 [D].天津大学硕士论文,
2006.
王国胜,钟义信.支持向量机的若干新进展 [N].电子学报,2001,
29(10):1397~1400.
吴晓求,季冬生.证券投资学 [M].中国金融出版社,1996.
财政部注册会计师全国考试委员会办公室. 财务管理 [M].财政经济出版
社,2004.
全福生,彭白玉.ARMA模型在中国股市中的应用 [N].衡阳师范学院学
报,2009,30(3):26.
阳光宏义,陈平,朱梅等.股票指数的时间序列模型分析 [J].数学的实
践与认识,2006,36(8):8~9.
杨志民,刘广利.不确定性支持向量机原理及应用 [M].北京:科学出版
社,2007.




资料范本



本资料为word版本,可以直接编辑和打印,感谢您的下载


基于机器学习的股票交易时机
研究



地点:__________________

时间:__________________


说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与
义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时
请详细阅读内容


毕业设计(论文)
题 目 基于机器学习的股票交易时机研究
专 业 信息与计算科学
班 级 2006 级 1 班
学 生 佘 开 勇
指导教师 韩 逢 庆
重庆交通大学
2010 年 6 月
目 录
TOC o 摘 要
PAGEREF _Toc4 h I
HYPERLINK l = 2 * ROMAN II
PAGEREF HYPERLINK l 第一章 前 言
_Toc6 h 1
HYPERLINK l 研究背景
_Toc7 h 1
PAGEREF
HYPERLINK l 股市预测的发展概况 PAGEREF
_Toc8 h 1
HYPERLINK l 支持向量机简介
_Toc9 h 3
HYPERLINK l 本文的主要内容
_Toc0 h 3
HYPERLINK l 第二章 股市知识的准备 PAGEREF
_Toc1 h 5
HYPERLINK l 引言
_Toc2 h 5
PAGEREF
PAGEREF
PAGEREF


HYPERLINK l 我国股票市场的发展
PAGEREF _Toc3 h 5
HYPERLINK l 进行股票投资分析的必要性
PAGEREF _Toc4 h 6
HYPERLINK l 股票的相关知识

PAGEREF
_Toc5 h 6
HYPERLINK l
_Toc6 h 7
HYPERLINK l
PAGEREF _Toc7 h 7
HYPERLINK l
_Toc8 h 9
HYPERLINK l
_Toc9 h 9
HYPERLINK l
PAGEREF _Toc0 h 12
HYPERLINK l
_Toc1 h 12
HYPERLINK l
_Toc2 h 12
HYPERLINK l
_Toc3 h 12
HYPERLINK l
_Toc4 h 12
HYPERLINK l
_Toc5 h 13
股票常用术语 PAGEREF
股票价值和股票指数
企业财务指标 PAGEREF
股市技术指标简介 PAGEREF
第三章 股市预测问题研究方法
引言 PAGEREF
投资分析法 PAGEREF
技术分析法 PAGEREF
基本面分析法 PAGEREF
组合分析法 PAGEREF


HYPERLINK l 时间序列分析法
_Toc6 h 13
HYPERLINK l 模型简介
_Toc7 h 14
HYPERLINK l 非线性系统分析法
_Toc8 h 14
PAGEREF
PAGEREF
PAGEREF
HYPERLINK l 神经网络预测方法概述
PAGEREF _Toc9 h 14

HYPERLINK l 多层前馈神经网络(BP网络)
PAGEREF _Toc0 h 15
HYPERLINK l 第四章 统计学习理论与支持向量机
PAGEREF _Toc1 h 17
HYPERLINK l 理论背景
_Toc2 h 17
HYPERLINK l 机器学习分类
_Toc3 h 17
HYPERLINK l 机器学习存在的基本问题
PAGEREF _Toc4 h 17
HYPERLINK l 统计学习理论 PAGEREF
_Toc5 h 18
HYPERLINK l 维 PAGEREF
_Toc6 h 19
HYPERLINK l 推广性的界 PAGEREF
_Toc7 h 19
HYPERLINK l 结构风险最小化(Structural
Risk Minimization,SRM) PAGEREF _Toc8 h 20
PAGEREF
PAGEREF


HYPERLINK l 支持向量机基本原理 PAGEREF
_Toc9 h 21
HYPERLINK l 基本概念
_Toc0 h 22
HYPERLINK l 线性支持向量机
_Toc1 h 23
HYPERLINK l 非线性支持向量机 PAGEREF
_Toc2 h 25
HYPERLINK l 基于支持向量机的回归分析
PAGEREF _Toc3 h 28
HYPERLINK l 第五章 基于支持向量机的股市预测
PAGEREF _Toc4 h 31
HYPERLINK l 基于支持向量机的股市预测流程
PAGEREF _Toc5 h 31
HYPERLINK l 基于向量机的分析预测工具
Libsvm PAGEREF _Toc6 h 32
PAGEREF
PAGEREF
HYPERLINK l 实际预测结果与数据验证分析
PAGEREF _Toc7 h 33
HYPERLINK l 股票交易时机的确定 PAGEREF
_Toc8 h 38
HYPERLINK l 结束语
_Toc9 h 39
HYPERLINK l 致 谢 PAGEREF _Toc0 h
40
HYPERLINK l 参考文献
_Toc1 h 41
摘 要
PAGEREF
PAGEREF


股票市场是一个复杂的非线性动态系统,但由于传统的预测技术并没有准
确的揭示股票市场的内在规律,导致最终的预测结果并不十分理想。

本文采用
了支持向量机的方法对股市进行预测。


支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学
习问题的新工具。

特别是近年来支持向量机在回归算法的研究方面也表现了极
好的性能,但是将其应用到股市预测中却并不多。


本文介绍了股市的相关背景知识,然后对股市里的常用术语作了介绍以及
对传统的股市预测的方法进行了介绍,特别详细介绍了基于神经网络的预测方
法。

接着全面介绍了统计学习理论和建立在其上的支持向量机方法,详细描述
了支持向量机方法的基本原理。


最后,对支持向量机方法用于股市预测问题进行了尝试。

提出了使用支持
向量机的方法进行股市预测的基本流程,然后通过使用实际的股市交易数据进
行预测,在具体股价的预测都表现出很好的效果。


关键词:股票,股市预测,支持向量机,核函数
ABSTRACT
Stock market is a complex non-linear system, and is affected by
many factors. The traditional prediction technologies cannot disclose
the inherent rule of stock market. In this paper, a new prediction
technology based on Support Vector Machine (SVM) has been proposed.
The support vector machine is a data mining new technology; it is
a new tool that draws support the optimized method to solute the
machine learning questions. Specially in recent years, supported the
vector machine also to display the extremely good performance in the
return algorithm research aspect, but applied it the stock market to
forecast certainly were not actually many.
This paper introduce the background knowledge of stock market,
then common terms on the stock market was introduced and traditional
prediction technologies are introduced in detail, especially the


technology based on neural network, and then the basic principles of
SVM are discussed.
Finally, this paper uses SVM to predict the price of stock, and
propose a common framework to solve stock market prediction problems
using SVM. Data from real stock market is used to evaluate the
exactness of the algorithm. Result shows that SVM is an effective
method, and get precise result.
Key Words:Stock, Prediction of Stock market, Support Vector
Machine, Kernel function
第一章 前 言
1.1 研究背景
股票是市场经济的产物,股票的发行和交易促进了市场经济的方展。

自从
股票 1773 年在英国率先发行以来,已有二百多年的历史。

现在已经成为整个
社会经济的“晴雨表”和“报警器”,其对于经济发展的作用不可估量。

随着
股票市场的不断规范壮大和计算机技术的发展,越来越多的人进入到股票交易
市场,也相应产生了很多股票分析和预测系统。

由于股市行情受经济政治等因
素的影响,其内部规律非常复杂,变化周期无序,同时我国资本市场投资者结
构具有特殊性,个人投资者的比例很高,投资者的心里状态不同,对股票交易
的行为会产生直接的影响,导致股价波动。


在信息爆炸的今天,迫切需要一种方法能从大量的数据信息中提取出有用
的信息,数据挖掘技术在这种情况下诞生了。

确切的说, 数据挖掘 (Data
Mining)是指从大型数据仓库中提取出隐含的、未知的、非平凡的及有潜在的
应用价值的信息或者模式,它是数据库研究中一个很有应用价值的新领域,融
合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

在最近
十几年间,成熟的技术和高性能的关系数据库引擎以及广泛的数据集成,使数
据挖掘技术的研究工作取得了很大的发展,各种数据挖掘技术的应用极大的提
高了分析、处理大量数据信息的能力,并为人们的生产生活带来了很大的经济
效益,数据挖掘技术在股市预测中也具有很强的应用价值。


1.2 股市预测的发展概况
预测是指从已知事件测定未知事件。

预测理论作为一种通用的方法论,既
可以应用于研究自然现象,也可以应用于研究社会现象。

将预测理论应用于各
个领域,就产生了预测的各个分支,如人口预测、经济预测、气象预测等等。


在金融经济学的发展上,人们对金融预测作了大量的探索,取得了丰硕的
成果。

典型的金融预测时是时间序列预测。

时间序列是按照时间顺序取得的一
系列观察值。

时间序列的典型特征是相邻观测值之间的依赖性。

为了研究这
种依赖性,人们提出了许多时间序列模型,并对这模型的性质及分析方法进行
了深入的研究。


传统的金融时间序列大致上有两种研究方法,一种方法是从基本的经济原
理出发建立金融时间序列服从的数学模型,像 Markovitz的投资组合理论
[1],资本资产定价模型(CAPM)[1]、套利定价理论(APT)[1]、期权定价模
型[1]等。

实际上,这部分成果就是确定金融时间序列的趋势项。


另一种方法是从统计角度对金融时间序列进行研究。

这种方法直接从实际
数据出发,应用概率统计推断出市场未来的变化规律。

虽然这种方法从经济学
角度来讲缺乏理论性,但是在实际应用中效果较好。

而且,统计方法还可以对
经济模型的好坏进行检验和评价。

二十世纪 80 年代以前,人们对时间序列的
研究主要集中在一种线性模型,即自回归移动平均模型(AutoRegressive
Moving Average Modes,ARMA),这种模型结构简单,有着完善的统计推断技
术,应用非常广泛。

但是 ARMA 模型毕竟是一种线性模型,有些实际现象在模
型中得不到反映。

在这种情况下人们开始提出并研究非线性时间序列,最重要
的就是 在八十年代初提出的自回归条件异方差模型
(AutoRegressive Conditionally Heteroscedastic Models ,ARCH),由于
ARCH模型将方差看作随时间变动的量,而不是一个常量,从某种程度上克服了
线性模型的局限性。

与实际情况更相符,从而得到了广泛的应用。


股市预测,是金融经济预测的一个重要分支。

它对股票市场所反映的各种
资讯进行收集、整理、综合等工作,从股市的历史、现状和规律性出发,运用
科学的方法,对股市未来发展前景进行测定。


股市预测一般基于以下三点假设[2]:
(1) 有效市场假设:指股票市场会对每一条有可能影响股价的信息都会作
出反映,而各种价格的变动正是这种反映的结果。


(2) 供求决定假设:指一切信息都会对股票市场的供求双方力量对比产生
影响,供求决定交易量和交易价格。


(3) 历史相似原则:指由历史资料所概括出来的规律已经包含了未来股票
市场的一切变动趋势。


股市预测按不同的标准可以有不同的分类。

按涉及的范围不同可分为:指
数预测和个股预测;按预测时间长短不同可分为:长期预测、中期预测和短期
预测;按预测方法的不同可分为:定性预测和定量预测等等。


Charles Dow在 1900 年到 1902年,写了一系列的评论来阐述他的市场
观。

Sam Nelson 收集了他的评论并将他的观点发展为市场行为原则,这就是成
为技术分析基础的道氏理论。

Richard Schabacker 第一个将通用图表形态分
类,研究出“缺口”理论,被称作技术分析科学之父。

瑞夫·N·艾略特通过研
究市场波动和循环的形态,提出了“波浪理论”。

W·D·Gann 研究了时间要素
的重要性,提出了“价格时间等价”的概念。

随后,又出现了各种分析方法,
包括 K 线图分析法、柱状图分析法、点数图分析法、移动平均法、形态分析
法、趋势分析法、角度分析法、神秘级数与黄金分割比螺旋历法、四度空间法
等。

这些分析方法主要依赖于图表,图表信息具有明显的直观化优点,但图表
的分析与指标的选择却要依靠主观的判断,这是这些分析方法面临的主要问
题。

由于股票交易的模式和相关信息的复杂性,这样一种严重依靠经验的方
法,其可靠性在很大程度上是要受到质疑的[2]。


从 60 年代开始,人们尝试使用各种时间序列分析方法来预测股市。

在时
间序列分析中,线性模型的研究比较成熟。

但是股市是一个非线性系统,用线
性模型逼近容易丢失有用信息。

为了更确切描述实际系统特性,又发展了阈值
自回归模型、多项式自回归模型和指数自回归模型[3]等,用这些方法对股市进
行建模和预测也取得了比较好的结果。


1.3 支持向量机简介


支持向量机[4-7](support vector machine ,SVM)是数据挖掘中的一项
新技术,是借助于最优化方法解决机器学习问题的新工具。

它最初于20世纪
90年代由Vapnik提出,近些年来在其理论研究和算法实现方面都取得了突破
性进展,并开始成为克服“维数灾难”和“过学习”等传统困难的有利办法,
虽然他还处在飞速发展的阶段,但它的理论基础和实现途径的基本框架已经形
成。

支持向量机目前主要来解决分类问题(模式识别,判别分析)和回归问
题。

支持向量机的最大特点是改变了传统的经验风险最小化原则,而是针对结
构风险最小化原则提出的,因此具有很好的泛化能力。

另外,支持向量机在处
理非线性问题时,首先将非线性问题转化为高维空间中的线性问题,然后用一
个核函数来代替高维空间中的内积运算,从而巧妙地解决了复杂计算问题,并
且有效地克服了维数灾难以及局部极小问题。


尽管支持向量机有以上的优点,但是在金融时间序列预测这方面研究还很
少。

Tay和Cao[8]证明5种金融时间序列数据可以用支持向量机进行预测,并
指出,支持向量机在标准均方误差,均方绝对误差,趋势正确率,加权趋势正
确率标准下优于人工神经网络。

Kyoung-jae Kim用支持向量机对股市指数的运
动趋势进行预测。


1.4 本文的主要内容
股票市场受很多因素影响,变化规律很难把握。

本文采用统计学习理论的
支持向量机方法进行了股市预测问题的研究。

主要完成了以下工作:
(1) 介绍了股市的相关背景知识,并对传统的股市预测问题的研究方法进
行了总结,指出了它们的优缺点。


(2) 介绍了统计学习理论与支持向量机,然后在此基础上提出了通过支持
向量机进行股市预测的具体流程,并使用实际股票交易数据检验了基于支持向
量机的预测方法的实际效果。

实验结果表明,应用支持向量机的方法进行股市
预测具有良好的预测精度。


第二章 股市知识的准备
2.1 引言
2.1.1 我国股票市场的发展


中国的证券市场形成于上个世纪九十年代初期,经过十几年的发展,我国
股票市场已初具规模,股票已成为现代人生活中的一个重要组成部分,股票投
资已成为社会公众谈论的中心之一。

随着我国资本市场的快速发展我国资金融
通的重心已由货币市场逐步向资本市场转移。

越来越多的人把股票投资作为自
己金融资产增值的主要方式。


股市是股票市场的简称,也称为二级市场或次级市场,是股票发行和流通
的场所,也可以说是指对已发行的股票进行买卖和转让的场所。

股票的交易都
是通过股票市场来实现的。

一般地,股票市场可以分为一、二级,一级市场也
称之为股票发行市场,二级市场也称之为股票交易市场。


股票市场是上市公司筹集资金的主要途径之一。

随着商品经济的发展,公
司的规模越来越大,需要大量的长期资本。

而如果单靠公司自身的资本化积
累,是很难满足生产发展的需求的,所以必须从外部筹集资金。

公司筹集长期
资本一般有三种方式:一是向银行借贷;二是发行公司债券;三是发行股票。


前两种方式的利息较高,并且有时间限制,这不仅增加了公司的经营成本,而
且使公司的资本难以稳定,因而有很大的局限性。

而利用发行股票的方式来筹
集资金,则无须还本付息,只需在利润中划拨一部分出来支付红利即可。

把这
三种筹资方式综合比较起来,发行股票的方式无疑是最符合经济原则的,对公
司来说是最有利的。

所以发行股票来筹集资本就成为发展大企业经济的一种重
要形式,而股票交易在整个证券交易中因此而占有相当重要的地位。


我国的沪深股市是从一个地方股市发展而成为全国性的股市的。

在1990年
12月正式营业时,上市的股票数量只有为数很少的几只,其规模很小,且上市
的股票基本上都是上海或深圳的本地股,如上海的老八股中只有一支是异地股
票。

在其后股市的发展中,由于缺乏战略性的考虑,造成了资金的扩容与股票
的扩容不同步,特别是资金扩容,其速度远远快于股票扩容。

在1991年至
1996年的五年间,股市的供求关系极不平衡,这样就造成了股价在最初两年出
现暴涨的局面。


股票市场的变化与整个市场经济的发展是密切相关的,股票市场在市场经
济中始终发挥着经济状况晴雨表的作用。

所谓“牛市”,也称多头市场,指市


场行情普遍看涨,延续时间较长的大升市。

所谓“熊市”,也称空头市场,指
行情普遍看淡,延续时间相对较长的大跌市。


2.1.2 进行股票投资分析的必要性
股票投资具有增值快、风险大的特点,中国股市的这种特点更为突出。


前大多数的股票投资者并不能很好的把握市场的发展规律,对于过量的信息缺
乏筛选、识别的能力,因此对于股票的投资往往是盲目的、非理性的。

进行股
票投资分析的必要性[9]在于:
第一,股票属于风险性资产,其风险由投资者自负,所以每一个投资者在
做每一个决定时都应谨慎行事。

高收益往往伴随着高风险,在从事股票投资
时,为了争取尽可能大的收益,并把可能的风险降到最低限度,首先我们要做
的就是认真进行股票投资分析。


第二,股票投资是一种智慧型投资。

长期投资者要注重于基本方法,短期
投资者则要注重技术分析。

而要在股市上进行投机,更是一种需要高超智慧与
勇气的举动,其关键是把握好时机才去投资。

而时机的把握需要投资者综合运
用自己的知识、理论、技术,信息进行详尽的周密分析,进行科学的决策。


第三,从事股票投资要量力而行,适可而止。


因此,选择适当的投资分析法对股市或个股进行认真分析是能否降低投资
风险,获取投资收益的关键。

我们买卖股票,追求的是投资收益最大化和投资
风险最小化。

但是,影响股票投资收益率和风险的因素很多,其作用机制也相
当复杂。

只有通过认真的、有效的和科学的专业分析,才能客观的把握住这些
因素及其作用机制,做出尽可能准确的走势预测。


2.2 股票的相关知识
股票到底是什么?股票是股份证书的简称,是股份公司为筹集资金而发行
给股东作为持股凭证并借以取得股息和红利的一种有价证券。

每股股票都代表
股东对企业拥有一个基本单位的所有权。

股票是股份公司资本的构成部分,可
以转让、买卖或作价抵押,是资金市场的主要长期信用工具。


股票的作用有三点:(1) 股票是一种出资证明,当一个自然人或法人向股
份有限公司参股投资时,便可获得股票作为出资的凭证;(2) 股票的持有者凭


借股票来证明自己的股东身份,参加股份公司的股东大会,对股份公司的经营
发表意见;(3) 股票持有者凭借股票参加股份发行企业的利润分配,也就是通
常所说的分红,以此获得一定的经济利益。


2.2.1 股票常用术语
(1) 开盘价:开盘价是根据开市前集中竞价形成的。


(2) 收盘价:指每天成交中最后一笔股票的价格,也就是收盘价格。


(3) 最高价:指当日所成交的价格中的最高价位。


(4) 最低价:指当日所成交的价格中的最低价位。


(5) 成交量:股票成交的数量。

手是股票成交的最小单位,一手为100
股。


(6) 成交金额:指用货币表示的股票的成交总量,等于成交价格乘以成交
量。


(7) 涨跌:以每天的收盘价与前一天的收盘价相比较,来决定股票是涨还
是跌。


(8) 压力点、压力线:股票在涨升过程中,到达某一高点(或线)后停止
涨升,此点称为压力点(或压力线)。


(9) 支撑点、支撑线:股价在下跌过程中,到达某一点(或线)后停止下
跌,甚至回升,此点称为支撑点(或支撑线)。


(10) 换手率:也称“周转率”,指在一定时间内市场中股票转手买卖的频
率,是反映股票流通性强弱的指标之一。

计算公式为:某一段时期内的成交量
发行总股数×100% (在我国:成交量流通总股数×100%)。


(11) 市盈率(Price to Earning Ratio,简称PE或PE Ratio):市盈率
是某种股票每股市价与每股盈利的比率。

通常用来作为比较不同价格的股票是
否被高估或者低估的指标。


2.2.2 股票价值和股票指数
从本质上讲,股票仅仅是一种凭证,其作用是用来证明持有人的财产权
利,而不像普通商品一样包含有使用价值,所以股票自身并没有价值,也不可


能有价格。

所以股票是一种虚拟资本,它可以作为一种特殊的商品进入市场流
通转让。

而股票的价值,就是用货币的形式来衡量股票作为获利手段的价值。


所谓获利手段,即凭借着股票,持有人可取得的经济利益。

利益愈大,股票的
价值就愈高。

在股市中股票可根据一定的价格进行交易,单支股票的交易价格
是一个随机变量,同时也受到整个市场行情的影响,逆流而行的股票总是少
数,而且其走势也难以维持长久。


股票价格指数是用以表示多种股票平均价格水平及其变动并衡量股市行情
的指标,例如:道.琼斯股票价格指数,日经指数,香港恒生指数等等。

在股票
市场上,成百上千种股票同时进行交易,各种股票价格各异、价格种类多种多
样,因此,需要有一个总的尺度标准,来衡量股市价格的涨落,观察股票市场
的变化。

用股票价格平均数指标,来衡量整个股票市场总的价格变化,能够比
较正确地反映股票行情的变化和发展趋势。

股票价格指数—般是由一些有影响
的金融机构或金融研究组织编制的,并且定期及时公布。

世界各大金融市场都
编制或参考制造股票价格指数,将一定时间点上成千上万种此起彼落的股票价
格表现为一个综合指标,以代表该股票市场的一定价格水平和变动情况。

股票
价格指数及其变动不但集中反映了股市的投资容量、资金增量、平均股价、股
市升跌等信息,还基本剔除了市场中的投机因素,真实的反映了市场的本来面
目。

股市综合指数包含了所有上市公司的股票,将每支股票的价格及其上市的
股数作为权数加权平均。

而成分指数只选取了股市中各个行业股票里最有代表
性的股票,而非全部。


股票指数的作用在于为股民提供一个衡量股市价值的参考依据,因为买卖
股票是一种投资活动,它的收益和风险并存,为了帮助投资者实现投资增值的
目的,建立正常的股票投资环境,就需要一种能够反映投资发展变化情况的指
标作为依据。

借助股票指数,人们可以观察分析股票市场的发展动态,研究有
关国家和地区的政治、经济发展趋势,拟定投资策略。

为了给投资者创造上述
条件,所有的股市几乎都在股价变化的同时及时公布股票价格指数。


综合指数形式的股票指数,是将所有的上市挂牌的股票都纳入计算指数的
投资组合之中,所以市场上每一只股票价格的变动,都将影响综合指数的变
化,其代表性最好。

但由于综合指数投资组合的权数是上市公司的总股本,当


上市公司的总股本在与其流通量不相一致时,总股本大的股票对股票指数的影
响就较大,如有时股票指数上涨时只有马钢、石化等少数几个大盘谷的价格在
上涨,其它股票几乎基本不动甚至在下跌。


上证综合指数。

上证综合指数是上海证券交易所于1991年7月15日开始
编制和公布的,以1990年12月19日为基期,基期值为100,已全部上市股票
为样本,以股票发行量为权数进行编制。

由于该股票指数的权数为上市公司的
总股本,并且我国上市公司的股票有流通股和非流通股之分,其流通量与总股
本并不一致,所以有时会出现股票指数走势与大部分股票的涨跌相背离。

该指
数的发布几乎与股市行情的变化相同步,是我国股民和证券从业人员研判股票
价格变化的趋势必不可少的参考依据。


成份股形式的股票指数其入选股票数量是恒定的,所选用的权数为股票的
流通量。

由于采用流通量为股票权数所以相对综合指数来数有所进步。

但是由
于入选股票数量有限有时很难贴切反映股市行情的变化。

因此在评价成份指数
时其代表性非常重要。


上证180指数。

上证成份指数(简称上证180)是上海证券交易所所对原
上证30指数进行了调整并更名而成的,是在所有A股股票中抽取最具市场代表
的180种样本股,以2002年6月28日的上证30指数收盘点为为基点,从7月
1日起对外正式发布,每半年有专家委员会调整构成份股。


2.3 企业财务指标
股票价格从长期来看是由其公司的经营和财务状况决定的,研究上市公司
的经营和财务状况,以及发展前景是股票投资的关键环节。

要了解上述状况,
重要的财务指标[10]是必需的。


营业收入: 营业收入是一家公司在某一段内通过生产、销售或提供服务等
方式所取得的总收入。


利润总额:利润总额是一家公司扣住成本和营业税后的剩余,这就是人们
通常所说的盈利,它与营业收入的关系为: 利润总额=营业收入-成本-营业
税。


净利润:净利润是指在利润总额中按规定缴纳的所得税后公司的利润留
成,一般也称为税后利润和净收入。

净利润=利润总额×(1-所得税率),净利
润是一个企业经营的最终成果,净利润多,企业的经营效果就好。


资产总额:资产总额是一家公司进行经营时所能动用的资产总额,包括公
司自有的资产与借贷资产。


净资产:净资产是一家公司的自有资本,对股份公司来说,净资产就是股
东所拥有的财产。


资产负债率:资产负债率是公司的负债在资产总额中所占的百分比。

资产
负债率=公司负债资产总额×100%。


净资产收益率:净资产收益率是单位净资产在某时段的经营中所取得的净
收益。

净资产收益率=净收益/净资产×100%。


2.4 股市技术指标简介
技术分析是许多投资者进行中短期投资主要分析方法,技术指标往往是投
资决策的重要参考。


(1) 平滑异同平均线MACD(Moving Average Convergence Divergence),
是由Gerald Appel首先在Systems And Forecasts一书中发表,主要是利用长
短期的二条平滑平均线,计算两者之间的差离值,作为研判行情买卖之依据。


算法:
DIFF线:收盘价短期、长期指数平滑移动平均线间的差
DEA线:DIFF线的M日指数平滑移动平均线
MACD线 DIFF线与DEA线的差,彩色柱状线
参数:SHORT(短期)、LONG(长期)、M为天数,一般为12、26、9
用法:
① DIFF、DEA均为正,DIFF向上突破DEA,买入信号。


② DIFF、DEA均为负,DIFF向下跌破DEA,卖出信号。


③ DEA线与K线发生背离,行情反转信号。


④ 分析MACD柱状线,由正变负,卖出信号;由负变正,买入信号。


(2) 随机指标KDJ
原理:用目前股价在近阶段股价分布中的相对位置来预测可能发生的趋势
反转。


算法:对每一交易日求RSV(未成熟随机值)
RSV=(收盘价-最近N日最低价)(最近N日最高价- 最近N日最低
价)×100
K线:RSV的M1日移动平均
D线:K值的M2日移动平均
J线:3×D-2×K
参数:N、M1、M2为天数,一般取9、3、3
用法:
① D>80,超买;D<20,超卖;J>100%超卖;J<10%超卖。


② K线向上突破D线,买进信号;K线向下跌破D线,卖出信号。


③ K线与D线的交叉发生在70以上,30以下,才有效。


④ KD指标不适于发行量小,交易不活跃的股票。


⑤ KD指标对大盘和热门大盘股有极高准确性。


(3) 威廉指标(William's %R)
原理:用当日收盘价在最近一段时间股价分布的相对位置来描述超买和超
卖程度。


算法:N日内最高价与当日收盘价的差,除以N日内最高价与最低价的
差,结果放大100倍。


参数:N为统计天数,一般取14天。


用法:
① 低于20,超买,即将见顶,应及时卖出。


② 高于80,超卖,即将见底,应伺机买进。


③ 与RSI、MTM指标配合使用,效果更好。


(4) 相对强弱指标RSI(Relative Strenth Index)
原理:用向上波动幅度和总波动幅度的比值来描述走势强弱。


算法:先求相对强弱值RSI=N日内收盘价上涨幅度总和/上涨下跌幅度总
和乘以100。


参数:N1、N2、N3为统计天数,一般取6、12、24。


用法:RSI在50以上准确性较高
① 6日RSI向上突破85,超买;向下跌破15,超卖。


② 盘整时,RSI一底比一底高,多头势强,后市可能续涨;反之,是卖出
信号。


③ 股价尚在盘整阶段,而RSI已整理完成,股价将随之突破。


④ 6日RSI向上突破12日RSI,买进信号;反之,卖出信号。


(5) 布林通道BOLL
原理:以移动平均线为中线,收盘价的均方差为带宽的轨道带。


BOLL带绘制支撑线(LOWER)、阻力线(UPER)、中线(MID)。


MID:收盘价的N日移动平均
UPER:中线加偏移值
LOWER:中线减偏移值
参数:N为设定统计天数,一般为26
P为设定BOLL带宽度,一般为2
用法:
① 股价处于盘整状态时,股价下碰支撑线买入,上碰阻力线卖出。


② 股价连续上涨时,会沿着中线和阻力线形成的通道上升。

当股价不能再
触及阻力线时,则上涨趋势减弱,应卖出。


③ 当股价连续下跌时,会沿着中线和支撑线形成的下降通道下跌,当股价
不能再触及支撑线时,下跌趋势减弱,应买入。


第三章 股市预测问题研究方法
3.1 引言
在进行股票投资时,投资者会获得与其承担的风险相对应的回报,预期回
报率与风险之间是一种正向的互动关系。

因此,对股市和个股进行认真的分析
才能降低投资风险,获得投资效益。

但是,影响股票分析的因素很多,作用机
制也很复杂。

只有通过认真的、有效的和科学的专业分析,才能客观的把握住
这些影响因素及其作用机制,做出尽可能准确的预测,并以此作为股票投资的
重要参考,争取尽可能大的受益,并将可能的风险降到最低限度。

由于股票预
测问题具有重要的实际意义,因而一直受到国内外学术界的广泛关注,提出了
很多股市预测的方法。

这些方法主要分为三类:投资分析法、时间序列分析法
和非线性系统分析法。


3.2 投资分析法
投资分析方法是分析和预测股价变动方向和趋势的方法,可分为:技术分
析法、基本面分析法和组合分析法三大类。


3.2.1 技术分析法
技术分析法是通过对过去股票的价格、时间、成交量的分析来推算未来的
行情,主要是研究市场行为,是市场行为的经验总结。

技术分析同市场比较接
近,考虑问题比较直接,用技术分析指导股票买卖见效快,获得利益的周期
短。

因为它对市场价格变化的反应较直接,分析的结果比较接近市场的局部价
格运动规律。

崇尚技术分析的人认为投资者心理和大众情绪对股票价格影响大
于公司基本面因素的影响。

股票市场上的投资群体的行为是受投资者对股市下
跌的恐慌和对股市上涨的贪婪心理驱使的。


技术分析能够根据那些图表上的变化轨迹了解基本面的变化,它在预测股
价的短期趋势,特别是从旧趋势向新趋势变化的方面具有优势。

但是由于技术
分析法难以事先预测市场总的结构变化,经常会出现不够准确的问题。


3.2.2 基本面分析法


基本面分析法是根据环境因素来决定股票买卖时机,是研究影响证券市场
供给和需求的各种因素。

基本因素分析能够让投资者理解在某些时刻为什么价
格发生变化?是什么原因造成的?
基本面分析着重于对一般经济经济状况以及上市公司的经营管理状况,行
业动态等因素进行分析,以此来研究股票的内在价值,把它与现价进行比较,
从而决定股票的买卖。

影响股票价格因素有很多,较为重要的有:
企业因素:企业的财务状况,经营成果,资本结构决定了企业股票的价
值,此外,行业特点,企业的重大合同,及人事变更都对企业股票价格也产生
影响。


主要的社会经济指标:这些指标往往表明了国家经济的景气状况,未来经
济的发展前景。

主要包括,消费品零售物价指数(CPI,衡量通货膨胀的状
况)、GDP增长率,城镇登记失业率,财政状况,国际收支状况等。


宏观金融指标:利率,关系到企业的资金成本,汇率,对一些外贸为主的
企业至关重要。


行业因素,股票发行公司的所属行业对于股票价格的影响较大。


政治因素,外交关系,国际环境,领导人的更换等等政治活动会对股票的
价格产生重大的影响。

此外,在我国,新的政策,法律,管理办法对股票市场
的影响也不容忽视。


基本分析方法能够比较全面的把握价格的基本走势,而且应用起来比较简
单。

但是它对市场的反应迟钝,预测的时间跨度相对较长,因此对市场短线操
作缺乏指导意义,在对市场预测的精确度上不如技术分析。


3.2.3 组合分析法
组合分析法是将技术分析法和基本分析法二者结合起来的一种方法。

在股
票市场上进行股票投资时,运用技术分析指导市场,同时对基本因素进行分
析。


目前,一般投资者和股票市场预测专家运用的大多是这三种分析工具。


这些方法并不是学术范围内研究的方法。


3.3 时间序列分析法
时间序列预测方法的基本思想是:预测一个现象的未来变化时,用该现象
的过去行为来预测未来,即通过时间序列的历史数据揭示现象随时间变化的规
律,将这种规律延伸到未来,从而对该现象的未来作出预测。

时间序列分析方
法是通过分析不同时刻变量的相关关系,揭示其相关结构,是研究事物发展变
化规律的一种量化分析方法[11]。

一般情况下,那些依时间排列起来的一系列
的相同内涵的数据都可以称为时间序列。

它与一般的数据不同的是,这是一些
有严格先后顺序的数据,大多数情况下,它们之间往往存在着某种前后相承的
关系,并不互相独立。

而时间序列分析方法就是针对这种独特数据而建立起来
的一种分析方法,ARMA 模型在经济预测过程中既考虑了股市指标在时间序列上
的依存性,又考虑了随机波动的干扰性,对股市收益率指标短期趋势的预测准
确率较高[12]。


3.3.1 ARMA模型简介
ARMA模型是由美国统计学家G. E. P. B o x和英国统计学家G. M
jenkins在二十世纪七十年代提出的时间序列分析模型,即自回归移动平均模
型。

一般的ARMA模型的形式可以表示为:
, (3.1)
其中是白噪声序列,和都是非负整数,AR和MA模型都是ARMA模型的特殊
情形,当时,ARMA成为自回归模型AR(),当时,ARMA成为移动平均模型
MA()。


3.4 非线性系统分析法
投资分析方法和时间序列方法或强调内在价值,或依赖股价间的线性关
系,因此具有很大的局限性,很难分离出噪声信号,因而导致预测效果并不理
想。

股价与影响股价的各因素之间呈现明显的非线性特性,因而需要通过适当
的方法逼近系统内的复杂非线性特性,神经网络预测法是这种方法的典型代
表,它主要包括前向神经网络预测法,时间延迟神经网络预测法和自回归神经
网络预测法。


3.4.1 神经网络预测方法概述


神经网络是一种大规模并行的复杂的非线性动力系统,它可表示极其复杂
的非线性模型系统,具有高度并行的处理机制、高速运算的能力、高度灵活可
变的拓扑结构、高度的非线性运算,具有自学习、自组织的能力,得到了预测
科学研究的重视。

自从 1987 年 Lapedes 和 Farber 首先将神经网络技术应用
到预测研究领域以来,国内外许多研究人员开始从事神经网络预测方法的研
究,涌现了许多神经网络在预测中成功运用的实例。


实践中通常采用前馈式神经网络来进行预测。

这是因为当我们试图预测系
统的下一个输出时,假定在两个不同时刻,若系统有同样的输入,两次的输出
应是相同的,即系统具有一定的确定性。

只要能提供适当的输入,确定性系统
是能够被模拟的。

因此,预测的过程实际上是一个模拟确定性系统的过程。


前馈式神经网络是很好的模拟确定性系统的工具。


由于三层前馈式神经网络具有可逼近任意复杂连续函数关系的能力,而这
些能力是其它方法所不具有的,因此三层前馈神经网络非常适合对时间序列进
行预测,在具体使用中,不需要对所分析的时间序列做任何假设,仅用一个神
经网络来拟合该时间序列即可。


这种方法通常是根据已有的样本数据对网络进行训练,若希望用过去的
N(N>=1)个数据预测未来M(M>=1)个时刻的值,即进行M步预测,可取序列N个
相邻的样本为滑动窗,并将它们映射为M个值,这M个值代表在该窗之后的M
个时刻上的样本的预测值。


表3-1列出了训练数据的一种分段方法,该表把训练数据分为K段长度为
N+M的有一定重叠的数据段,每一段的前N个数据作为网络的输入,后M个数
据作为网络的输出。


表3-1 训练数据的分段方法
从理论观点来看,上述过程就是拟合过程,即寻找一个RN到RM的映射,
并使该映射具有预测未来M个时刻的数据的能力。

理论上已经证明,一个用历
史数据充分训练后的三层前馈式神经网络能一致逼近这个未知映射。

此网络的
输入层有N(N>=1)个节点,输出层有M(M>=1)个节点,隐层节点数由所分析序
列的复杂程度、要求的预测精度和训练样本的多少而定。


3.4.2 多层前馈神经网络(BP网络)
在众多的神经网络结构中,多层前馈神经网络(Muti-Layer Feedforward
Neural Networks,简称 MFNN)是目前应用最广泛也是最成熟的一种网络结
构。


Rumelhart,McClelland 和他们的同事洞察到神经网络信息处理的重要
性,于1982年成立了一个PDP小组,在研究并行分布信息处理方法,探索人类
认知的微结构的过程中,于1986年提出了BP网络模型。

在多层前馈神经网络
MFNN中,网络权值的调整是通过著名的误差反向传播(Back Propagation,简
称BP)学习算法来进行的。

因此,多层前馈神经网络MFNN通常又称为BP网
络。


基于BP神经网络的证券预测技术研究就是选择股票价格作为训练样本,将
某些交易日的股票价格及影响价格的因素作为输入向量,按照前向传播方向,
得到输出层的实际输出值;然后按照反方向传播方向,根据输出层的实际输出
和期望输出之间的误差,修正节点间的连接权值,直到误差达到允许的最小
值。

经过调整的最后的权值,就是BP网络经过自适应学习所得到的正确的内部
表示。

使用经训练后的BP网络模型进行股票价格走势的预测,从而达到增加投
资收益、降低投资风险的目的。


股票的价格是一种离散时间序列数据。

设第K天的股票价格为 XK,则XK
=g(XK)。

其中XK=(XK-1,…,XK-T)T,g(?)为一非线性连续函数。

g(?)刻
画了生成这一时间序列的动态机制。

只要找到合适的g(?),就能对这一时间序
列做出适当的预测。

然而,由于股票市场的复杂性,刻画其具体的动态过程是
极其困难的,而BP网络对非线性函数的逼近特适合,因此利用它对股票市场的
动态过程进行建模是合适的。


对于股票价格预测来说,它的预测特点是:多输入、单输出的非线性映
射。

对于这种高度的非线性关系,选取多层前馈神经网络结构即BP网络建模,
既清晰又明了。

采用BP神经网络模型,输入是 XK=(XK-1,…,XK-T)T,输
出端信号是XK。

选取一些匹配对(XK,XK)作为训练样本,学习后的g(?)便可
作为一预测器,对未来的股票市场做出单步预测。


第四章 统计学习理论与支持向量机
4.1 理论背景
4.1.1 机器学习分类
基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)
出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。

关于机
器学习还没有被统一接受的理论框架。

根据其实现方法的不同大致可以分为以
下三类:
第一种是经典的(参数)统计估计方法。

包括模式识别等在内,现有机器学
习方法共同的重要理论基础之一是统计学。

参数估计方法中,参数的相关形式
是己知的,训练样本是用来对模型的参数进行估计。

这种方法需要知道样本的
分布形式,同时基于传统统计学理论的参数估计方法是一种隐含了样本数目无
穷大的渐进理论。

由于实际问题中样本的有限性使得基于传统统计学理论的一
些学习方法在实际表现中并不尽如人意。


第二种是如人工神经网络(ANN)等基于经验的非线性方法。

这种方法无需事
先知道样本的分布形式,直接利用己知样本建立非线性模型,克服了传统参数
估计方法的困难。

但是这种方法其本质也是建立在样本数无穷大的经典统计学
理论基础上,同时由于缺乏统一的数学理论,在应用上神经网络的结构确定主
要依赖经验的选取。


第三种是统计学习理论(StatisticalLearningTheory或SLT)。

与传统统计
学方法相比,它是一种专门研究小样本情况下机器学习规律的理论。

Vapnik等
人从六、七十年代开始致力于此方面研究,统计学习理论是建立在一套较坚实
的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。

它能将
很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络
结构选择问题、局部极小点问题等);到九十年代中期,随着其理论的不断发展
和成熟,也由于神经网络等学习方法在理论上缺乏实质性的进展,统计学习理
论开始受到越来越广泛的重视。


4.1.2 机器学习存在的基本问题


机器学习的目的是根据给定的训练样本求出对某系统输入输出之间依赖关
系的估计,使它能够对未知输出做出尽可能准确的预测。

机器学习一般地可以
表示为:变量与存在一定的未知依赖关系,即遵循某一未知的联合概率,机器
学习问题就是根据个独立同分布观测样本
(4.1)
在一组函数中求一个最优的函数对依赖关系进行估计,使期望风险
(4.2)
最小,其中称作预测函数集,为广义参数;为损失函数,不同类型的学习
问题有不同形式的损失函数。


机器学习问题有三类:模式识别、函数逼近和概率密度估计。


对模式识别问题,输出是类别标号,两类情况下,其预测函数也称作指示
函数,其损失函数可以定义为
(4.3)
在函数逼近问题中,是联系变量,采用最小平方误差准则,损失函数可定
义为
(4.4)
而对概率密度估计问题,学习的目的是根据训练样本确定的概率密度,记
估计的密度函数为,则损失函数可定义为
(4.5)
上面的问题表述中,学习的目标在于使期望风险最小化,但由于我们可以
利用的信息只有样本数据,因此式(4.2)的期望风险无法计算。

传统学习方法采
用经验风险最小化(Empirical Risk Minimization,ERM)准则,经验风险定义

(4.6)
最小化经验风险在多年的机器学习方法研究中占据了主要地位,但ERM准
则代替期望风险最小化没有经过充分的理论论证,只是直观上合理的想当然做
法。

ERM准则不成功的一个例子是神经网络的“过学习”问题,训练误差小,


并不能总导致好的预测效果,某些情况下,训练误差过小反而会导致推广能力
的下降,即真实风险的增加[13]。


可以看出,有限样本情况下,经验风险最小并不一定意味着期望风险最
小;学习机器的复杂性不但应与研究的系统有关,而且要和有限数目的样本相
适应。

我们需要一种能够指导我们在小样本情况下建立有效的学习和推广方法
的理论,这就是统计学习理论。


4.2 统计学习理论
与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习
规律的理论。

Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代
中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺
乏实质性进展,统计学习理论开始受到越来越广泛的重视。

统计学习理论是建
立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一
的框架。

它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问
题。


4.2.1 VC维
统计学习理论的一个核心概念是VC维(VC Dimension)概念,它是由
Vapnik和Chervonenkis提出的(VC就是Vapnik和Chervonenkis名字的首字而
成),它是描述函数集或学习机复杂性或者说是学习能力(Capacity of the
machine)的一个重要指标。

一个函数的VC维可以直观理解为:对一个假设函数
集,如果存在个样本的样本集能够被该函数集打散,而不存在有个样本的样本
集能够被该函数集打散,则函数集的VC维就是。

若对任意数目的样本都有函数
能将它们打散,则函数集的VC维是无穷大。

VC维反映了函数集的学习能力,
VC维越大则学习机器越复杂(容量越大)。

在此概念基础上发展出了一系列关于
统计学习的一致性(Consisteney)、收敛速度、泛化性能(Generalization
Performance)等重要结论。

如图4.1所示,平面中直线的VC维等于3。


图4.1 平面中直线的VC维
4.2.2 推广性的界


在分析学习过程中,核心问题是如何能使风险最小化。

传统算法中一般以
经验风险来衡量机器学习的推广能力,即经验风险最小化原则。

然而在实际的
应用当中发现,经验风险最小化并不代表实际风险最小化,因此在某些问题上
只关注经验风险往往会引发“过学习”现象。

统计学习理论系统地研究了对于
各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界。

关于两
类分类问题,对指示函数集中的所有函数的经验风险和实际风险之间以至少的
概率满足如下关系:
(4.7)
其中代表函数集的VC维,代表样本数。

这一结论从理论上说明了学习机的
实际风险由经验风险(训练误差)和置信范围两部分组成。

它表明在有限训练样
本下,学习机的VC维越高(复杂性越高)则置信范围越大,导致真实风险与经验
风险之间可能的差别越大。

置信范围不但受置信水平的影响,而且更是函数集
的VC维和训练样本数目的函数,这个界限反映了根据经验风险最小化原则得到
的机器学习的推广能力,所以称它为推广性的界。

可以看出,置信界限反映了
真实风险和经验风险差值的上界。

因此,要想得到期望风险最小值,除了控制
经验风险最小外,还要控制函数集的置信界限,而置信界限随着函数集VC维的
增长而增大。

在有限训练样本下,学习机器的复杂性越高,VC维越高,则置信
界越大,也就会导致真实风险与经验风险之间可能的差别越大,这也是为什么
会出现“过学习”现象的原因。


4.2.3 结构风险最小化(Structural Risk Minimization,SRM)
传统方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理
的,因此需要同时最小化经验风险和置信范围。

事实上,在传统方法中,学习
模型和算法的过程就是优化置信范围的过程,如果选择的模型比较适合现有的
训练样本,则可以取得较好的效果。

结构风险最小化原则的基本思想是:不仅
要使经验风险最小,还要使 VC 维尽量小,另外,在获得的学习模型经验风险
最小的同时,希望学习模型的推广能力尽可能大。

这样就需要值尽可能小,即
置信范围尽可能小。


如果固定训练样本数目的大小,则控制结构风险的参数只有两个和。


中,


(1) 经验风险依赖于学习机器选定的函数,这样就可以通过控制此函数来
控制经验风险。


(2) VC维依赖于机器学习所工作的函数集合。

为了获得对的控制,可以将
函数集合结构化,建立与各函数子结构之间的关系,通过控制对函数结构的选
择来达到控制 VC维的目的。


也就是,首先把函数集分解为一个函数子集序列(或子集结构),使各个
子集按照VC维的大小排列,即:,这样,在同一个子集中置信范围相同。

在同
一个子集中寻找最小经验风险,通常各子集的经验风险随着子集复杂度的增加
而减小。

选择最小经验风险与置信范围之和最小的子集,就可以达到期望风险
最小,这个子集中使经验风险最小的函数就是要求的最优函数。


图4.2 结构风险最小化示意图
在结构风险最小化原则下,一个学习机器的设计包括两个方面的任务:
(1) 选择一个适当的函数子集(使之对问题来说有最优的分类能力);
(2) 从这个子集中选择一个判别函数(使经验风险最小)。


第一步相当于模型选择,而第二步则相当于在确定了函数形式后的参数估
计,与传统方法不同的是,模型的选择是通过对其推广性的界的估计进行的。


实现SRM准则可以有两种思路,一是在每个子集中求最小经验风险,然后
选择使最小经验风险和置信范围之和最小的子集。

显然这种方法比较费时,当
子集数目很大甚至是无穷时不可行。

因此有第二种思路,即设计函数集的某种
结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选
择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优
函数。

支持向量机方法实际上就是这种思想的具体实现。


4.3 支持向量机基本原理
支持向量机的主要研究内容是,当问题是线性可分时,给出一个求解最大
间隔的方法;而当问题不是线性可分时,提出利用一核函数将样本集映射到某
一高维空间,使得样本集在高维空间中的像是线性可分的。

其学习方法最大的
特点是,根据结构风险最小化原则,尽量提高学习机的泛化能力。

其中,通过
非线性映射,将低维空间中的非线性问题转变为高维空间的线性问题,并采用


一核函数代替高维空间中的内积运算,达到避免高维运算和解决非线性的目
的。


4.3.1 基本概念
一个内积空间中的任何一个超平面都可以表示为
, (4.8)
其中,是一个垂直于超平面的向量。

如果为单位长度,则是向量沿方向的
长度;而对于一般的,其长度要乘以。

但不论哪种情况,超平面集合包括所有
的沿方向的长度相等的向量。


一个超平面完全可以由其参数决定,所以我们可以简单地将超平面表示
为。

但是,对参数同时乘以任意的非零常数,超平面式不变的,即同一个超平
面可以用不同的参数来表示,为了避免这种情况,我们引入规范超平面。


超平面
(4.9)
称为关于点的规范超平面,如果它满足
, (4.10)
即这个规范超平面最近的点和它之间的距离为。

超平面和均满足规范超平
面的条件,而对于分类问题来说,由于它们方向不同,这两个超平面是不同
的,它们分别对应两个决策函数。

在模式没有类别标号的情况下,是没有办法
区别这两个平面的;而对于一个有标号的训练集,则可以区分,因为这两个超
平面对应的类别正好相反。


间隔在支持向量学习算法中起着重要的作用,对于一个超平面,称
(4.11)
为点的几何间隔;而称
(4.12)
为关于训练集
(4.13)


的几何间隔。


假定大部分的测试点至少距离其中的一个训练点比较近,所有的测试点可
以认为是训练点进行一个较小的扰动得到的。

对于训练点,我们得到的测试点
的形式为,其中扰动的范数以一个正数为上界。

显然,如果我们用一个间隔为
的超平面来划分训练点几何,那么我们就一定能正确的分开所有的测试点。


4.3.2 线性支持向量机
支持向量机是从线性可分情况下的最优分类面发展而来的,基本思想可用
图4.3的二维平面的情况来说明。


图4.3 两类线性分划的最优超平面
图4.3中,方框点和圆点代表两类样本,中间的实线为分类线,其附近的
两虚线分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间
的距离就是分类间隔(margin)。

所谓最优分类线就是要求分类线不但能将两类
正确分开,即训练错误为0,而且使分类间隔最大。

对分类线进行标准化处
理,使得对线性可分的样本集,满足下面的不等式:
(4.14)
此时分类间隔等于,使间隔最大等价于使最小。

训练样本正确可分,且使
最小的分类面就是最优分类面,位于两虚线上的训练样本点就称作支持向量。


因此,可以通过最小化减少VC维,从而实现SRM准则中的函数复杂性的选
择,固定经验风险,最小化期望风险就转化为最小化,这就是SVM方法的出发
点。


根据上面的分析,在线性可分条件下构建最优超平面,就转化为下面的二
次规划问题:
(4.15)
式(4.15)的最优解为下面的Lagrange函数的鞍点:
(4.16)
其中,为Lagrange乘数。


由于在鞍点处的和的梯度为零,因此


(4.17)
(4.18)
把式(4.17)和式(4.18)代入到式(4.16)中,构建最优超平面的问题就转化
为一个较简单的对偶二次规划问题
(4.19)
如果为问题(4.19)的一个解,则
(4.20)
根据KKT定理,最优解还满足
(4.21)
对于大多数样本来说,,对应的样本被称为支持向量(Support Vector,简
称SV)。

由式(4.20)可知只有支持向量对有贡献,也就是对最优超平面、决策
函数有贡献,支持向量由此得名,对应的学习方法称之为支持向量机。

通过选
择不为零的,代入式(4.21)中解出,对于给定的未知样本,只需计算
, (4.22)
就可以判断所属类别。


但在实际应用时,大多数情况下并不能满足线性可分性。

即使问题是线性
可分的,由于各种原因,训练集中也可能出现“野点子”。

比如一个标错的
点,可能会对最终的分类超平面产生严重影响。

事实上,对应线性不可分的情
况,可以在条件中增加一个松弛项,将约束放宽为
(4.23)
此时目标函数变为
(4.24)
其中,为可调参数,表示对错误的惩罚程度,越大惩罚越重,“最大间
隔”支持向量机就转化为在式(4.23)的约束下,最小化式(4.24)。

我们称上述
模型为“软间隔”线性支持向量机,这是一个二次规划问题,其最优解为下面
Lagrange函数的鞍点


(4.25)
根据KKT定理,最优解满足
(4.26)
构建最优超平面的问题可转化为下面的对偶二次规划问题:
(4.27)
求解问题(4.27)得到的中,可能是:①;②;③,后两者所对应的为支持
向量。

在支持向量中,所对应的位于边界上,称为边界支持向量(Boundary
Support Vector,BSV);所对应的位于间隔内,称为标准支持向量(Normal
Support Vector,NSV)。


对于标准支持向量,由式(4.26)可知,因此,对于任一标准支持向量,满

(4.28)
所以为
(4.29)
其中为标准支持向量的集合,为支持向量的集合。

为了计算可靠,可以对
所有标准支持向量分别求的值,然后求平均。


4.3.3 非线性支持向量机
对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问
题,在变换空间求最优分类面,这种变换比较复杂,在一般情况下不易实现。


但是上面的对偶问题都只涉及训练样本之间的内积运算。

设有非线性映射,满
足:当时,将输入空间的样本映射到高维的特征空间中,在高维的特征空间中
构造最优超平面时,训练算法仅仅使用空间中的点积,而没有单独的出现,因
此,只要找到一个函数使得即可,因此,在高维空间上甚至不需要知道非线性
变换的形式,只需要它的内积运算即可。

这种内积运算可以用原空间中的函数
实现,即使变换空间的维数增加很多,在其中求解最优分类面的问题也并没有
增加计算复杂度。

统计学习理论指出,根据泛函的有关理论,只要一种核函数
满足Mercer条件,它就可以作为内积使用。


根据Mercer条件:任意的对称函数是某个特征空间中的内积运算的充分必
要条件是,对于任意的且,有
(4.30)
可见,这一条件并不难满足。


因此,用内积函数代替最优分类面中的点积,就把原特征空间变换到了某
一个特征空间,此时,式(4.19)的目标函数就变为:
(4.31)
相应的分类函数也变为
(4.32)
支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中
间层节点的线性组合,而每个中间层节点对应于输入样本与一个支持向量的内
积,因此也称为支持向量网络,如图4.4所示:
图4.4 支持向量机示意图
输出(决策规则):
(4.33)
基于个支持向量的非线性变换,输入向量。


由于最终的判别函数中实际只包含与支持向量的内积和求和,因此识别时
的计算复杂度取决于支持向量的个数。

根据关于最优分类面的推广能力的结
论:如果一组训练样本能够被一个最优分类面分开,则对于测试样本分类错误
率的期望上界是训练样本中平均的支持向量占总训练样本数的比例。

可知,支
持向量机的推广性也是与变换空间的维数无关的,只要能够适当的选择一种内
积定义,构造一个支持向量数相对较少的最优分类面,就能够得到较好的推广
性。


同样,“软间隔”非线性支持向量机就是下面的最优化问题:
(4.34)
其对偶问题为


(4.35)
常见的核函数有:
(1) 线性核函数;
(2) 多项式核函数;
(3) 径向基核函数;
(4) Sigmoid核函数。


4.3.4 基于支持向量机的回归分析
基于支持向量机的股市预测的基础是基于支持向量机的回归分析,假定根
据某种概率分布生成的样本
(4.36)
支持向量回归(support vector regression,SVR)问题就是希望找到适
当的实值函数来拟合这些训练点,使得
(4.37)
最小,其中为损失函数。


观测值与函数预测值之间的误差,我们用- 不敏感函数
(4.38)
来度量,即当点的观测值与预测值之间的误差不超过事先给定的小正数
时,认为该函数对这些样本点的拟合是无差错的。

在图4.5中,当样本点位于
两条虚线之间的带子里时,我们认为在该点没有损失,称两条虚线构成的带子
为带。


在图4.5中的上的损失对应于图4.6中所示的值,即。


图4.5 带 图4.6 上的损失
在回归分析中,选择带是合理的,模式识别中,如果样本被正确划分并且
在间隔以外时,该样本点不提供任何损失值。

相应地,回归估计中也应该存在
不为目标函数提供任何损失的区域,即带。


由于未知,不能直接最小化,因此考虑最小化


(4.39)
其中, 为- 不敏感函数,等式(4.39)右边前一项表示函数的复杂性,后一
项则表示训练集上的损失,常数则体现了函数的复杂性和训练集上的损失之间
的折中关系。


最小化式(4.39)等价于最优化问题
(4.40)
问题(4.40)的拉格朗日函数为
(4.41)
式(4.41)对于参数的偏导数都应等于0,因此
(4.42)
将式(4.42)中的条件代入式(4.41),就得到问题(4.40)的对偶形式
(4.43)
其中,为核函数。


问题(4.43)的解为,从而
(4.44)
计算的公式为:
(4.45)
(4.46)
SVR是基于结构风险最小化,而不是传统意义上的经验风险最小化,可以
保证好的预测能力。


第五章 基于支持向量机的股市预测
5.1 基于支持向量机的股市预测流程
股市预测问题是对非线性函数的拟合与外推的问题。

支持向量机的方法进
行预测具有坚实的理论基础,且最终决策函数只由少量的支持向量所决定,计
算的复杂度与样本空间的维数无关,在某种程度上避免了维数灾难。


使用支持向量机的方法进行股市预测需要经过选择输入向量、选择输入样
本数据、选择核函数、选择核函数参数、模型训练、参数优化与结果评价等几
个过程,具体的预测流程如图5.1所示:
选择输入向量
选择输入样本数据
选择核函数
选择核函数参数
模型训练
N
Y
结果评价
训练结束
精度达到要求?
参数优化
图5.1 基于支持向量机的股市预测流程图
选择输入向量就是对那些可能影响预测目标的各种因素进行选择,对各种
影响因素进行权衡,将最重要的影响因素抽象为输入向量,但由于股市预测问
题是一个非常复杂的非线性问题,并受到诸多因素的影响,因此在预测初期只
能凭借经验进行选择,并在模型训练过程中进行逐步修正,直到获得一个较满
意的输入向量。


输入样本数据前首先需要对样本数据进行选取,样本数据选取的好坏对整
个预测过程具有非常重要的影响,但股市的波动具有一定的周期性且受到政
治、经济、行业、市场、投资人心理、公司自身等诸多因素的影响,是一个极
复杂动态变化的过程,为了减小这些非正常因素的影响,这里选取那些受主要
因素影响,价格波动基本平稳的股票作为分析对象。

对股市预测而言,由于输
入向量各分量的量纲不同,极有可能数值大但重要性小的分量对最终结果产生
决定影响,因此在输入过程中要对训练数据进行标准化。


核函数的选择与训练参数的输入主要是确定要使用的支持向量机的核函数
及各项参数,目前国际上对支持向量机用于分类或回归问题时所采用的核函数
及参数的选择都没有形成一个统一的标准,因此在现阶段还只能通过经验、实
验对比或各种优化算法进行寻优,选择出最适合股市预测问题的核函数与参
数。


在上面这些工作完成以后就可以开始进行模型的训练,通过进行多次训
练,使模型的精度达到要求。

在这个过程中根据需要对模型的参数进行优化,
并将优化后的参数作为新的参数输入继续进行模型训练。

在模型训练完成以后
需要使用实际数据对模型结果进行评价,通过对评价短期与长期模型预测的精
度,检验模型的推广能力。


5.2 基于向量机的分析预测工具Libsvm
使用Libsvm作为数据分析与预测工具。

Libsvm是台湾大学林智仁教授等
开发设计的一个简便易用的使用支持向量机的方法来处理分类与回归问题的软
件包,它可以使人们方便的使用支持向量机作为数据分析工具。

该软件包可用
来解决c-SVM分类、v-SVM分类、-SVM回归和v-SVM回归以及one-class-SVM
等问题。

Libsvm是一个开源的软件包,其中用来进行支持向量
机的训练,它的使用方法如下:
svm-train [选项] <训练集文件> [模型文件]
可用的选项及表示的涵义如下:
-s <类型>:设置svm的类型(缺省为0),0代表c-SVM 分类,1代表v-
SVM分类,2代表one-class-SVM,3代表-SVM回归,4代表v-SVM回归。


-t <类型>:设置核函数的类型(缺省为2),0代表线性核函数,1代表多
项式核函数,2代表高斯径向基核函数,3代表sigmoid核函数。


-d <阶数>:设置多项式核函数的阶数,缺省为3。


-g :设置多项式核函数,高斯径向基核函数和sigmoid核函数
中的gamma值,缺省为1k,其中k是指输入数据中的属性数。


-r :设置多项式核函数和sigmoid核函数的coef0值,缺省为
0。


-c :设置c-SVM分类、-SVM回归和v-SVM回归的参数,缺省为
1。


-n :设置v-SVM分类、one-class-SVM和v-SVM回归的参数,缺省
为0.5。


-p <值>:设置-SVM回归中代价函数的参数值,缺省为0.1。


-m <缓冲大小>:设置缓冲区内存大小,以MB为单位,缺省为40。


-e <中止值>:设置中止判断条件值,缺省为0.001。


-h :设置是否使用启发式,取值为0或1,缺省为1。


-b <概率估计>:设置是否使用SVM分类和SVM回归进行概率估计,取值为
0或1,缺省为0。


训练集文件是要进行训练的数据集,模型文件是训练结束后产生的文件。


用来根据己获得的支持向量机模型对数据集进行预测,
使用方法如下:
Svm-predict <测试文件> <模型文件> <输出文件>
训练数据和测试数据的文件格式如下:

是从1开始的整数,是一个
实数,一个对表明了输入向量的一个分量。


5.3 实际预测结果与数据验证分析
从第2章技术指标简介中可以看到,这些技术指标大多只是一些日K线数
据简单计算的结果。

本文采取时间序列指标和技术指标相结合的方式作为输入
向量,模型的输入包括今日最高价、今日最低价、今日开盘价、今日收盘价、
10日移动平均价、今日成交量、5日平均成交量、10日平均成交量、今日涨跌
幅、5日平均涨跌幅、10日平均涨跌幅、换手率、MACD(平滑移动平均线)、
PSY心理线、威廉指标、RSI相对强弱指标、BIAS乖离率。

将股票在第二天的
收盘价作为预测变量,本文选取代码为(中国石化)、(兖州煤


业)两只股票进行预测。

对于中国石化,收集了2009年9月1日至2010年3
月4日期间120个数据,其中前100个数据作为训练数据集,后20个数据作为
检验集;对于兖州煤业,本文收集了2009年9月14日至2010年3月19日期
间120个数据,其中前100个数据作为训练数据集,后20个数据作为检验集。


由于各个分量的量纲不同,在模型训练前,需要对样本数据进行预处理,
将输入向量的各分量通过下面的公式进行标准化:
(5.1)
其中为输入向量的各分量的值,为该分量的平均值,为该分量的标准差。


数据输入完成后即可开始进行模型训练,采用-回归,选择不同的核函数及
各个参数的值,预测效果也大不相同,经过多次试验,线性核函数对于中国石
化的股价预测准确度最高,而高斯径向基核函数对于兖州煤业的股价预测准确
度最好,训练结果如表 5-1所示:
表5-1 模型训练结果
表5-1中的rho相当于公式(4.44)中的常数项,在模型训练完成后,需要
对模型的训练结果进行评价,这里将用20个数据对模型进行验证,具体预测结
果如表5-2和表5-3所示。


表5-2 股价预测结果()
表5-3 股价预测结果()
表中的预测偏差通过(预测值-真实值)真实值求出,从预测结果中可以看
出,使用支持向量机进行股价的短期预测具有较高的精确性,大部分预测值与
真实值之间的偏差保持在2%以下。


预测值与真实值之间的拟合程度可用图5.2和图5.3直观地表现出来。


图5.2 预测值与真实值比较()
图5.3 预测值与真实值比较()
从上面的实际预测结果可以看出,应用支持向量机的方法对预测股价具有
良好的结果,预测的拟合程度很高,经过对输入向量、核函数与具体参数的调
整最终可以达到令人满意的预测效果。


若对于股价当天的涨跌幅不是特别剧烈(如涨停、跌停),根据支持向量
回归对股票价格做中期预测,也可得到令人满意的结果。

以兖州煤业股票为
例,将2009年4月2日到2009年11月20日期间的150个数据作为训练集,
将2010年3月1日到2010年3月26日期间的20个数据作为检验集。

通过各
种核函数的比较,线性核函数可得到比较好的训练结果如表5-4所示。


表5-4 模型训练结果
模型训练结束后,由该模型对检验数据做预测,所得结果如表5-5所示。


表5-5 股价预测结果()
预测值与真实值之间的拟合程度如图5.4所示:
图5.4 预测值与真实值比较()
用支持向量机做股价预测的准确度还体现在,当市场行情很好的情况下,
股价在将来一段时期不断上涨,或者当市场行情很差的情况下,股价不断下
跌,使得这段时期的股价超出了前期股价的波动范围,而根据已有模型预测股
价得到的效果也较好。

在2009年11月23日到2010年5月20日期间,中国石
化的股价走势如图5.5所示。


图5.5 中国石化()股价走势
由图5.5可知,在2010年4月21日到2010年5月20日期间,股价一直
下跌,以2009年11月23日到2010年4月20期间的100个数据作为训练集,
来预测其后20天的股价。

选择核函数和参数,得到线性核函数的预测效果较
好,训练结果及股价预测结果如表5-6和表5-7所示。


表5-6 模型训练结果
表5-7 股价预测结果()
预测值与真实值之间的拟合程度如图5.6所示:
图5.6 预测值与真实值比较()
5.4 股票交易时机的确定
本文对股票价格的预测是以天为单位的,因此交易时机的确定就是确定今
天是否应该买入某只股票。

如果预测股价第二天会涨,并计算出预计涨幅,若


预计收益大于买入这只股票所需的手续费,则今天可买入,否则不买;如果预
测股价第二天会跌,则今天就不买这只股票。


因为预测第二天的股价需要用到今天的数据,而且要在今天停盘之前得出
预测结果,所以需要用到的数据就以离停盘还有几分钟时的数据代替,因为最
后几分钟数据的变化一般不会太大,且如果确定今天要买入某只股票,也有时
间操作。


当天买入了某只股票,若第二天股价涨了,可预测下一天股价涨跌情况,
预测出涨,则可继续持有;预测出跌,便可抛出,也可计算出跌幅后,视情况
继续持有还是抛出,因为频繁交易造成的手续费不容忽视。

虽然根据前面的实
证分析,对于一般情况,预测的偏差不是很大,但毕竟有误差,故即使第二天
股价走低,也不必立即抛出,可先预测下一天的股价及算出涨跌幅,再做决
定。


结束语
支持向量机作为一门新兴的,发展极为迅速的边缘学科,以统计学习理论
作为基础,可以解决许多其它技术无法解决的问题,具有很好的拟合精度与泛
化能力。

将支持向量机的方法用于股市预测问题具有良好的应用前景。


但是,支持向量机在股票市场预测中还有许多问题值得研究:
1.对于一些预测模型泛化能力差,即拟合的非常好而预测的非常差。

造成
这一现象可能有几种原因:
(1)输入参数选择不合理,由于股市运动的影响因素很多,选择过多的输
入参数会增加误差,和计算量;
(2)训练集规模选择不当,进行短期预测,训练集过大会掩盖短期趋势,
训练集过小很难把握运动趋势。


2.奇异点问题。


由于我国股市发展还不完善,投机性和政策性特征明显,经常出现暴涨暴
跌的情况,造成股价运行中出现了很多的奇异点。

由于造成奇异点的因素很多
而且难以量化,仅靠支持向量机本身难以解决这个问题。


3.模型的优化。


从应用经验上讲,几种常用的核函数已经足够,但对于股市,未必是最适
合的核函数,因此,为实际问题构造适当的核函数也许是最好的选择。


4.输入量的选择。


股市的数据量非常庞大,各种指标层出不穷,这些数据和指标都有它的实
际意义,都反映了一定的股市信息。

但是要把这些都作为输入量是不现实的,
选择哪些数据作为输入量可以获得最好的模型并没有可靠的结论。


尽管支持向量机的方法用于股市预测问题还存在这样或那样的问题,但由
于其本身的固有优势,相信随着今后进一步研究的深入,应用支持向量机的方
法进行股市预测将会显示出更大的优势。


致 谢
四年的大学生活就要画上圆满的句号了,在此期间,我得到了许多老师、
同学的真诚帮助,在此向各位老师、同学表示我真诚的谢意!
首先,衷心感谢我的导师——韩逢庆教授,感谢他在百忙之中审阅我的论
文,给予我耐心的讲解和指导,使我能顺利的完成毕业论文的撰写工作。

在韩
老师的严格要求下,我不但在学业上增长了更多的知识,更主要的是,从他身
上,我学到了一种对待学术,对待工作,对待生活的积极向上的态度。

其次,
感谢其他所有教过我的老师,感谢他们对我的孜孜不倦教诲。


最后,我要感谢所有帮助过我的人,感谢他们的真诚和友爱!祝愿他们生
活幸福,身体健康,工作顺利。


参考文献
王一鸣.数理金融经济学 [M].北京:北京大学出版社,2000.
陈之大,贺学会.证券投资技术分析 [M].西南财经大学出版社,1996.
方子良.时序法在股市行情技术分析中的应用 [N].南京理工大学学报,
1999,23(2):149~153.
Vapnik V,The nature of statistical learning theory [M],
NewYork:Springer,1995.


邓乃杨,田英杰.数据挖掘中的新方法—支持向量机 [M].北京:科学出
版社,2004.
陶小龙.基于支持向量机的股市预测 [D].北京工业大学硕士论文,
2005.
马洁.基于支持向量机的股市预测问题研究 [D].天津大学硕士论文,
2006.
王国胜,钟义信.支持向量机的若干新进展 [N].电子学报,2001,
29(10):1397~1400.
吴晓求,季冬生.证券投资学 [M].中国金融出版社,1996.
财政部注册会计师全国考试委员会办公室. 财务管理 [M].财政经济出版
社,2004.
全福生,彭白玉.ARMA模型在中国股市中的应用 [N].衡阳师范学院学
报,2009,30(3):26.
阳光宏义,陈平,朱梅等.股票指数的时间序列模型分析 [J].数学的实
践与认识,2006,36(8):8~9.
杨志民,刘广利.不确定性支持向量机原理及应用 [M].北京:科学出版
社,2007.

二月份买什么基金-奇门遁甲测股票


怎么管理债券型基金-北京科兴生物


看股票基金的app-股票k线图分析


人行与基金研究员-杭州富阳中学


杨如意基金-郑州师范学院图书馆


新葡京一号基金官网-开盘价


中国农业银行卖基金-巴台农神庙


一带一路基金 传销-什么是成交量


更多推荐
st锐电股吧,研报,600549,康芝药业,300010,富临运业股吧东方财富网,太阳发债,404,pvc期货,毅昌股份,华夏基金管理有限公司网站,002303股票,正泰电器股票,中恒集团股吧,600794保税科技,种财网,投资者平台,南风化工吧,万东医疗,人所得税计算器,和讯鑫东财配资,股票600686,600173,601398工商银行,海陆重工股吧,002607,600755股票,000695,002329股票,中昌海运股票,钟信才,600333,升达,st山水,南方轴承002553,南京熊猫股吧,标普信用评级,西部数据官方网站,柳州欧维姆,金鸿,昊华能源股吧,000019股吧,今日利好,柳州钢铁,600362股吧,美达股份,邱杰,权重股排名,芝麻信用官网,300321,参与优先股,香飘飘董事长,600493股吧,景顺鼎益,亿阳信通股吧,000513股票,600238,
发布时间:2021-08-23 22:55:04
本文来自网络的,不代表本站立场,转载请注明出处: https://www.hnkaiping.cn/hnka/763409.html

作者: admin

股票市场吧|今天股票行情|股票时间

发表评论

6条评论

  1. 当上市公司的总股本在与其流通量不相一致时