支持向量机入门

支持向量机入门 SVM入门 SVM入门（一）SVM的八股简介支持向量机(SupportVectorMachine)是 Cortes 和 Vapnik 于 1995 年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的 VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度， Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷...

SVM入门 SVM入门（一）SVM的八股简介支持向量机(SupportVectorMachine)是 Cortes 和 Vapnik 于 1995 年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的 VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度， Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称泛化能力）。以上是经常被有关 SVM的学术文献引用的介绍，有点八股，我来逐一分解并解释一下。 Vapnik 是统计机器学习的大牛，这想必都不用说，他出版的《Statistical LearningTheory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比，传统的机器学习基本上属于摸着石头过河，用传统的机器学习方法构造分类系统完全成了一种技巧，一个人做的结果可能很好，另一个人差不多的方法做出来却很差，缺乏指导和原则。所谓 VC 维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC 维越高，一个问题就越复杂。正是因为 SVM关注的是VC维，后面我们可以看到， SVM 解决问题的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得 SVM很适合用来解决文本分类的问题，当然，有这样的能力也因为引入了核函数）。结构风险最小听上去文绉绉，其实说的也无非是下面这回事。机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好的近似模型，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道的（如果知道了，我们干吗还要机器学习？直接用真实模型解决问题不就可以了？对吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。比如说我们认为宇宙诞生于 150 亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不知道真实的宇宙模型到底是什么。这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）。我们选择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实误差无从得知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值来表示。这个差值叫做经验风险 Remp(w)。以前的机器学习方法都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易达到 100%的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或泛化能力差）。此时的情况便是选择了一个足够复杂的分类函数（它的VC维很高），能够精确的记住每一个样本，但对样本之外的数据一律分类错误。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行（行话叫一致），但实际上能逼近么？答案是不能，因为样本数相对于现实世界要分类的文本数来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有误差，当然不能保证在更大比例的真实文本上也没有误差。统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。很显然，第二部分是没有办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是分类函数的VC维，显然 VC维越大，推广能力越差，置信风险会变大。泛化误差界的公式为： R(w)≤Remp(w)+Ф(n/h) 公式中 R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。 SVM正是这样一种努力最小化结构风险的算法。 SVM其他的特点就比较容易理解了。小样本，并不是说样本的绝对数量少（实际上，对任何算法来说，更多的样本几乎总是能带来更好的效果），而是说与问题的复杂度比起来，SVM 算法要求的样本数是相对比较少的。非线性，是指 SVM擅长应付样本数据线性不可分的情况，主要通过松弛变量（也有人叫惩罚变量）和核函数技术来实现，这一部分是 SVM的精髓，以后会详细讨论。多说一句，关于文本分类这个问题究竟是不是线性可分的，尚没有定论，因此不能简单的认为它是线性可分的而作简化处理，在水落石出之前，只好先当它是线性不可分的（反正线性可分也不过是线性不可分的一种特例而已，我们向来不怕方法过于通用）。高维模式识别是指样本维数很高，例如文本的向量表示，如果没有经过另一系列文章（《文本分类入门》）中提到过的降维处理，出现几万维的情况很正常，其他算法基本就没有能力应付了，SVM 却可以，主要是因为 SVM产生的分类器很简洁，用到的样本信息很少（仅仅用到那些称之为“支持向量”的样本，此为后话），使得即使样本维数很高，也不会给存储和计算带来大麻烦（相对照而言， kNN 算法在分类时就要用到所有样本，样本数巨大，每个样本维数再一高，这日子就没法过了……）。下一节开始正式讨论 SVM。别嫌我说得太详细哦。 SVM入门（二）线性分类器 Part 1 线性在一用一 C1 直线数能分的什么维空函数实际分类别的示不性分类器(一一个线性分一个二维空和C2是要线就是一个能够将样本的。么叫线性函空间里就是数还有一个际上，一个线类问题（例的问题）需不属于（不一定意义上, 分类器中,可以空间里仅有两要区分的两个个分类函数，本完全正确的数呢？在一是一个平面，个统一的名称线性函数是例如这里的二需要离散的输不属于 C1也 ,也可以叫做以看到 SVM 两类样本的个类别，在，它可以将两的分开，就称一维空间里，可以如此想称——超平是一个实值二元分类问输出值，例也就意味着属做感知机) M形成的思的分类问题来在二维平面中两类样本完称这些数据里就是一个点想象下去，平面（Hype 值函数（即函问题——回答例如用 1表示属于 C2）是最简单也思路,并接触来举个小例中它们的样完全分开。一据是线性可分点，在二维空，如果不关注 erPlane）函数的值是连答一个样本示某个样本，这时候只也很有效的触很多 SVM 例子。如图所样本如上图所一般的，如分的，否则空间里就是注空间的维！连续的实数本属于还是不本属于类别 C 只需要简单的的分类器形式 M的核心概所示所示。中间如果一个线性则称为非线性是一条直线维数，这种线数），而我们不属于一个 C1，而用的在实值函式. 概念. 间的性函性可，三线性们的个类 0表函数的基础上附加一个阈值即可，通过分类函数执行时得到的值大于还是小于这个阈值来确定类别归属。例如我们有一个线性函数 g(x)=wx+b 我们可以取阈值为 0，这样当有一个样本 xi 需要判别的时候，我们就看 g(xi)的值。若 g(xi)>0，就判别为类别 C1，若 g(xi)<0，则判别为类别 C2（等于的时候我们就拒绝判断，呵呵）。此时也等价于给函数 g(x)附加一个符号函数 sgn()，即 f(x)=sgn[g(x)]是我们真正的判别函数。关于 g(x)=wx+b 这个表达式要注意三点：一，式中的 x不是二维坐标系中的横轴，而是样本的向量表示，例如一个样本点的坐标是(3,8)，则 xT=(3,8) ，而不是 x=3（一般说向量都是说列向量，因此以行向量形式来表示时，就加上转置）。二，这个形式并不局限于二维的情况，在 n维空间中仍然可以使用这个表达式，只是式中的w成为了 n维向量（在二维的这个例子中，w是二维向量，注意这里的w严格的说也应该是转置的形式，为了表示起来方便简洁，以下均不区别列向量和它的转置，聪明的读者一看便知）；三，g(x)不是中间那条直线的表达式，中间那条直线的表达式是 g(x)=0，即wx+b=0，我们也把这个函数叫做分类面。实际上很容易看出来，中间那条分界线并不是唯一的，我们把它稍微旋转一下，只要不把两类数据分错，仍然可以达到上面说的效果，稍微平移一下，也可以。此时就牵涉到一个问题，对同一个问题存在多个分类函数的时候，哪一个函数更好呢？显然必须要先找一个指标来量化“好”的程度，通常使用的都是叫做“分类间隔”的指标。下一节我们就仔细说说分类间隔，也补一补相关的数学知识。 SVM入门（三）线性分类器 Part 2 上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问题），需要有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，而分类间隔是一个比较好的指标。在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属于哪个类别）组成。如下： Di=(xi,yi) xi就是文本向量（维数很高），yi就是分类标记。在二元的线性分类中，这个表示分类的标记只有两个值，1和-1（用来表示属于还是不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的间隔： δi=yi(wxi+b) 这个公式乍一看没什么神秘的，也说不出什么道理，只是个定义而已，但我们做做变换，就能看出一些有意思的东西。首先注意到如果某个样本属于该类别的话，那么wxi+b>0（记得么？这是因为我们所选的 g(x)=wx+b 就通过大于 0还是小于 0来判断分类），而 yi也大于 0；若不大于现在那么这个 g(x 上节小 T 度量 p-范它的看看就像不属于该类于 0的，而在把w和 b 么间隔就可个公式是不 x)=0 的距离节中提到的 Tips：||w|| 量。我们常范数，可以向量w=(w 的 p-范数为看把 p换成像||w||这样使类别的话，那而且它的值就 b进行一下可以写成不是看上去有离公式嘛！的分类超平面 |是什么符号常说的向量长以写成如下表 w1,w2,w3, 为成 2的时候使用时，就那么wxi+b 就等于|wxi 归一化，即有点眼熟？（推广一下面）号？||w||叫长度其实指表达式 ……wn) ，不就是传就意味着我们 b<0，而 yi +b|！（也即用w/||w| 没错，这不下，是到超平做向量w的指的是它的 2 传统的向量长们不关心 p 也小于 0，也就是|g(xi)| ||和 b/||w|| 不就是解析平面 g(x)= 的范数，范 2-范数，范长度么？当 p的值，用几这意味着 |）分别代替原析几何中点 x 0的距离，范数是对向量范数最一般的当我们不指明几范数都可 yi(wxi+b)总原来的w和 xi到直线， g(x)=0 就量长度的一的表示形式明 p的时候可以；或者上总是和 b，就是一种式为候，上文已经当用几何离” 定义合中含义 H是 H，之所经提到了 p 用归一化的何间隔所表。以上是义，同样可以中离超平面义：是分类面， H2与 H之所以如此关的值，为了的w和 b代表示的正是点是单个点到某以定义一个面最近的点的而H1和 H 之间的距离就关心间隔这个了叙述方便替原值之后点到超平面某个超平面个点的集合的距离。下面 H2是平行于就是几何间个东西，是便不再重复指后的间隔有面的欧氏距离面的距离（就（就是一组面这张图更于H，且过离间隔。是因为间隔与指明。有一个专门的离，我们下面就是间隔，组样本）到某更加直观的展离H最近的与样本的误的名称，叫面就简称几后面不再区某个超平面展示出了几的两类样本误分次数间存叫做几何间隔几何间隔为区别这两个面的距离为此几何间隔的现本的直线，H 存在关系：隔， “距个词）此集现实 H1与其中的半和推以看至此的解二把类时但是样的这个一个一回隔（现在下来 SVM 中的 δ是样半径（也就是推导过程，只看出，误分此我们就明解，它的误差把刀作者所时期就已有是看过一些的说法，这个公式，这里个定值，注回事。而我们（例如固定在有了一个来自然关心 M入门( 4) 样本集合到分是说代表样只要记得这分次数的上界白为何要选差上界越小所写的不同，有的思想。些关于 SVM 这是怎么回事里的|g(x)|代意到间隔与们常用的方定为 1），寻个线性分类函心如何求解， )线性分类器分类面的间样本的分布有这个误分次数界由间隔决选择间隔来小。因此最大，最大化分的论文的人事呢？回头代表样本集与||w||是成反方法并不是寻找最小的函数，也有，且听下回器求解—— 间隔，R是空有多么广）数一定程度决定！（当然来作为评价一大化间隔成分类间隔并不人一定记得头再看看集到超平面反比的，因固定||w||的 ||w||。了判断解优回分解。 —问题描述空间中一个能）。先不必追度上代表分类然，是样本一个解优劣成了我们训练不是 SVM的得什么优化的 g(x)=0 距离因此最大化间的大小而寻求优劣的标准述 Part1 能完全包含追究误分次类器的误差本已知的时候劣的指标了练阶段的目的专利，而的目标是要离最近的点间隔与最小求最大间隔（有了优化含样本数据的次数的具体定差。而从上式候），原来间隔越目标，而且而是早在线性要最小化||w 点的值，因此小化||w||完全隔，而是固定化的目标）的球定义式可越大，与性分 w||这此是全是定间，接上节化的一定看看间隔几何可以隔与最大而凡个规题，要的 w||这但实是：不难节说到我们的目标，这定记得什么看我们对间隔：δ=y(w 何间隔：以看出 δ=| 与最小化||w 大几何间隔凡是求一个规划问题），因此我们下的部分是目这件事，就实际上对于：难看出当||w 有了一个线个目标就是么优化的目标间隔和几何间 wx+b)=|g(x |w||δ 几何。 w||完全是一隔，而是固定个函数的最小，又由于找下面讨论的标函数，顾就可以用下面于这个目标， w||2 达到最线性分类函是最大化几标是要最小间隔的定义 x)| 注意到几何一回事。而我定间隔（例小值（或最大找最大值的问的时候都针对顾名思义，面的式子表，我们常常使最小时，||w 函数，也有了几何间隔，但小化||w||这样义：何间隔与||w 我们常用的例如固定为 1 大值）的问问题总可以对找最小值就是指寻优表示：使用另一个 w||也达到最了判断解优但是看过一样的说法，这 w||是成反比的方法并不是 1），寻找最问题都可以称以通过加一个值的过程来进优的目标。个完全等价最小，反之亦优劣的标准— 些关于 SV 这是怎么回比的，因此是固定||w| 最小的||w| 称为寻优问个负号变为进行。一个例如我们想的目标函数亦然（前提 ——即有了 VM的论文的回事呢？回头此最大化几何 |的大小而寻 ||。问题（也叫作为找最小值的个寻优问题最想寻找最小数来代替，那提当然是||w 了优的人头再何间寻求作一的问最重小的|| 那就 w||描述的过程（正接下我们如果数的中，正样的被分类下可造成的是向量的程会对目标正如聪明的下来我们自们的问题是果直接来解的最小值。但，就是H1与样本还是负被分为正类类的另一种可好，所有成这种结果的长度，因而标函数作一系的读者所料，然会问的就是有一堆点，解这个求最小但是你也会与H2两条负样本）都跑类，H2左侧种理解是分给有样本点都进果的原因是在而是非负的系列变换，，添加的系就是，这个式，可以被分小值问题，会发现，无论条直线间的距跑到了H1和侧的被分为负给哪一类都进入了无法在描述问题）。之所以而式（1）系数二分之一式子是否就分成两类，我很容易看出论你给什么距离无限大和H2中间负类，位于都有道理，因法分类的灰色题的时候只考以采用这种形的形式会使一和平方，就描述了我们我们要找出出当||w||=0 么样的数据大，这个时候间，而我们原于两类中间的因而分给哪色地带。考虑了目标形式，是因使变换后的皆是为求导们的问题呢出最好的分类 0的时候就，都是这个候，所有的原本的意图的样本则拒一类也都没标，而没有加因为后面的求的形式更为简导数所需）呢？（回想一类面）就得到了目标个解！反映在的样本点（无图是，H1右拒绝分类（拒没有道理）加入约束条求解简洁。一下，标函在图无论右侧拒绝。这条件，约束须在我们隔定间隔成立 yi[( 但我 yi[( 因此的问下一解。 SVM 从最更文和约束条件就是在H1或 H 们前文提到定为 1（这也隔都不会小立： w·xi)+b]≥ 我们常常习 w·xi)+b]-1 此我们的两问题：一节我们从 M入门（五最一般的定文绉绉的叫约束条件，是在求解过程 2的某一侧到过把间隔固也是集合的小于 1，按照 1 (i=1,2,… 惯让式子的 1≥0 (i=1,2 两类分类问题从最一般的意五）线性分定义上说，一法是规划— 可以用下面程中必须满侧（或者至少固定为 1，这的间隔的定义照间隔的定义 …,l) （l 是总的值和 0比 2,…,l) （l 是题也被我们意义上看看分类器的求解一个求最小 ——Progra 面的式子表满足的条件少在H1和这是指把所义，有点绕义，满足这总的样本数比较，因而经是总的样本们转化成了它看一个求最小解——问题小值的问题就 amming）表示：，体现在我们和H2上），所有样本点中绕嘴），也就这些条件就相数）经常用变换本数）它的数学形小值的问题题的描述 Pa 就是一个优，它同样由们的问题中，而不能跑中间隔最小就意味着集相当于让下换过的形式形式，一个带题有何特征 art2 优化问题（也由两部分组中就是样本点跑到两者中间小的那一点的集合中的其他下面的式子总：带约束的最小，以及如何也叫寻优问组成，目标函点必间。的间他点总是小值何来问题，函数约束个约关于（视要求哪一找，要求每个束取关于其中是很就可回头束条件用函约束条件，于这个式子视乎你解决求 f(x)在哪一一点），但不，这个有限的求满足所有个约束），同取得等号！于可行域还中任取两个很形象的（一可以找到两头再来看我数 c来表示其中 p个是子可以这样来决的问题空间一点上取得不是在整个的空间就是有 p+q个条同时可行域而边界内的还有个概念不个点连一条直一个反例是两个点违反了我们线性分类示，就是 co 是不等式约来理解：式间维数，对得最小值（反个空间里找是优化理论里条件，而不是域边界上的点的点不行。不得不提，直线，这条线是，二维平面了刚才的规类器问题的（式 onstrain 的约束，q个等中的 x是自对我们的文本反倒不太关，而是在约里所说的可是满足其中点有一个额那就是凸集线上的点仍面上，一个规定）。的描述，可以 1）的意思啦。等式约束。自变量，但不本分类来说关心这个最小约束条件所划可行域。注意中一条或几条额外好的特性集，凸集是仍然在这个集个月牙形的区以看出更多（你可以看出不限定它的说，那可是成小值到底是划定的一个意可行域中条就可以（性，它们可是指有这么一集合内部，区域就不是多的东西。（式 2）出一共有 p 的维数必须成千上万啊是多少，关键个有限的空间中的每一个点切记，要满可以使不等式一个点的集，因此说“凸是凸集，你随 +q 为 1 啊）。键是间里点都满足式约集合，凸” 随便在这个问题中，自变量就是w，而目标函数是w的二次函数，所有的约束条件都是w的线性函数（哎，千万不要把 xi 当成变量，它代表样本，是已知的），这种规划问题有个很有名气的称呼——二次规划（QuadraticProgramming， QP），而且可以更进一步的说，由于它的可行域是一个凸集，因此它是一个凸二次规划。一下子提了这么多术语，实在不是为了让大家以后能向别人炫耀学识的渊博，这其实是我们继续下去的一个重要前提，因为在动手求一个问题的解之前（好吧，我承认，是动计算机求……），我们必须先问自己：这个问题是不是有解？如果有解，是否能找到？对于一般意义上的规划问题，两个问题的答案都是不一定，但凸二次规划让人喜欢的地方就在于，它有解（教科书里面为了严谨，常常加限定成分，说它有全局最优解，由于我们想找的本来就是全局最优的解，所以不加也罢），而且可以找到！（当然，依据你使用的算法不同，找到这个解的速度，行话叫收敛速度，会有所不同）对比（式 2）和（式 1）还可以发现，我们的线性分类器问题只有不等式约束，因此形式上看似乎比一般意义上的规划问题要简单，但解起来却并非如此。因为我们实际上并不知道该怎么解一个带约束的优化问题。如果你仔细回忆一下高等数学的知识，会记得我们可以轻松的解一个不带任何约束的优化问题（实际上就是当年背得烂熟的函数求极值嘛，求导再找 0点呗，谁不会啊？笑），我们甚至还会解一个只带等式约束的优化问题，也是背得烂熟的，求条件极值，记得么，优化化之读者不可聪明旦转 SVM 让我点（圆形形的，通过添加拉化问题云云之后的问题者问：如果只可以把带不明，可以，实转化完成， M入门（六我再一次比（并不限定形的样本点的点定为负拉格朗日乘云（如果你一题形式，它显只带等式约不等式约束的实际上我们求解对任何六）线性分比较完整的重定这些点在二点定为正样本负例。我们想乘子，构造拉一时没想通显然没有带约束的问题可的问题向只们也正是这么何学过高等分类器的求解重复一下我二维空间中本（连带着想求得这样一拉格朗日函，我提醒一带任何条件）可以转化为只带等式约束么做的。下等数学的人来解——问题我们要解决的中）若干，如，我们可以一个线性函函数，来把这一下，构造出）。为无约束的束的问题转下一节就来说来说，都是题的转化，直的问题：我们如图，以把正样本所函数（在 n维这个问题转出的拉格朗问题而得以转化一下而得说说如何做是小菜一碟啦直观角度们有属于两所属的类叫维空间中的转化为无约束朗日函数就是以求解，那么得以求解呢做这个转化啦。两个类别的样叫做正类）的线性函数束的是转么可呢？，一样本，方）： g(x)=wx+b 使得所有属于正类的点 x+代入以后有 g(x+)≥1，而所有属于负类的点 x-代入后有 g(x-)≤-1（之所以总跟 1比较，无论正一还是负一，都是因为我们固定了间隔为 1，注意间隔和几何间隔的区别）。代入 g(x)后的值如果在 1和-1 之间，我们就拒绝判断。求这样的 g(x)的过程就是求w（一个 n维向量）和 b（一个实数）两个参数的过程（但实际上只需要求w，求得以后找某些样本点代入就可以求得 b）。因此在求 g(x)的时候，w才是变量。你肯定能看出来，一旦求出了w（也就求出了 b），那么中间的直线H就知道了（因为它就是wx+b=0 嘛，哈哈），那么H1和 H2也就知道了（因为三者是平行的，而且相隔的距离还是||w||决定的）。那么w是谁决定的？显然是你给的样本决定的，一旦你在空间中给出了那些个样本点，三条直线的位置实际上就唯一确定了（因为我们求的是最优的那三条，当然是唯一的），我们解优化问题的过程也只不过是把这个确定了的东西算出来而已。样本确定了w，用数学的语言描述，就是w可以表示为样本的某种组合： w=α1x1+α2x2+…+αnxn 式子中的 αi 是一个一个的数（在严格的证明过程中，这些 α被称为拉格朗日乘子），而 xi 是样本点，因而是向量，n就是总样本点的个数。为了方便描述，以下开始严格区别数字与向量的乘积和向量间的乘积，我会用 α1x1 表示数字和向量的乘积，而用表示向量 x1,x2 的内积（也叫点积，注意与向量叉积的区别）。因此 g(x)的表达式严格的形式应该是： g(x)=+b 但是上面的式子还不够好，你回头看看图中正样本和负样本的位置，想像一下，我不动所有点的位置，而只是把其中一个正样本点定为负样本点（也就是把一个点的形状从圆形变为方形），结果怎么样？三条直线都必须移动（因为对这三条直线的要求是必须把方形和圆形的点正确分开）！这说明w不仅跟样本点的位置有关，还跟样本的类别有关（也就是和样本的“标签”有关）。因此用下面这个式子表示才算完整： w=α1y1x1+α2y2x2+…+αnynxn （式 1）其中的 yi 就是第 i 个样本的标签，它等于 1或者-1。其实以上式子的那一堆拉格朗日乘子中，只有很少的一部分不等于 0（不等于 0才对w起决定作用），这部分不等于 0的拉格朗日乘子后面所乘的样本点，其实都落在H1和 H2 上，也正是这部分样本（而不需要全部样本）唯一的确定了分类函数，当然，更严格的说，这些样本的一部分就可以确定，因为例如确定一条直线，只需要两个点就可以，即便有三五个都落在上面，我们也不是全都需要。这部分我们真正需要的样本点，就叫做支持（撑）向量！（名字还挺形象吧，他们“撑”起了分界线）式子也可以用求和符号简写一下：因此注意到向量发现但肯不见式约类器 SVM 生存可分此原来的 g 意式子中 x x 的位置，量，因此一现了什么？肯定有人会见的地方，以约束（记得这器求解的部 M入门（七存？还是毁分？还是不 (x)表达式可才是变量，而所有的一部分可以从 w不见啦会说，这并没以这样的形这是我们解部分，来看看七）为何需毁灭？——哈不可分？—— 可以写为：，也就是你要 xi统统都是从内积符号！从求w变没有把原问题形式描述问题解不了极值看 SVM在需要核函数哈姆雷特 —支持向量要分类哪篇是已知的样号中拿出来变成了求 α。题简化呀。题以后，我问题的万恶在线性分类器量机篇文档，就把本。还注意，得到 g(x) 。嘿嘿，其实我们的优化问恶之源）。但器上所做的把该文档的意到式子中只 )的式子为实简化了，问题少了很但是接下来的重大改进— 的向量表示代只有 xi和 x ：只不过在你很大一部分不来先跳过线性 ——核函数代入 x是你看不等性分数。之前可分解程的很数有！白。在此例子我们里的空间但我前一直在讨分的样本做程序会无限很多优点我据变得线性！其思想说来事先声明此借用，并子是下面这们把横轴上的点定为负间里的线性我们可以找讨论的线性分做处理。如果限循环，永远我们实在不原性可分呢？来也简单，，下面这个例并加进了我自这张图：上端点 a和 b 负类。试问能性函数就是指找到一条曲线分类器,器如果提供的样本远也解不出来原意放弃，怎来用一个二例子是网络自己的解说 b之间红色能找到一个线指直线，显线，例如下如其名（汗本线性不可来。这必然怎么办呢？二维平面中络早就有的说而已。色部分里的所线性函数把显然找不到符下面这一条，这是什么可分，结果很然使得它的适？是否有某种中的分类问题，我一时找不所有点定为把两类正确分符合条件的：么说法啊）很简单，线性适用范围大种方法，让题作例子，不到原作者为正类，两边分开么？不的直线。，只能对线性分类器的大大缩小，而让线性不可分你一看就会者的正确信边的黑色部不能，因为二线性的求而它分的会明息，部分二维显然便找一定问题这样等于 g(x 在任都是然通过点在找一点，算算定比 0小）题只是它不样 g(x)就可于原来的 g x)=f(y)=ay 任意维度的是多维向量在这条曲线的算这一点的。这条曲线不是一个线性可以转化为 f (x)。用内积的空间中，这量罢了），因的上方还是的函数值，会线就是我们性函数，但 f(y)= 积的形式写你这种形式的因为自变量是下方就可以会发现负类们熟知的二次但是，下面要 >，你可以你可能看不函数都是一量 y的次数不以判断点所的点函数值次曲线，它要注意看了以把 y和 a分不太清楚，实一个线性函不大于 1。所属的类别（值一定比 0 它的函数表达了，新建一个分别回带一实际上 f(y) 数（只不过你在横轴上大，而正类达式可以写个向量 y和一下，看看等 )的形式就是过其中的 a 上随类的写为：和 a：等不是：和 y 看出妙在哪了么？原来在二维空间中一个线性不可分的问题，映射到四维空间后，变成了线性可分的！因此这也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化，使其变得线性可分。而转化最关键的部分就在于找到 x到 y的映射方法。遗憾的是，如何找到这个映射，没有系统性的方法（也就是说，纯靠猜和凑）。具体到我们的文本分类问题，文本被表示为上千维的向量，即使维数已经如此之高，也常常是线性不可分的，还要向更高的空间转化。其中的难度可想而知。小 Tips:为什么说 f(y)=ay是四维空间里的函数? 大家可能一时没看明白。回想一下我们二维空间里的函数定义 g(x)=ax+b 变量 x是一维的，为什么说它是二维空间里的函数呢？因为还有一个变量我们没写出来，它的完整形式其实是 y=g(x)=ax+b 即 y=ax+b 看看，有几个变量？两个。那是几维空间的函数？（作者五岁的弟弟答：五维的。作者：……）再看看 f(y)=ay 里面的 y是三维的变量，那 f(y)是几维空间里的函数？（作者五岁的弟弟答：还是五维的。作者：……）用一个具体文本分类的例子来看看这种向高维空间映射从而分类的方法如何运作，想象一下，我们文本分类问题的原始空间是 1000 维的（即每个要被分类的文档被表示为一个 1000 维的向量），在这个维度上问题是线性不可分的。现在我们有一个 2000 维空间里的线性函数 f(x’)=+b 注意向量的右上角有个’哦。它能够将原问题变得可分。式中的w’和 x’都是 2000 维的向量，只不过w’是定值，而 x’是变量（好吧,严格说来这个函数是 2001 维的,哈哈），现在我们的输入呢，是一个 1000 维的向量 x，分类的过程是先把 x变换为 2000 维的向量 x’，然后求这个变换后的向量 x’与向量 w’的内积，再把这个内积的值和 b相加，就得到了结果，看结果大于阈值还是小于阈值就得到了分类结果。你发现了什么？我们其实只关心那个高维空间里内积的值，那个值算出来了，分类结果就算出来了。而从理论上说， x’是经由 x变换来的，因此广义上可以把它叫做 x的函数（有一个 x，就确定了一个 x’，对吧，确定不出第二个），而 w’是常量，它是一个低维空间里的常量w经过变换得到的，所以给了一个w 和 x 的值，就有一个确定的 f(x’)值与其对应。这让我们幻想，是否能有这样一种函数 K(w,x),他接受低维空间的输入值，却能算出高维空间的内积值？如果有这样的函数，那么当给了一个低维空间的输入 x以后， g(x)=K(w,x)+b f(x’ 这两拿低啦，万幸得不解决一个数的维空不敲回想现在我改里的 )=+b 的计算结果就入往 g(x)里面不能保证 K(w 样的 K(w,x 特殊得不能感到人类的渺上，只要是满就是接受两量内积值。）。节说的求一个是高维空间里的名字，并且再一次的，这就完全一样面代就可以 w,x)这个表 x)确实存在能再特殊的渺小），它满足了Mer 两个低维空几个比较个线性分类里的线性函且给w和 x 这个低维空样，我们也就以了（再次提表达式里的 x 在（发现凡是的问题，总是它被称作核函 rcer 条件的空间里的向量较常用的核函类器，它的形函数（为了区 x都加上了空间里的函数就用不着费力提醒，这回 x次数不高是我们人类能是恰好有些函数（核，的函数，都量，能够计算函数，俄形式应该是区别低维和高 ’），我们数就不再是力找那个映回的 g(x)就不高于 1哦）。能解决的问些能投机取巧 kernel），都可以作为算出经过某，教课书里是：高维空间里们就可以用是线性的啦）映射关系，直不是线性函。问题，大都是巧的地方才，而且还不核函数。核某个变换后在里都列过，我里的函数和向用一个低维空）来代替，直接函数是巧才能不止核函在高我就向量，空间又发现什么了？f(x’)和 g(x)里的 α，y，b全都是一样一样的！这就是说，尽管给的问题是线性不可分的，但是我们就硬当它是线性问题来求解，只不过求解过程中，凡是要求内积的时候就用你选定的核函数来算。这样求出来的 α再和你选定的核函数一组合，就得到分类器啦！明白了以上这些，会自然的问接下来两个问题： 1．既然有很多的核函数，针对具体问题该怎么选择？ 2．如果使用核函数向高维空间映射后，问题仍然是线性不可分的，那怎么办？第一个问题现在就可以回答你：对核函数的选择，现在还缺乏指导原则！各种实验的观察结果（不光是文本分类）的确表明，某些问题用某些核函数效果很好，用另一些就很差，但是一般来讲，径向基核函数是不会出太大偏差的一种，首选。（我做文本分类系统的时候，使用径向基核函数，没有参数调优的情况下，绝大部分类别的准确和召回都在 85%以上，可见。虽然 libSVM的作者林智仁认为文本分类用线性核函数效果更佳，待考证）对第二个问题的解决则引出了我们下一节的主题：松弛变量。 SVM入门（八）松弛变量现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形然很映射但是形和方形的很大了）。现射到高维空是这个样本的点各有成千现在想象我们空间以后（当本的位置是这千上万个（毕们有另一个当然，也使这样的：毕竟，这就个训练集，只使用了相同的就是我们训练只比原先这个的核函数）练集中文档个训练集多，也就多了档的数量嘛多了一篇文了一个样本，当章，本点，就是图中黄色那个点，它是方形的，因而它是负类的一个样本，这单独的一个样本，使得原本线性可分的问题变成了线性不可分的。这样类似的问题（仅有少数点线性不可分）叫做“近似线性可分”的问题。以我们人类的常识来判断，说有一万个点都符合某种规律（因而线性可分），有一个点不符合，那这一个点是否就代表了分类规则中我们没有考虑到的方面呢（因而规则应该为它而做出修改）？其实我们会觉得，更有可能的是，这个样本点压根就是错误，是噪声，是提供训练集的同学人工分类时一打瞌睡错放进去的。所以我们会简单的忽略这个样本点，仍然使用原来的分类器，其效果丝毫不受影响。但这种对噪声的容错性是人的思维带来的，我们的程序可没有。由于我们原本的优化问题的表达式中，确实要考虑所有的样本点（不能忽略某一个，因为程序它怎么知道该忽略哪一个呢？），在此基础上寻找正负类之间的最大几何间隔，而几何间隔本身代表的是距离，是非负的，像上面这种有噪声的情况会使得整个问题无解。这种解法其实也叫做“硬间隔”分类法，因为他硬性的要求所有样本点都满足和分类平面间的距离必须大于某个值。因此由上面的例子中也可以看出，硬间隔的分类法其结果容易受少数点的控制，这是很危险的（尽管有句话说真理总是掌握在少数人手中，但那不过是那一小撮人聊以自慰的词句罢了，咱还是得民主）。但解原先几何意思 1这因为出现点的处，低维很明应的解决方法也先的要求。由何间隔）来思是说离分这个硬性的阈为松弛变量现这种间隔的精确分类，那就是使分维空间看来明显，我们得的优化问题也很明显，就由于不同的来衡量有利于分类面最近的阈值加一个量是非负的，隔比 1小的情类，而这对我分类面不必来，分类边界得到的分类题：就是仿照人的的训练集各点于我们表达的样本点函个松弛变量，因此最终的情况时（这些我们的分类器必向这些点的界也更平滑类间隔越大的思路，允点的间距尺达形式的简洁函数间隔也要，即允许的结果是要些点也叫离器来说是种的方向移动）。显然我，好处就越允许一些点到尺度不太一样洁。我们原要比 1大。要求间隔可以离群点），意种损失。但是动，因而可以我们必须权衡越多。回顾我到分类平面样，因此用原先对样本点如果要引入以比 1小。意味着我们放是放弃这些以得到更大的衡这种损失我们原始的面的距离不满用间隔（而不点的要求是入容错性，就但是当某些放弃了对这些点也带来了的几何间隔失和好处。好的硬间隔分类满足不是是：就给些点这些了好隔（在好处类对 ||w| 就必标函而有其中法的目标中的这个一是或者 ||2就是我们必然是一个函数值越小有人喜欢用中 l 都是样本的就叫做二标函数里的的 C），原来个式子有这是并非所有者也可以这们的目标函个能使之变大小越好）。那本的数目。二阶软间隔分的时候，就需来的优化问这么几点要注有的样本点都这么看，所有数（当然系大的量（能那如何来衡两种方法没分类器，第二需要一个惩问题就变成注意：都有一个松有没离群的系数可有可能使它变小就衡量损失，有没有大的区二种就叫做惩罚因子（c 成了下面这样松弛变量与其的点松弛变量可无），希望就不叫损失有两种常用区别。如果选做一阶软间隔 cost，也就样：其对应。实际量都等于 0 望它越小越失了，我们用的方式，有选择了第一隔分类器。把就是 libSVM 际上只有“ （对负类来越好，因而损们本来就希望有人喜欢用一种，得到的把损失加入 M的诸多参 “离群点”才来说，离群损失望目用的方入到参数才有，群点就是在前面图中，跑到H2右侧的那些负样本点，对正类来说，就是跑到H1左侧的那些正样本点）。二是松弛变量的值实际上标示出了对应的点到底离群有多远，值越大，点就越远。三是惩罚因子 C决定了你有多重视离群点带来的损失，显然当所有离群点的松弛变量的和一定时，你定的C越大，对目标函数的损失也越大，此时就暗示着你非常不愿意放弃这些离群点，最极端的情况是你把C定为无限大，这样只要稍有一个点离群，目标函数的值马上变成无限大，马上让问题变成无解，这就退化成了硬间隔问题。四是惩罚因子 C不是一个变量，整个优化问题在解的时候，C是一个你必须事先指定的值，指定这个值以后，解一下，得到一个分类器，然后用测试数据看看结果怎么样，如果不够好，换一个C的值，再解一次优化问题，得到另一个分类器，再看看效果，如此就是一个参数寻优的过程，但这和优化问题本身决不是一回事，优化问题在解的过程中，C一直是定值，要记住。五是尽管加了松弛变量这么一说，但这个优化问题仍然是一个优化问题（汗，这不废话么），解它的过程比起原始的硬间隔问题来说，没有任何更加特殊的地方。从大的方面说优化问题解的过程，就是先试着确定一下w，也就是确定了前面图中的三条直线，这时看看间隔有多大，又有多少点离群，把目标函数的值算一算，再换一组三条直线（你可以看到，分类的直线位置如果移动了，有些原来离群的点会变得不再离群，而有的本来不离群的点会变成离群点），再把目标函数的值算一算，如此往复（迭代），直到最终找到目标函数最小时的w。啰嗦了这么多，读者一定可以马上自己总结出来，松弛变量也就是个解决线性不可分问题的方法罢了，但是回想一下，核函数的引入不也是为了解决线性不可分的问题么？为什么要为了一个问题使用两种方法呢？其实两者还有微妙的不同。一般的过程应该是这样，还以文本分类为例。在原始的低维空间中，样本相当的不可分，无论你怎么找分类平面，总会有大量的离群点，此时用核函数向高维空间映射一下，虽然结果仍然是不可分的，但比原始空间里的要更加接近线性可分的状态（就是达到了近似线性可分的状态），此时再用松弛变量处理那些少数“冥顽不化”的离群点，就简单有效得多啦。本节中的（式 1）也确实是支持向量机最最常用的形式。至此一个比较完整的支持向量机框架就有了，简单说来，支持向量机就是使用了核函数的软间隔线性分类法。下一节会说说松弛变量剩下的一点点东西，顺便搞个读者调查，看看大家还想侃侃 SVM的哪些方面。 SVM入门（九）松弛变量（续）接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意 C越就这我们视程小的就给当问题先来类的个样意其中C的越大越重视这么用，但们完全可以程度都不一的 C；而有些给一个很大然实际使用题中样本的来说说样本的两个类别样本，而负类的位置，也可，越不想丢但没有任何规以给每一个离一样，有些样些样本很重大的 C。用的时候并的“偏斜”问本的偏斜问题（也可以指类只给了 1 可以回想一丢掉它们）规定说必须离群点都使样本丢了也重要，决不能并没有这么极问题。题，也叫数据指多个类别 100个，这一下C所起的。这个式子须对所有的使用不同的 C 也就丢了，能分类错误极端，但一数据集偏斜）样本数量这会引起的问的作用（表征子是以前做的松弛变量都 C，这时就意错了也就错误（比如中央一种很常用的斜（unbalan 量差异很大。问题显而易征你有多么 SVM的人都使用同一意味着你对错了，这些央下达的文件的变形可以 nced），它。比如说正见，可以看么重视离群点人写的，大家一个惩罚因子对每个样本的些就给一个比件啥的，笑以用来解决分它指的是参与正类有 10，看看下面的图点，家也子，的重比较笑），分类与分 000 图：方形样本方形 H1 现

                    本文档为【支持向量机入门】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

支持向量机入门

你可能还喜欢