人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。今天我们重点探究一下CART算法。
继上两篇决策树算法之ID3算法[参看人工智能(41)]和ID3的改良算法-C4.5算法[参看人工智能(42)]后,本文之后辩论另一种二分决策树算法-CART算法。我们告诉十大机器学习中决策树算法占据两席方位,即C4.5算法和CART算法,可见CART算法的重要性。下面重点讲解CART算法。不同于ID3与C4.5,CART为一种二分决策树,是剩二叉树。
CART算法由Breiman等人在1984年明确提出,它使用与传统统计学几乎有所不同的方式建构预测准则,它是以二叉树的形式得出,更容易解读、用于和说明。由CART模型建构的预测树根在很多情况下比常用的统计资料方法建构的代数学预测准则更为精确,且数据就越简单、变量就越多,算法的优越性就就越明显。CART算法既可用作分类也可用作重返。CART算法被称作数据挖掘领域内里程碑式的算法。
CART算法概念:CART(ClassificationandRegressionTree)分类重返树根是一种决策树建构算法。CART是在等价输出随机变量X条件下输入随机变量Y的条件概率分布的自学方法。CART假设决策树是二叉树,内部结点特征的给定为“是”和“否”,左分支是给定为“是”的分支,右分支是给定为“否”的分支。
这样的决策树等价于迭代地二分每个特征,将输出空间即特征空间区分为受限个单元,并在这些单元上确认预测的概率分布,也就是在输出等价的条件下输入的条件概率分布。CART算法既可以处置线性型问题,也可以处置连续型问题。这种算法在处置连续型问题时,主要通过用于二元重复来处置连续型变量,即特征值小于某个等价的值就回头左子树,或者就回头右子树。CART算法构成:CART算法构成如下:1)决策树分解:基于训练数据集分解决策树,分解的决策树要尽可能大;自上而下从六根开始创建节点,在每个节点处要自由选择一个最差(有所不同算法用于有所不同指标来定义"最差")的属性来分化,使得子节点中的训练数据集尽可能的纯。
2)决策树剪枝:用检验数据集对已分解的树展开剪枝并自由选择拟合子树,这时损失函数大于作为剪枝的标准。这里用代价复杂度剪枝CCP(Cost-ComplexityPruning)。决策树的分解就是通过迭代地建构二叉决策树的过程,对重返树用平方误差最小化准则,对分类树用基尼指数最小化准则,展开特征选择,分解二叉树。CART决策树分解:1)重返树根分解重返树根使用均方误差作为损失函数,树根分解时会迭代的按拟合特征与拟合特征下的拟合给定对空间展开区分,直到符合暂停条件为止,暂停条件可以人为原作,比如当重复后的损失增大值大于等价的阈值ε,则暂停重复,分解叶节点。
对于分解的重返树根,每个叶节点的类别为落在该叶节点数据的标签的均值。重返树根为一棵二叉树,每次都是按特征下的某个给定展开区分,每一个内部节点都是做到一个对应特征的辨别,以后跑到叶节点获得其类别,建构这棵树的难题在于如何挑选拟合的重复特征与重复特征对应的重复变量。重返树根与模型树根既可以处置倒数特征也可以处置线性特征。重返树根分解算法如下:输出:训练数据集D={(x1,y1),(x2,y2),…,(xN,yN)}输入:重返树T1)解法自由选择重复特征j与重复特征给定s,j将训练集D区分为两部分,R1与R2,依照(j,s)重复后如下:R1(j,s)={xi|xji≤s}R2(j,s)={xi|xji>s}c1=1N1∑xi∈R1yic2=1N2∑xi∈R2yi2)迭代所有有可能的解法(j,s),寻找拟合的(j*,s*),拟合的解法使得对应损失大于,按照拟合特征(j*,s*)来重复才可。
Min{∑(yi–c1)^2+∑(yi–c2)^2}j,sxi∈R1xi∈R23)迭代调用1)和2),直到符合暂停条件。4)回到决策树T。重返树根主要使用了共管策略,对于无法用唯一的全局线性重返来优化的目标展开分而治之,进而获得较为精确的结果,但分段所取均值并不是一个明智的自由选择,可以考虑到将叶节点设置为一个线性函数,这乃是所谓的分段线性模型树根。实验指出:模型树根效果比重返树根的效果要好一些。
模型树根只需在重返树根的基础上稍作改动才可,对于分出叶节点的数据,使用线性重返的大于均方损失来计算出来该节点的损失。2)分类树根分解分类树根是CART中用来分类的,不同于ID3与C4.5,CART分类树根使用基尼指数来自由选择拟合的重复特征,而且每次都是二分。
基尼指数是一个类似于与熵的概念,对于一个有K种状态对应的概率为p1,p2,…,pK的随机变量X,其基尼指数Gini定义如下:Gini(X)=∑pk(1?pk)=1?∑kp2kkk在未知特征A条件下子集D的基尼指数:Gini(D,A)=(|D1|/|D|)*Gini(D1)+(|D2|/|D|)*Gini(D2)Gini(D,A)给定越大,样本的不确定性也越大,这一点与熵类似于,所以自由选择特征A的标准是Gini(D,A)的给定越小越好。分类树根分解算法如下:输出:训练数据集D={(x1,y1),(x2,y2),…,(xN,yN)},暂停条件输入:分类树T1)利用特征A的给定a将数据分成两部分,计算出来A=a时的基尼系数:Gini(D,A)=(|D1|/|D|)*Gini(D1)+(|D2|/|D|)*Gini(D2)2)对整个数据集中于所有的有可能特征A以及其有可能给定a挑选基尼系数大于的特征A*与特征下的给定a*,来将数据集重复,将数据D1、D2分出两个子节点中去。3)对子节点迭代调用1)和2),以后符合暂停条件4)回到CART树T该算法暂停条件可以是节点中的样本数无法大于等价阈值,或者样本集的基尼系数大于等价阈值,或者没更好的特征。3)剪枝CART必须对分解的树展开剪枝,防止模型过度数值训练数据,剪枝时用于的损失函数如下:Ca(T)=C(T)+a|T|C(T)为树T对训练数据的误差,可以用基尼系数或者均方损失来回应,a≥0代表一个权衡训练数据损失C(T)与总节点数|T|的参数,Ca(T)代表了树T的整体损失,对于相同的a,一定不存在一个确认的使得Ca(T)大于的子树,当a稍大时,|T|稍小,树T的规模稍小,反之,树T的规模稍大,Breiman等人使用迭代的方法对CART展开剪枝,将a自小减小0=a0<a1<…<an,如此产生的区间a∈[ai,ai+1),i=1,2,…,n用对应此区间的a产生一系列的子树序列{T0,T1,…,Tn}这里Ti+1总是由Ti剪枝后产生。
剪枝算法如下:输出:CART分解树T0输入:剪枝后的拟合树T*1)设k=0,T=T0,a=+∞3)自下而上的对内部节点t计算出来:g(t)=[Ct?C(Tt)]/(|Tt|?1)a=min(a,g(t))4)自上而下的采访内部节点t,对大于的g(t)=a展开剪枝,并对叶节点t以多数投票表决形式要求其类别,获得树T5)k=k+1,ak=a,Tk=T6)如果T为非单节点树根,返回4)7)对于产生的子树序列{T0,T1,…,Tn}分别计算出来损失,获得拟合子树T*并回到.剪枝后的树乃是所必须的CART决策树。CART优点:1)可以分解可以解读的规则;2)计算出来量相对来说不是相当大;3)可以处置倒数和种类字段;4)决策树可以明晰的表明哪些字段较为最重要。CART缺点:1)对连续性的字段较为无以预测;2)对有时间顺序的数据,必须很多预处理的工作;3)当类别过于多时,错误有可能就不会减少的较为慢;4)一般的算法分类的时候,只是根据一个字段来分类。CART应用于场景:CART算法既可以处置线性型问题,也可以处置连续型问题。
CART算法是一种十分有意思且十分有效地的非参数分类和重返方法。它通过建构二叉树超过预测目的。它已在统计资料、数据挖掘和机器学习领域中广泛用于,是一种应用于普遍的决策树算法。
结语:CART模型最先由Breiman等人明确提出,它使用与传统统计学几乎有所不同的方式建构预测准则,它是以二叉树形式得出,更容易解读、用于和说明。由CART模型建构的预测树根在很多情况下比常用的统计资料方法建构的代数学预测准则更为精确,且数据就越简单、变量就越多,CART算法优越性就就越明显。
模型的关键是预测准则的建构。CART算法在统计资料、数据挖掘和机器学习等领域获得广泛应用。
本文来源:178看球直播app下载-www.kiwi-english.com
面包也写作麺包,一种用五谷(一般是麦类)磨粉制作并加热而制成的食品。以小麦粉为主要原料,以酵母、鸡蛋、油脂、糖、盐等为辅料,加水调制成面团,经过分割、成形、醒发、...
面包也写作麺包,一种用五谷(一般是麦类)磨粉制作并加热而制成的食品。以小麦粉为主要原料,以酵母、鸡蛋、油脂、糖、盐等为辅料,加水调制成面团,经过分割、成形、醒发、...
面包也写作麺包,一种用五谷(一般是麦类)磨粉制作并加热而制成的食品。以小麦粉为主要原料,以酵母、鸡蛋、油脂、糖、盐等为辅料,加水调制成面团,经过分割、成形、醒发、...
面包也写作麺包,一种用五谷(一般是麦类)磨粉制作并加热而制成的食品。以小麦粉为主要原料,以酵母、鸡蛋、油脂、糖、盐等为辅料,加水调制成面团,经过分割、成形、醒发、...
Copyright © 2006-2024 www.kiwi-english.com. 178看球直播app下载科技 版权所有 地址:安徽省宿州市宿城区平化大楼355号 备案号:ICP备90156058号-5