本文目录一览

1,随机森林和gbdt算法的不同点

不了解什么是随机森林。感觉应该是一种算法。如果做计算机视觉建议你用OpenCV,R语言主要用在统计分析、机器学习领域。你找几篇这方面的文献看看别人跟你做类似课题时是用C++还是R。
搜一下:随机森林和gbdt算法的不同点

随机森林和gbdt算法的不同点

2,python中gbdt可以输出对应的树或者决策规则吗

首先看你是一个什么定位了,是应届生,还是有一定数据挖掘分析经验的人员。 如果是应届生,你只需知道这些算法的基本概念并且能举出相应的例子,这个网上都有,各个经典算法的例子,还是很容易理解的。 当然你要是有经验的数据分析工作者
应该不能吧。

python中gbdt可以输出对应的树或者决策规则吗

3,gbdt多分类预测结果代表什么意思

二分类,就是说把数据分成2类,要么A,要么B。。。。。算法结果上,会计算出一个打分,比如这个模型认为这个数据的最终分数是0.6,如果你把A类的阈值定在0.5,那么这个数据它就是A类。。。
传统gbdt以cart作为基分类器,xgboost还支持线性分类器

gbdt多分类预测结果代表什么意思

4,xgboostgbdt在调参时为什么树的深度很少就能达到很高的精度

考虑这个简化的操作:试想把树的深度设为2,那么gbdt里面的基学习器都是二分类决策树,然后自己在二维坐标系上画很多点,然后不停的用boosting的方法用二分类决策树去进行分类,不同的是,我们简化权重的计算方式,初始化权重都为1,每次分错权重不变,分对则权重将为原来的一半,最终能用深度为2的树成功对很多不规则的点进行分类。然而用深度为2的树,用类似RF的bagging方法也能成功对不规则的点分类。所以到这里,我们实际操作了,用深度低的树通过ensemble对于不规则的点的分类这种“黑科技”。那么为什么gbdt在树的深度很小的时候能很快达到很高的预测或分类精度呢?或者说,它比RF明显。我的理解是,因为gbdt更多的是一种优化算法。具体怎么优化的,期待牛人用公式解答。

5,Bagging与Boosting最大的不同在哪里

【机器学习】boosting和bagging的差别boosting和bagging的差别:bagging中的模型是强模型,偏差低,方差高。目标是降低方差。在bagging中,每个模型的bias和variance近似相同,但是互相相关性不太高,因此一般不能降低bias,而一定程度上能降低variance。典型的bagging是random forest。boosting中每个模型是弱模型,偏差高,方差低。目标是通过平均降低偏差。boosting的基本思想就是用贪心法最小化损失函数,显然能降低偏差,但是通常模型的相关性很强,因此不能显著降低variance。典型的boosting是adaboost,另外一个常用的并行boosting算法是gbdt(gradient boosting decision tree)。这一类算法通常不容易出现过拟合。过拟合的模型,通常variance比较大,这时应该用bagging对其进行修正。欠拟合的模型,通常bias比较大,这时应该可以用boosting进行修正。使用boosting时, 每一个模型可以简单一些。金融常见的问题,是只用linear regression,这样一般来讲是欠拟合的,因此需要引入一些非线性的特征,欠拟合的模型可以先使用boosting尝试一下,如果效果不好,再使用其他的方法。过拟合的方法,通常使用bagging是会有一定的作用的。
两种不同的集成算法,Bagging采用重复取样:boostrap 每个个体分类器所采用的训练样本都是从训练集中按等概率抽取的,因此Bagging的各子网能够很好的覆盖训练样本空间,从而有着良好的稳定性。 而Boosting注重分类错误的样本,将个体子网分类错误的训练样本的权重提高,降低分类错误的样本权重,并依据修改后的样本权重来生成新的训练样本空间并用来训练下一个个体分类器。然而,由于Boosting算法可能会将噪声样本或分类边界样本的权重过分累积,因此Boosting很不稳定,但其在通常情况下,其泛化能力是最理想的集成算法之一。 你得自己去查文献,别来这问,这没人做学术的,我也是偶尔看到你的提问。

6,机器学习和统计里面的auc怎么理解

很多,主要说下监督学习这块的算法哈。欢迎讨论。svm,支撑向量机,通过找到样本空间中的一个超平面,实现样本的分类,也可以作回归,主要用在文本分类,图像识别等领域,详见:;lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在ctr预估、等;nn,神经网络,通过找到某种非线性模型拟合数据,主要用在图像等;nb,朴素贝叶斯,通过找到样本所属于的联合分步,然后通过贝叶斯公式,计算样本的后验概率,从而进行分类,主要用来文本分类;dt,决策树,构建一棵树,在节点按照某种规则(一般使用信息熵)来进行样本划分,实质是在样本空间进行块状的划分,主要用来分类,也有做回归,但更多的是作为弱分类器,用在model embedding中;rf,随进森林,是由许多决策树构成的森林,每个森林中训练的样本是从整体样本中抽样得到,每个节点需要进行划分的特征也是抽样得到,这样子就使得每棵树都具有独特领域的知识,从而有更好的泛化能力;gbdt,梯度提升决策树,实际上也是由多棵树构成,和rf不同的是,每棵树训练样本是上一棵树的残差,这体现了梯度的思想,同时最后的结构是用这所有的树进行组合或者投票得出,主要用在、相关性等;knn,k最近邻,应该是最简单的ml方法了,对于未知标签的样本,看与它最近的k个样本(使用某种距离公式,马氏距离或者欧式距离)中哪种标签最多,它就属于这类;
——知乎:项亮你也可以将每个样本的score加上一个极其小的随机数。这样就不会出现相等了。发布于 2016-06-27李润泽机器学习殿堂级入门选手1 人赞同了该回答可以参考周老师《机器学习》书中的第二章,p34-35的内容发布于 2016-06-28木成雪特困生,铲屎官4 人赞同了该回答一般而言,如果正样本score大于负样本,这个正负样本对的权重为1,小于为0,而等于则为0.5,这样的所有正负样本对的权重加起来就是auc的分子,分母就是正负样本对的个数。几何上看,正样本score等于负样本在roc的图上就是梯形的三角部分,由于算面积要除2,即权重为0.5,所以相当于rank取平均可参看此文理解auc - 木成雪

文章TAG:gbdt算法  随机森林和gbdt算法的不同点  
下一篇