本文目录一览

1,监督学习 非监督学习 半监督学习 包含哪些算法

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

监督学习 非监督学习 半监督学习 包含哪些算法

2,适合于多分类的半监督学习算法有哪些

maxsoft作为logistics二分类的改进版,天生适合多分类;神经网络(如bp神经网络,随机权神经网络,RBF神经网络等);通过建立多个支持向量机或者最小二乘支持向量机分类模型,通过投票算法选择概率最大的分类标签;也可以通过聚类算法(KNN,kMeans等)等无监督学习算法实现分类。或许不太完善,欢迎补充。(机器学习算法与Python学习)
参考答案 拿份报纸上厕所,俺是读书人

适合于多分类的半监督学习算法有哪些

3,半监督学习和无监督学习的区别

听他人说的:无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,个人认为他们的区别在于无监督学习一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络修正的。但是无监督学习没有反向传播修改权值操作,当然这里只是说的是特征提取阶段。
半监督现在还算比较热门的吧。相对于监督,它需要的训练数据少;相对于无监督,效果更好。而且半监督似乎也很符合人的学习方式。

半监督学习和无监督学习的区别

4,如何理解半监督的朴素贝叶斯分类算法

为了测试评估贝叶斯分类器的性能,用不同数据集进行对比实验是必不可少的. 现有的贝叶斯网络实验软件包都是针对特定目的设计的,不能满足不同研究的需要. 介绍了用Matlab在BNT软件包基础上建构的贝叶斯分类器实验平台MBNC,阐述了MBNC的系统结构和主要功能,以及在MBNC上建立的朴素贝叶斯分类器NBC,基于互信息和条件互信息测度的树扩展的贝叶斯分类器TANC,基于K2算法和GS算法的贝叶斯网络分类器BNC. 用来自UCI的标准数据集对MBNC进行测试,实验结果表明基于MBNC所建构的贝叶斯分类器的性能优于国外同类工作的结果,编程量大大小于使用同类的实验软件包,所建立的MBNC实验平台工作正确、有效、稳定. 在MBNC上已经进行贝叶斯分类器的优化和改进实验,以及处理缺失数据等研究工作
朴素贝叶斯分类器(naive bayes classifier)的朴素(naive)之处在于,其假设了各个特征之间是独立的。以垃圾邮件分类器为例,如果训练样本中一半的垃圾邮件含有“促销伟哥”字样,另一半有“正品劳力士”,则朴素贝叶斯分类器认为,一个垃圾邮件同时含有“伟哥”和“劳力士”的概率是0.25。(只考虑“伟哥”和“劳力士”这两个词) 只要是基於贝叶斯理论的分类器就可以叫贝叶斯分类器,朴素贝叶斯分类器的叫法是因为它是优化过的一种运算性能高的算法(wikipedia 上的英语页只给了朴素贝叶斯分类其的定义)。贝叶斯网络是一种基於贝叶斯理论以 dag 形式描述全局概率分布的一种统计方法,不属於分类器的一种,主要用於贝叶斯推断。

5,半监督学习的起源和发展历程

SSL的研究历史可以追溯到20世纪70年代,这一时期,出现了自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)等学习方法。90年代,新的理论的出现,以及自然语言处理、文本分类和计算机视觉中的新应用的发展,促进了SSL的发展,出现了协同训练(Co-Training)和转导支持向量机(Transductive Support Vector Machine,TSVM)等新方法。Merz等人在1992年提出了SSL这个术语,并首次将SSL用于分类问题。接着Shahshahani和Landgrebe展开了对SSL的研究。协同训练方法由Blum和Mitchell提出,基于不同的视图训练出两个不同的学习机,提高了训练样本的置信度。Vapnik和Sterin提出了TSVM,用于估计类标签的线性预测函数。为了求解TSVM,Joachims提出了SVM方法,Bie和Cristianini将TSVM放松为半定规划问题从而进行求解。许多研究学者广泛研究将期望最大算法(Expectation Maximum,EM)与高斯混合模型(Gaussian Mixture Model,GMM)相结合的生成式SSL方法。Blum等人提出了最小割法(Mincut),首次将图论应用于解决SSL问题。Zhu等人提出的调和函数法(Harmonic Function)将预测函数从离散形式扩展到连续形式。由Belkin等人提出的流形正则化法(Manifold Regularization)将流形学习的思想用于SSL场景。Klein等人提出首个用于聚类的半监督距离度量学习方法,学习一种距离度量。

6,半监督学习的基本假设

SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。SSL依赖的假设有以下三个:1)平滑假设(Smoothness Assumption):位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同。2)聚类假设(Cluster Assumption):当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签。这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例分到决策边界两侧。聚类假设是指样本数据间的距离相互比较近时,则他们拥有相同的类别。根据该假设,分类边界就必须尽可能地通过数据较为稀疏的地方,以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下,学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据分布情况,从而指导学习算法对分类边界进行调整,使其尽量通过样本数据布局比较稀疏的区域。例如,Joachims提出的转导支持向量机算法,在训练过程中,算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记,使得分类边界在所有训练数据上最大化间隔,从而能够获得一个通过数据相对稀疏的区域,又尽可能正确划分所有有标记的样本数据的分类超平面。3)流形假设(Manifold Assumption):将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。流形假设的主要思想是同一个局部邻域内的样本数据具有相似的性质,因此其标记也应该是相似。这一假设体现了决策函数的局部平滑性。和聚类假设的主要不同是,聚类假设主要关注的是整体特性,流形假设主要考虑的是模型的局部特性。在该假设下,未标记的样本数据就能够让数据空间变得更加密集,从而有利于更加标准地分析局部区域的特征,也使得决策函数能够比较完满地进行数据拟合。流形假设有时候也可以直接应用于半监督学习算法中。例如,Zhu 等人利用高斯随机场和谐波函数进行半监督学习,首先利用训练样本数据建立一个图,图中每个结点就是代表一个样本,然后根据流形假设定义的决策函数的求得最优值,获得未标记样本数据的最优标记;Zhou 等人利用样本数据间的相似性建立图,然后让样本数据的标记信息不断通过图中的边的邻近样本传播,直到图模型达到全局稳定状态为止。从本质上说,这三类假设是一致的,只是相互关注的重点不同。其中流行假设更具有普遍性。

文章TAG:监督  学习  包含  半监督  监督学习  非监督学习  半监督学习  包含哪些算法  
下一篇