本文目录一览

1,数据挖掘对聚类的数据要求是什么

1. 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 2. 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 3. 发现任意形状的能力 基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的 4. 用于决定输入参数的领域知识最小化 对于高维数据,参数很难决定,聚类的质量也很难控制 5. 处理噪声数据的能力 对空缺值、孤立点、数据噪声不敏感 6. 对于输入数据的顺序不敏感 同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果 7. 高维度 高维度的数据往往比较稀松,而且高度倾斜 8. 基于约束的聚类 找到既满足约束条件,又具有良好聚类特性的数据分组 9. 可解释性和可用性 聚类要和特定的语义解释和应用相联系 相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体

数据挖掘对聚类的数据要求是什么

2,分类器中可解释性最弱的是

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。分类器的构造和实施大体会经过以下几个步骤:选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。在训练样本上执行分类器算法,生成分类模型。在测试样本上执行分类模型,生成预测结果。根据预测结果,计算必要的评估指标,评估分类模型的性能。几种基本的分类器?1.决策树分类器  提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类
weak classifier and strong classifier (弱分类器和强分类器) 分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。 简而言之,分类器的强弱是其分类能力的一种描述。其实就是字面意思。 能够迅速正确的识别的过程就是强分类器,而易错的则是弱分类器。 强分类器可以由多个弱分类器组成。

分类器中可解释性最弱的是

3,量表具有信度就一定具有效度

什么是信度?信度可以理解为可靠度、一致性、稳定性。比如说,在对同一对象进行测量,多次测量结果都很接近,大家会认为这个结果是可信的,真实的,也就是信度高。如果每次测量的结果都有很大的差异(例如,用同一份考卷对同一批学生进行测验,每次测试平均分数差别都很大),则说明信度较低。同样在问卷研究中,也是通过信度分析来测量样本回答结果是否真实可靠,检验信度越高,就是表示结果越可信。什么是效度?效度分析,简单来说就是问卷设计的有效性、准确程度。当我们在为研究主题设计问卷时,都会希望问题实际测量到的是我们希望测量的,这样研究的数据才能准确地说明问题。例如,我们想了解一个班级里学生的综合成绩情况,正式研究中如果仅测试数学一科,然后得出结论,这样的研究有效性可能很低,原因在于实际测量的方向与研究方向之间有很大偏差。从计算公式角度看,信度和效度之前确实存在一定的关系。两者的关系可以理解为:效度高,信度一定高;信度高,效度不一定高。在spssau中进行信效度检验,同时有智能文字分析可以查看。
效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。效度分为三种类型:内容效度、准则效度和结构效度。信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不一致性,从而降低信度。信度主要回答测量结果的一致性、稳定性和可靠性问题;效度主要回答测量结果的有效性和正确性问题。效度和信度的关系可以用测量值的构成公式O=T S R来理解。如果测量是完全有效的,即0=T,S=0,R=0,此时测量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因为有O=T R。如果量表是完全可信的,可以达到完全有效,也可能达不到,因为有可能存在导致误差,虽然缺乏信度必然缺乏效度,但信度的大小并不能体现效度的大小。信度是效度的必要条件,但不是充分条件。从理论的角度来看,量应具有足够的效度和信度;从实践的观点来看,一个好的量表还应该具有实用性。实用性指量表的经济性、便利性和可解释性。一般来说,信度是效度的必要条件,也就是说,效度都必须建立在信度的基础上;但是没有效度的测量,即使它的信度再高,这样的测量也是没有意义的。信度和效度的关系有如下几种类型:①可信且有效这种问卷准确地反映被调查人员的真实态度,问卷中的题目是和调查目标紧密关联的。这种情况如图8-8(a)所示,图中(x,y)所在的实心点表示要测量的现象的真实情况,其余点表示经过调查所得得测量结果。若调查结果能真实地反映所调查的对象,测量的误差较小,则说明问卷调查的结果是可信而且有效的。②可信但无效这种问卷调查结果虽然能准确地反映被调查人员的真实态度,但问卷中题目与真实的调查目的的关联程度较弱,

量表具有信度就一定具有效度

4,阐述自然辩证法的主要科学研究方法

  科学研究过程和方法   一、科学问题的提出   1、科学研究从问题开始   波普尔:观察始于问题   (1)从理论发展的总过程看,问题是旧理论的终点与新理论的起点。   (2)从科学研究的具体过程看,科学研究是以问题为框架有选择地去搜集事实资料。   (3)与认识来源于实践有关联:“问题说”着眼于科学研究的程序,“观察说”着眼于认识的来源,二者层次不同,实质统一。   2、科学问题的来源   (1)为寻求事实之间的联系提出问题;   (2)从理论与事实之间的矛盾中发现问题:   (3)从某一理论内部的矛盾中发现问题   (4)不同学派理论之间的矛盾中产生   (5)社会需要与现有的生产技术手段的差距上发现问题   3、科研选题原则   科研选题是形成、选择和确定所要研究和解决的课题的过程。是科学研究的具体化。   (1)创新性原则:前人未解决或未完 全解决的问题   (2)科学性原则:科学理论与科学事实为依据   (3)可行性原则:主客观条件的考虑   (4)需要性原则:社会(实践)与学科 (理论)发展需要   二、科学事实的获取—观察与实验   1、科学观察:是指人们有目的、有计划地利用自己的感官,认识与描述各种自然现象,获取经验知识的基本手段。   (1)具有目的性和计划性   (2)依赖感官与仪器(3)不改变研究对象,自然发生   2、科学实验:是指人们根据一定的科学研究目的,借助于科学仪器,在科学方法指导下,人为控制或模拟自然现象,排除干扰,突出主要因素,在有利的条件下获取科学事实的方法。   科学实验的特殊作用   (1)简化研究对象   (2)强化研究对象   (3)经济实用   (4)降低科学研究的风险   观察与理论的关系   ---传统的看法:观察独立于理论   ---波普尔等:观察渗透理论   ---爱因斯坦:“是理论决定我们能够观察到的东西。”   ◎观察与观察者的理论知识背景有关;   ◎观察与观察者的注意力有关;   观察的客观性的保证   ◎标准方法、先进的观测仪器;   ◎正确理论的指导、严谨的科学态度;   ◎与认识与实践的关系的理解相一致;   ◎与真理观相一致。   观察实验中的机遇   机遇是因意外事件导致的科学新发现。   *机遇产生的客观原因:   自然界中必然性与偶然性的统一   如何利用机遇:   世界观上的认识;开放的思路;广博的知识背景;敏锐的洞察力   三、科学假说的形成   1、科学假说的构成:背景理论;对现象本质的猜测;推演出的预言与预见   2、假说形成的基本条件:   (1)一致对应性;(2)可解释性;(3)可预测性;   3、假说的检验:   (1)逻辑分析;(2)实践检验;(3)判决性实验;   四、科学理论的创立   1、创立理论的思维过程   (1)准备阶段—问题的提出   (2)酝酿阶段—问题的求解   (3)豁朗阶段—问题的突破   (4)验证阶段—问题成果的证明和检验   2 、科学语言:(1)科学术语(2)科学命题(3)科学符号   3、科学思维方法—演绎方法:(1)演绎推理(2)公理化方法(3)理想实验   4、科学思维方法—非演绎方法   (1)分析与综合(2)归纳与概括(3)类比与联想(4)思想模型

5,如何建立和评估数据仓库逻辑模型

逻辑模型指数据仓库数据的逻辑表现形式。从最终应用的功能和性能的角度来看,数据仓库的数据逻辑模型也许是整个项目最重要的方面,需要领域专家的参与。从内容上看,涉及的方面有确立主题域,粒度层次的划分,确定数据分割策略,关系模式的确定。 逻辑模型建设方法 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的两种建模方法是所谓的第三范式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema) 第三范式 关系模式满足以下特征: 1 每个属性的值唯一,不具有多义性; 2. 每个非主属性必须完全依赖于整个主键,而非主键的一部分; 3. 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去 星型模型 星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimens ion Table)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。 第三范式和星型模式在数据仓库中的应用 大多数人在设计中央数据仓库的逻辑模型时,都按照第三范式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规范处理 (De-Normalize), 以提高系统的响应速度,这当然是以增加系统的复杂度、维护工作量、磁盘使用比率 (指原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。 那么,在中央数据仓库中是否可以采用星型模式来进行模型设计呢?我们知道,星型模式中有一个事实表和一组维表,我们可以把事实看成是各个维交叉点上的值。 星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。因此,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。星型模式另一个显著的缺点是数据的冗余量很大。综合这些讨论,不难得出结论,星型模式比较适合于预先定义好的问题,如需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。因此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。 总之,上面讨论了数据仓库模型设计中常用的两种方法。对于部门数据集市,当数据量不大、报表较固定时可以采用星型模式;对于企业级数据仓库,考虑到系统的可扩展能力、投资成本和易于管理等多种因素,最好采用第三范式。逻辑模型指数据仓库数据的逻辑表现形式。从最终应用的功能和性能的角度来看,数据仓库的数据逻辑模型也许是整个项目最重要的方面,需要领域专家的参与。从内容上看,涉及的方面有确立主题域,粒度层次的划分,确定数据分割策略,关系模式的确定。 逻辑模型的质量标准 对逻辑模型的评估,就是对逻辑模型质量的考察,什么是逻辑模型的质量呢?从狭义的概念说,逻辑模型是否正确表达了业务规则,也就是准确,但是随着人们对数据仓库认识的加深,质量的含义不断延伸,现在对模型质量要求不仅仅单纯指单纯的业务规则,还包括模型满足用户分析需求的程度,它是一个包含丰富内涵、具有多维因素的综合性概念。相应地逻辑模型质量概念的认识也从狭义向广义转变,准确性已不再是衡量唯一标准。评估逻辑模型一般包括如下方面的标准 正确性 逻辑模型的建设方法是正确的,遵循了从上到下和从下到上相结合的方法,选择了正确的模型表示方式,对实际业务采用正确的概化抽象。 准确性(精度) 指逻辑模型和实际业务即“真值”之间的差异程度。误差越小,准确性就越高。这里,所谓的“真值”是可知的,尽管逻辑模型经过了抽象,概化等方法总结共性,但是模型的具体化后,与“真值”是应当符合的。可以通过范围误差、计数误差、不回答率、加工整理差错、模型假设误差等影响准确性的各个因素,测算统计估算值的变动系数、标准差、均方差、曲线配合吻合度、假设检验、偏差等,修正逻辑模型将其的误差控制在一个可接受的置信区间内。 适用性 指收集的信息是否有用,是否符合用户的需求。它要求逻辑模型的粒度,分割方式符合用户的分析需求。 可解释性 是指在公布逻辑模型时,应同时公开逻辑模型的的补充解释信息或称为“元数据”,即关于模型数据的解释说明。内容包括所使用的建设方法,建设目标,以防止模型数据二义性导致错误解释和使用。 完备性 目前的业务需求和所用的业务规则完全包含在逻辑模型中。模型中不存在没有包含的需求业务对象(如实体,属性,以及之间的关系) 一致性 模型中的各个对象命名方式统一,有明确的命名规范。而且模型中各个相关对象的粒度一致,业务逻辑模型对象的划分标准应当统一。 扩展性 当新的业务产生时,仅仅是增加了相关逻辑模型对象的实例内容,不影响目前的逻辑模型,模型这些分类能够随统计分析需求的不同进行相应的调整,无需改变数据库结构,具有灵活的扩展性。仅在个别情况下,需要对逻辑模型的属性或者实体本身增加,支持分步骤的实施。 可衔接性 逻辑模型来自拥有行业经验的概念模型,里面凝聚了许多成功的经验,而且从规划上符合行业系统的长远发展,因此逻辑模型应当从概念模型上相对平滑的过度过来。此外,物理模型应当来自与逻辑模型,逻辑模型的建设应当具有一定的可操作性,便于向物理模型的转化。 逻辑模型中常犯的错误: 命名规范不统一 对于汇总数据,低粒度数据或历史数据采用已定义的命名规范。 粒度层次不统一 有的具体,有的过于抽象 不准确 业务关系表示错 不全面: 一些属性外键标识没有主表 无用关联关系多: 模型中各种对象所表示的内容,应当与用户的业务分析需求密切相关。 与行业通用模型移动的兼容性差: 与行业通用模型存在较大的差异,不利于系统的将来发展符合信息发展的趋势。 总结 商业智能和数据仓库系统的建设作为一个渐进、迭代的过程,其发展趋势是从现有的初步应用如报表分析、数据集市,向深度和广度复杂分析和数据挖掘技术应用发展,其依赖的数据存储模型,包括逻辑模型和物理模型,也是一个不断发展,不断丰富完善的过程。

6,主成份分析和因子分析的区别

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。二、基本思想的异同(一) 共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。(二) 不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。 聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。三、数据标准化的比较主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。四、应用中的优缺点比较(一) 主成分分析1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。2、缺点当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。(二) 因子分析1、优点第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。2、缺点在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。(三) 聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明。2、缺点在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

文章TAG:解释  数据  数据挖掘  挖掘  可解释性  
下一篇