威斯尼几网站-威尼斯app下载-登录

威斯尼几网站 课堂正文

空间数据挖掘常用的17种方法

  PPV课大数据学习社区如果你对大数据感兴趣;如果你想转行做大数据;如果你想了解大数据是怎么改变大家生活,请点标题下蓝字关注PPV课大数据

????问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用.

????答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等算法(出自丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 山东理工大学学报 2006年11月)。除此以外还有老师课件上提到的聚类检测,决策树方法等。

????以下对于一些常见模型做一简述:

????1、空间分析方法 (Spatial Analysis Approach)

????利用GIS的各种空间分析模型和空间操作对空间数据库中的数据进行深加工,从而产生新的信息和常识。目前常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策的常识。空间分析方法常作为预处理和特征提取方法与其它数据挖掘方法结合使用。

????2、统计分析方法 (Statistical Analysis Approach)

????统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。在运用统计方法进行数据挖掘时,一般并不将数据的空间特性作为限制因子加以考虑,空间数据所描述的事物的具体空间位置在这类挖掘中也并不起制约作用。尽管此种挖掘方式与一般的数据挖掘并无本质的差别,但其挖掘后发现的结果都是以地图形式来描述的,对发现结果的说明也必然要依托地理空间进行,挖掘的结果揭示和反映的必然是空间规律。但是,统计方法难以处理字符型数据。而且,应用统计方法需要有领域常识和统计常识,一般由具有统计经验的领域专家来完成。统计方法的最大缺点是要假设空间分布数据具有统计不相关性。这在实际应用中会出现问题,因为很多空间数据是相互关联的。

????3、归纳学习方法 (Induction Learning Approach)

????归纳学习方法是从大量的经验数据中归纳抽取出一般的规则和模式,其大部分算法来源于机器学习领域。归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS, Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的一种决策树算法,由ID3算法发展而来,采用嫡来选择属性,分类速度快,适合于大数据库的学习,而C5.0在 ID3的基础上增加了将决策树转换为等价的产生式规则的功能,并解决了连续取值数据的学习问题。Han Jiawei教授等提出了一种面向属性的归纳方法 (Attribute Oriented Induction, AOI),专门用于从数据库中发现常识,通过概念树的提升对数据进行概括和综合,归纳出高层次的模式或特征。裴健等对面向属性的归纳方法进行了扩展,形成了基于空间属性的归纳方法 (Spatial Attribute Oriented Induction, SAOI)。

????4、空间关联规则挖掘方法 (Spatial Association Rule Mining Approach)

????挖掘关联规则首先由Agrawal等提出,主要是从超级市场销售事务数据库中发现顾客购买多种商品时的搭配规律。最著名的关联规则挖掘算法是 Agrawal提出的Apriori算法,其主要思路是统计多种商品在一次购买中共同出现的频数,然后将出现频数多的搭配转换为关联规则。

????5、聚类方法 (Clustering Approach)和分类方法 (Classification Approach)

????聚类是按一定的距离或相似性系数将数据分成一系列相互区分的组,根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。

????分类就是假定数据库中的每个对象(在关系数据库中对象是元组)属于一个预先给定的类,从而将数据库中的数据分配到给定的类中,简单的讲就是f:D→L,其中f的域D是属性数据的空间,L是标号的集合。

????分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。

????6、神经网络方法 (Neural Network Approach)

????神经网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能。神经网络由输入层、中间层和输出层组成。大量神经元集体通过训练来学习待分析数据中的模式,形成描述复杂非线性系统的非线性函数,适于从环境信息复杂、背景常识模糊、推理规则不明确的非线性空间系统中挖掘分类常识。

1 2 3 ... 5 显示全文

分享:
数博故事
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
大数据概念_大数据分析_大数据应用_大数据百科专题
企业
更多

威斯尼几网站|威尼斯app下载

XML 地图 | Sitemap 地图