首页 数据类型1

数据类型1

举报
开通vip

数据类型1null数据的属性类型及基本的统计描述数据的属性类型及基本的统计描述• 属性是一个数据字段,表示对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量。 • 一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的、数值的。 null标称属性 •标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。 注:标称属性的值是枚举的。 例如:hair_color这一属性的值为黑色、棕色、淡黄色、红色...

数据类型1
null数据的属性类型及基本的统计描述数据的属性类型及基本的统计描述• 属性是一个数据字段,表示对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量。 • 一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的、数值的。 null标称属性 •标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。 注:标称属性的值是枚举的。 例如:hair_color这一属性的值为黑色、棕色、淡黄色、红色、灰色、白色等。因此hair_color是标称属性。 •标称属性的值可以用数来表示: 例如:对于hair_color,我们可以指定代码0表示黑色,1表示棕色等等。虽然这些值是数值,但不能定量的使用这些数。在标称属性上,数学运算没有意义。 注:因为标称属性的值不具有有意义的序,并且是不定量的。因此用众数来度量中心趋势。 null二元属性 •二元属性是一种标称属性,只有两个类别或状态:0或1,其中0代表该属性不出现,而1代表出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。 例如:属性smoker描述患者对象,1代表患者抽烟,0代表患者抽烟。 •二元属性分为对称的和不对称的。若一个属性的两种状态具有同等价值且携带相同权重则是对称的。如:具有“男”和“女”这两个状态的属性(性别)就是对称的。而如果属性的两个状态结果不是同等重要的则是不对对称的。如:艾滋病化验结果1(阳性)是重要的,0(阴性)是不重要的。null序数属性 •序数属性:它可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。 •序数属性通常用于等级评定调查。例如:评定顾客的满意程度,形成如下序数类别:0-很不满意,1-不太满意,2-中性,3-满意,4-很满意。 •在数据规约中,序数属性可以通过把数值量的值域划分成有限个有序类别,把数值属性离散化得到。 •序数属性的中心趋势可以用它的众数和中位数来表示。 注:标称、二元、序数属性都是定性的,这些属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的值。 null数值属性 •数值属性是定量的,它是可度量的量,用整数或实数值表示。数值属性是有序的,可以计算属性值之间的差。数值属性可以是区间标度的或比率标度的。 •区间标度属性用相等的单位尺度度量。例如:温度属性是区间标度的,可以量化不同值之间的差。20℃比5℃高出15℃。但是摄氏温度和华氏温度都没有真正的零点。因此我们不能说一个温度值是另一个的倍数,不能用比率谈论这些值。 •比率标度属性是具有固有零点的数值属性。例如:开氏温度具有绝对零点(在该点,构成物质的粒子具有零动能)。 •区间标度属性和比率标度属性的中心趋势度量可以用众数、中位数和均值来计算。 •属性类别可以用许多方法来组织,比如离散的和连续的。 离散属性具有限或无限可数个值,可以用或不用整数表示。标称、二元、序数属性都属于离散的。 如果属性不是离散的,则它就是连续的。null数据的基本统计描述 •基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。 •用中心趋势来度量数据分布的中部或中心位置。我们用均值、中位数、众数和中列数来度量。 •用数据的散布来描述数据的分散情况。数据散布最常见的度量是数据的极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。对于识别离群点,这些度量很有用。 null中心趋势度量:均值、中位数和众数 •数据集“中心”的最常用、最有效的数值度量是均值。令 为某个是数值属性X的N个观测值或观测。该值集合的均值为: •有时,对于每个值 可以与一个权重 相关联。权重反映它们所依附的对应值的重要性、或出现的频率。这时的计算为: •均值并非总是度量数据中心的最佳方法,它对离群点很敏感。极少数的极端值对均值的影响很大,为此我们使用截尾均值。即丢弃高低极端值之后的均值。null• 对于倾斜数据,数据中心更好的度量是中位数。中位数是有序数据值的中间值。假定给定某个属性X的N个值按递增序排序。如果N是奇数,则该中位数是有序集的中间值;N是偶数对于序数数据来说,中位数不唯一,是最中间两个值和它们之间的任意值。若是数值属性,则取最中间两个数的平均值。 • 众数是数据集中出现最频繁的值。因此可以对定性和定量的属性确定众数。最频繁的数据可能不止一个,导致多个众数。 • 注:一种极端情况,每个数据值只出现一次,则它没有众数。 • 中列数是数据集的最大和最小值的平均值。 用下面例子来解释以上的方法: 有如下值,并已按递增的次序显示:30,31,47,50,52,52,56,60,63,70,70,110 均值为 null• 有偶数个观测,因此选最中间两个数52和56的平均值为中位数即: 中位数为54。 • 在该数据值之中52和70都出现了两次,因此有两个众数。分别为52、70 • 中列数为 • 在具有完全对称的数据分布的单峰(只有一个众数)频率曲线中,均值、中位数和众数都是相同的中心值。众数出现在小于中位数的值上数据是正倾斜的,相反则是负倾斜的。 null 度量数据散布:极差、四分位数、方差、标准差和四分位数极差 • 设数值属性X具有n个观测值,该集合的极差是最大与最小值之差。 • 分位数是取自数据(已排好序的)分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。 注:给定第k个q分位数是值x,使得小于x的数据最多为k/q,而大于x最多为(q-k)/q个,最多有q-1个q分位数。 • 2-分位数对应中位数,4-分位数有3个数据点,把数据分布划分为4个相等的部分。 • 四分位数极差是第一个和第三个四分位数之间的距离。它是一种简单的数据散布的度量,给出被数据的中间一半所覆盖的范围。 定义为: • 对于描述倾斜分布,单个散布数值度量不是很有用,因此除了中位数外(第二个分位数),还提供了第一和第三个分位数。null注:对于用四分位数描述数据时,离群点的识别规则是,挑选落在第三个四分位数之上或第一个四分位数之下至少1.5×IQR处的值。 • 五数概括由四分位数、最大、最小观测值组成。可以由盒图表示。 方差和标准差 • 方差与标准差都是数据散布度量,指出数据分布的散布程度。低标准差意味着数据观测趋向于均值,而高标准差意味着数据散布在一个大的值域内。 • X的N个观测值 则方差为: 其中, 是均值。观测值的标准差σ是方差的平方根。null 刚才的数据集包含12个观测值,该数据集的的四分位数分别是第三个值47,第六个值52,第九个值63。 四分位数极差为: 63-47=16 由以上的数据集计算方差: 标准差为: 标准差的性质: σ度量关于均值的发散,仅当选择均值作为中心度量时使用。 当所有的观测值相同时,σ=0,否则σ>0。 null度量属性的相似性和相异性 • 在诸如聚类、离群点分析和最近邻分类等数据挖掘中,需要评估对象之间相互比较的相似性或不相似性程度。 • 相似性和相异性都称邻近性。相似性和相异性是有关联的。 • 提供上述应用的两种结构:数据矩阵、相异性矩阵 • 数据矩阵或称为对象—属性结构,用n×p矩阵存放n个数据对象。 • 相异性矩阵或称为对象—对象结构,存放n个对象两两之间的邻近度。通常用一个n×n的矩阵表示。 注:相异矩阵是一个对称矩阵,且对角线上的都为0,即自己与自己的相异度为0。 null•标称属性的邻近性度量 两个对象i和j之间的相异性可以根据不匹配率来计算: 其中,m是i和j属性匹配的数目,p是刻画对象的属性总数。 •二元属性的临近性度量 二元属性分为对称和不对称的,相异性的计算略有不同。 对称的二元属性相异性的计算公式为: 其中,q是对象i和j都取1的属性数,r是i取1,j取0的属性数,s是r是i取0,j取1的属性数,t是i和j都取0的属性数。null 对于非对称的二元属性来说,两个状态不是同等重要的。对于不重要的可以忽略,这样的二元属性被认为是“一元的”。非对称的二元相异性计算公式为: 相似性为: 用非对称二元属性描述的患者记录如下表: 其中,Y和P的值为1,N为0。则这两个对象之间的相异度为: null 数值属性的相异性 • 数值属性的相异性度量包括:欧几里得距离,曼哈顿距离,闵可夫斯基距离。 被p个数值属性描述的对象i和对象j之间的欧几里得距离公式为: 另一个著名的度量方法是曼哈顿距离,其定义为: null欧几里得距离和曼哈顿距离都满足如下的数学性质: 非负性: 距离是一个非负值。 同一性: 对象到自身的距离为0。 对称性: 距离是一个对称函数。 三角不等式: 从对象i到j的直接距离不会大于途径任何其他对象k的距离。 •闵可夫斯基距离是欧几里得距离和曼哈顿距离的扩展,定义为: 当h=1,表示曼哈顿距离。 当h=2,表示欧几里得距离。 •上确界距离 是 时闵可夫斯基距离的推广,定义为: null例如:令 则两者之间的距离为: 欧几里得距离为: 曼哈顿距离为:(3-1)+ (5-2)=5 上确界距离为:第二个属性给出这两个属性的最大差值5-2=3 •序数属性的邻近性度量 1、用状态的排位 取代属性值 。 2、通过用 代替第i个对象的 来实现数据规格化。 其中, 为属性f的状态数。 3、用任意一种数值属性的距离度量计算相异性,使用 作为对象的值。 null例如:包含混合类型属性的样本数据表如表2.1所示: 根据test-2来计算对象的相异性,先对状态(一般,好,优秀)排序为(1,2,3)。将对象的值替换为排位得3,1,2,3。规格化为: (1,0,0.5,1)。利用欧几里得来计算相异性。 对象1和对象2的相异性为:1-0=1 对象1和对象3的相异性为:1-0.5=0.5 对象1和对象4的相异性为:1-0=1 剩下的可以依此来计算。null混合类型属性的相异性 • 计算混合属性有两种方法:一种是将每种类型的属性分为一组,对每种类型分别进行分析,但是每种属性类别的分析不大能产生兼容结果。另一中放法是将所有属性类型一起处理。 假设数据集包含p个混合类型的属性,对象i和j之间的相异性 定义为: 其中,指示符 ,如果对象i或对象j没有属性f的度量值,或者f是非对称属性且i和j的属性值都取0;否则 。 null 相异性 根据它的类型来计算: •f数值的: ,其中h取遍f所有非缺失对象。 •f是标称的或二元的:如果 ,则 ,否则 。 •f是序数的:计算 ,再按数值属性计算。 null以表2.1的前两个对象为例来计算相异性 test-1是标称的:由 ,得 根据以前test-2求得 : test-3是数值的: 综上,相异性为: null余弦相似性 • 文档用数以千计的属性表示,每个文档都被一个所谓的词频向量表示。 词频向量通常是很长的,并且是稀疏的(有许多0值)。对于这类稀疏的数值数据,以上介绍的距离度量效果不好。引入一种关注两个文档确实共有的词,以及出现的频率。因此,引入余弦相似性。 令x和y是两个待比较的向量,使用余弦度量为: 其中, 是向量x的欧几里得范数,即向量的长度。定义为: null注:余弦值为0,表示两个向量正交,没有匹配。越接近与于1,夹 角越小,向量之间的匹配越大。 例如:x=(5,0,3,0,2,0,0,2,0,0)和 y=(3,0,2,0,1,1,0,1,0,1) x•y=5×3+0×0+3×2+0×0+2×1+0×1+ 0×0+2×1+0×0+0×1=25
本文档为【数据类型1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_905259
暂无简介~
格式:ppt
大小:163KB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2013-11-24
浏览量:75