本文共 1680 字,大约阅读时间需要 5 分钟。
数据集由数据对象组成,一个数据对象代表一个实体。属性,是一个字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量(特征向量)。
标称意味着“与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性。
序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。例如grade(成绩,A+、A、A-、B+等)
数值属性是定量的,即它是可度量的,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。例如温度、日历日期。比率标度属性是具有固有零点的数值属性。比如高度、速度、重量、等,我们可以说一个数是另一个数的多少被。
离散属性具有有限或无限可数个值,可以用或不用整数表示。如果属性不是离散的,则是连续的。
均值又分为算术平均值和加权算术平均值。均值的主要问题是对极端值很敏感(极端值对均值影响很大)。中位数是该有序集中的中间值。如果N为奇数,中位数就是处在数据集中间的数值,如果N为偶数,它是最中间两个数的均值。众数是数据集中出现次数最多的数。
极差(range)就是一个数据集中最大值与最小值的差。分位数是取自数据分布每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。给定数据分布的第k个q分位的值x,使得小于x的数据值最多为k/q,而大于x的数据值最多有1 - k/q,其中k是整数,使得0 < k < q。我们有q - 1个q分位数。2分位数对应中位数,4分位数有3个数据点,它们把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一,通常它们叫做四分位数。第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位极差(IQR)。识别离群点的通常规则是。挑选落在第3个四分位数之上或第1个四分数之下至少1.5 x IQR处的值。五数概括是指Min、Q1、Median(Q2)、Q3、Max。方差与标准差都是数据散布度量,它们指出数据分布的散布程度。
相似性和相异性都称为邻近性,数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象的相异性值)。数据矩阵或称为对象-属性结构,这种数据结构用关系表的形式或n x p(n个对象 x p个属性)矩阵存放n个数对象。相异性矩阵或称对象-对象结构,存放两两之间的邻近度,通常用一个n x n矩阵表示。
转载地址:http://tvfvi.baihongyu.com/