博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据挖掘——认识数据
阅读量:4131 次
发布时间:2019-05-25

本文共 1680 字,大约阅读时间需要 5 分钟。

第二章 认识数据

2.1 数据对象与属性类型

  数据集由数据对象组成,一个数据对象代表一个实体。属性,是一个字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量(特征向量)。

2.1.1 标称属性

  标称意味着“与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。

2.1.2 二元属性

  二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性。

2.1.3 序数属性

  序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。例如grade(成绩,A+、A、A-、B+等)

2.1.4 数值属性

  数值属性是定量的,即它是可度量的,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。例如温度、日历日期。比率标度属性是具有固有零点的数值属性。比如高度、速度、重量、等,我们可以说一个数是另一个数的多少被。

2.1.5 离散属性和连续属性

  离散属性具有有限或无限可数个值,可以用或不用整数表示。如果属性不是离散的,则是连续的。

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数

  均值又分为算术平均值和加权算术平均值。均值的主要问题是对极端值很敏感(极端值对均值影响很大)。中位数是该有序集中的中间值。如果N为奇数,中位数就是处在数据集中间的数值,如果N为偶数,它是最中间两个数的均值。众数是数据集中出现次数最多的数。

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  极差(range)就是一个数据集中最大值与最小值的差。分位数是取自数据分布每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。给定数据分布的第k个q分位的值x,使得小于x的数据值最多为k/q,而大于x的数据值最多有1 - k/q,其中k是整数,使得0 < k < q。我们有q - 1个q分位数。2分位数对应中位数,4分位数有3个数据点,它们把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一,通常它们叫做四分位数。第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位极差(IQR)。识别离群点的通常规则是。挑选落在第3个四分位数之上或第1个四分数之下至少1.5 x IQR处的值。五数概括是指Min、Q1、Median(Q2)、Q3、Max。方差与标准差都是数据散布度量,它们指出数据分布的散布程度。

2.2.3 数据的基本统计描述的图形显示

分位数图:分位数图是一种观察单变量数据分布的简单有效方法。分位数fi = (i - 0.5)/N, i从1,2,。。。N。

分位数-分位数图(q-q图)、直方图、散点图等。

2.3 数据可视化

基于像素的可视化技术

几何投影可视化技术

基于图符的可视化技术 ———》 切尔诺夫脸

层次可视化技术 ————》 三维图、树图

可视化复杂对象和关系 ————》 标签云

2.4度量数据的相似性和相异性

  相似性和相异性都称为邻近性,数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象的相异性值)。数据矩阵或称为对象-属性结构,这种数据结构用关系表的形式或n x p(n个对象 x p个属性)矩阵存放n个数对象。相异性矩阵或称对象-对象结构,存放两两之间的邻近度,通常用一个n x n矩阵表示。

标称属性的邻近性度量 d(i, j) = ( p - m)/ p,m为匹配的数目,p是刻画对象的属性总数。

数值属性的相异性:闵可夫斯基距离

序数属性的邻近性度量: z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

余弦相似性:sim = \frac{x * y}{||x|| * ||y||}

转载地址:http://tvfvi.baihongyu.com/

你可能感兴趣的文章
fastcgi_param 详解
查看>>
poj 1976 A Mini Locomotive (dp 二维01背包)
查看>>
db db2_monitorTool IBM Rational Performace Tester
查看>>
postgresql监控工具pgstatspack的安装及使用
查看>>
【JAVA数据结构】双向链表
查看>>
【JAVA数据结构】先进先出队列
查看>>
Objective-C 基础入门(一)
查看>>
Flutter Boost的router管理
查看>>
iOS开发支付集成之微信支付
查看>>
C++模板
查看>>
【C#】如何实现一个迭代器
查看>>
【C#】利用Conditional属性完成编译忽略
查看>>
VUe+webpack构建单页router应用(一)
查看>>
(python版)《剑指Offer》JZ01:二维数组中的查找
查看>>
Spring MVC中使用Thymeleaf模板引擎
查看>>
PHP 7 的五大新特性
查看>>
深入了解php底层机制
查看>>
PHP中的stdClass 【转】
查看>>
XHProf-php轻量级的性能分析工具
查看>>
OpenCV gpu模块样例注释:video_reader.cpp
查看>>