大数据产品经理必备的数据挖掘知识概述（一）认识数据

时间: 2021-07-30 10:56:21 人气: 15 评论: 0

数据挖掘是大数据产品经理必备的技能，本文作者将**为大家详细地分享一些数据挖掘的相关知识。

了解数据挖掘知识是大数据产品经理必备的技能，经过了一段时间的对《数据挖掘》一书的深入学习，以及所负责项目中用到的数据挖掘内容，使我对数据挖掘有了更深一步的认识，但自认为还是小白阶段。

路漫漫其修远兮，在这里，先将总结出来的数据挖掘常见知识点与大家分享（也像大家推荐《数据挖掘》一书，本分享大多知识来源于此），后面陆续更新更多的知识点及项目案例。希望能与君共勉！

（此分享仅包含基础概念知识，旨在帮助大数据产品经理快速了解数据挖掘知识，并能在工作中与算法和开发团队顺利合作，对于更深入的研究如统计学等知识后面有机**再与大家分享~）

第一部分认识数据（1.1 认识数据 1.2 数据可视化 1.3数据相似性和相异性）

第二部分数据预处理

第三部分数据仓库相关知识

第四部分频繁模式、关联和相关性

第五部分分类挖掘

第六部分聚类分析

第七部分离群点检测

以上各部分，我将陆续与大家分享我的学习内容

第一部分认识数据

1.1 认识数据

1.1.1 数据对象

什么是属性：是一个数据字段，表示数据对象的一个特征。在文献中，属性、维、特征和变量可以互相地使用。机器学习文献更倾向于使用术语“特征”，而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士则用“属性”。例如，描述顾客对象的属性可能包括customer_ID、name和address.

属性向量：用来描述一个给定对象的一组属性称作属性向量（或特征向量）。涉及的属性（或变量）的数据分布称作“单变量”，分布涉及两个属性为“双变量”等等。

1.1.2 属性类型

属性类型：一个属性的类型由该属性可能具有的值得集合决定。属性可以是标称的、二元的、序数的或数值的。

（1）标称属性

标称属性的值是一些符号或是事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类。这些值，不必具有意义的序。

例如：hari_color（头发颜色）和marital_status（婚姻状况），是两个描述人的属性。hari_color(头发颜色)可能为黑色、棕色、红色、赤褐色、白色、灰色等、属性marital_status的值可能是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性，他们是无有意义的序。

（标称属性是有意义的序，并且不是定量的，因此，给定一个对象集，找出这种属性的均值（平均值）或中位数（中值）没有意义。然后，意见有意义的事情是使该属性最常出现的值，这个值称为众数，是一种中心趋势度量，后面我们将**介绍到）

（2）二元属性

二元属性是一种标称属性，只是两个类别或状态：0或1，其中0通常表示该属性不出现，二1 表示出现。二元属性又称布尔属性，如果两种状态对应于true和false的话。

（3）序数属性

序数属性其可能的值之间具有有意义的序或秩评定。其值如小、中、大；成绩A+、A、A-、B+；军阶有列兵、一等兵、专业军士、下士、中士等；

序数属性的中心趋势可以用它的众数和中位数（有序序列的中间值）表示，但是不能定义均值。

（4）数值属性

以上介绍的标称、二元和序数属性都是定性的。即，他们描述对象的特征，而不给出实际大小的数量。而数值属性是定量的，即她可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比例标度的。

（5）离散属性与连续属性

机器学习领域开发的分类算法通常把属性分成离散的或是连续的。每种类型都可以用不同的方法处理。离散属性具有优先或无限可数个值，可以用或不用整数表示。如属性hari_color、smoker、medical_test和drink_size都有有限个值，因此是离散的。

如果属性不是离散的，则它是连续的。连续属性一般使用浮点变量表示。

1.1.3 数据的基本统计与描述

（1）中心趋势度量：均值、中位数和众数

均值：数据集的最常用、最有效的数值度量是均值。

这对应于数据库系统提供的内置聚集函数average（SQL的avg()）。

有时对于每个值可以有一个权重相关联，权重反应他们所依附的对应值的意义、重要性或出现的频率，公式如下：

这称做加权算数均值或加权平均。

中位数：对于倾斜（非对称）数据，数据中心的更好度量是中位数。中位数是有序数据值得中间值。它把数据较高的一半与较低的一半分开的值。

假定给定某属性X的N个值按递增排序，如果N是奇数，则中位数是该序集中的中间值；如果N是偶数，则中位数不唯一，它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下，嘉定约定，中位数取做最中间两个值的平均值。

众数：众数是另一种中心趋势度量。数据集的整数是集合中出现最频繁的值。因此，可以对定性和定量属性确定众数。可能是最高频率对应多个不同值，导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的，双峰的和三峰的。一般地，具有两个或更多众数的数据集是多峰的。在另一种极端的情况下，如果每个数据值仅出现一次，则它是没有众数的。

（2）度量数据散布：极差、四分位数、方差、标准方差、离群点

极差：设某数值属性集合，极差位其最大值(max())与最小值(min())之差。

分位数：假设属性X的数据以数值递增排序，想象我们可以挑选某些数据点，以便把数据分布划分成大小相等的连贯集。如图：