数据分析的三大框架：底层技术、分析建模、工具选择

时间: 2021-07-30 10:56:17 人气: 10 评论: 0

在搭建知识大厦之前，先需要建立知识的框架，然后才能高效的填充知识。所以本文主要跟大家分享如何建立框架。

先看下数据科学的世界观，参考下面的思维导图：

有了世界观，我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前，先需要建立知识的框架，然后才能高效的填充知识。所以今天我们先建立框架。

数据分析的三大框架

数据科学的框架分为三部分：底层技术框架/数据分析框架/工具选择框架，接下来依次给大家介绍：

1. 底层技术框架

底层技术框是数据科学的基础设施，我们有所了解就好，处理框架和处理引擎负责对数据系统中的数据进行计算。

流处理系统：流处理系统**对随时进入系统的数据进行计算。相比批处理模式，这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。

流处理中的数据集是“无边界”的，这就产生了几个重要的影响：

完整数据集只能代表截至目前已经进入到系统中的数据总量。
工作数据集也许更相关，在特定时间只能代表某个单一数据项。

批处理系统：批处理在大数据世界有着悠久的历史，批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。

批处理模式中使用的数据集通常符合下列特征：

有界：批处理数据集代表数据的有限集合；
持久：数据通常始终存储在某种类型的持久存储位置中；
大量：批处理操作通常是处理极为海量数据集的唯一方法。

批处理非常适合需要访问全套记录才能完成的计算工作，例如：在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

2. 日常监控框架

数据数据分析的工作分为俩部分，日常长远工作（相当于养兵千日）和针对项目/公司需求做的及时响应（相当于用兵一时）。

日常长远的工作主要是日常监控系统。

2.1 日常监控系统主要分为：测量/建立标准/发现异常

首先是测量

测量就是将具体的产品和业务转化为数据的过程.本质上来看，这个过程相当于把一个现实世界的对象映射到我们的抽象空间里，先天的**存在很大的误差，但是意义重大，统一了我们看待业务的方式。从此之后，我们对于业务的讨论都在一样的标准上进行。同时，也由于测量的先天误差，测量值得不断更新。

举个栗子：一个内容产品建立业务指标的逻辑假设你是内容运营，需要对现有的业务做一个分析，提高内容相关数据，你**怎么做呢？

我们把金字塔思维转换一下，就成了数据分析方法了，从内容运营的流程开始，它是：内容收集——内容编辑发布——用户浏览——用户点击——用户阅读——用户评论或转发——继续下一篇浏览。这是一个标准的流程，每个流程都有指标可以建立。内容收集可以建立热点指数，看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计，用户阅读是阅读时长。

2.2 建立标准和发现异常

有业务指标体系，我们就可以监控产品了，那么数据的波动一定是因为产品本身的问题吗？其实不然。

想象这样一种场景：你在一家做玩具跨境电商的公司，在3月份，发现公司玩具销量出现大幅下滑，结果做了很多分析，提出了N种解决方案，依然收效甚微。被老板一顿痛骂之后，苦恼的回家，打开电视一开，新闻联播说：中美贸易危机，出口行业受较大影响，领导表示亲切关怀.。

原来数据异常，并不是公司的问题，而是整个环境变了，而我们却用了大量的时间精力分析自己的问题。

所以我们要建立正常的标准，我们每次比较都是预期标准比较的，而不是和0比较，也不是和最好的情况比较。

常见的基准：同行业平均水平/宏观经济指标/公司运营活动预期。
发现异常：设定标准偏离正常标准3%算作异常，值得我们深入分析。

其实数据分析的日常工作，还可以包括丰富企业的模型库，这一点在下一部分的叙述**有所涉猎。

3. 面向项目的问题分析框架

上面介绍完了数据分析师的日常工作，接下来介绍工作的另一部分——解决项目实际问题。

3.1 发现并明确问题

问题的来源包括这几个方面：

（1）业务部门的问题需求

（2）监控发现的异常数据

提出一个好问题，往往比找到答案重要。

业务部门直接给出的问题往往模糊不清，我们需要去分析问题的本质，把他进行简化抽象。

（3）对问题进行本质分析

剥离自然语言，最后语句中只包含俩类语句结构：A是B，A属于B。
转化为集合语言或者系统语言。

（4）把问题归结到几种常见问题类型，或者转化为常见问题的组合，问题的本质类型

价值判断类，相当于为什么的问题。

首先应该明确判断的标准，然后进行打分。

现实类，相当于是什么和怎么办的问题，可以近似为是因果/相关关系探索类的问题。

问题的衍生类型：

预测问题：相当于因果关系探索；
决策问题：相当于价值判断类问题+因果关系探索；
分析原因问题：相当于因果关系类问题。

3.2 问题的全方位分析

文献综述（俗称百度，当然不仅仅包含百度）

针对提出的问题，搜寻前人的分析，总结前人的经验。常见的高质量数据源：知乎、知网、谷歌学术。

问题的探索性分析：

头脑风暴：头脑风暴法（Brain storming），是指由美国BBDO广告公司的奥斯本首创，该方法主要由价值工程工作小组人员在正常融洽和不受任何限制的气氛中以**议形式进行讨论、座谈，打破常规，积极思考，畅所欲言，充分发表看法。
德尔菲法：也称专家调查法德尔菲法，也称专家调查法，1946 年由美国兰德公司创始实行。该方法是由企业组成一个专门的预测机构，其中包括若干专家和企业预测组织者，按照规定的程序，背靠背地征询专家对未来市场的意见或者判断，然后进行预测的方法。
scrum 项目管理方法：它是由三个角色（产品负责人、scrum专家、团队成员）、四个仪式（冲刺计划**、每日站**、冲刺评审**、冲刺回顾**）和三个物件（产品积压、冲刺积压、燃尽图）组成的一套项目管理方法。冲刺，是一次竭尽权力的都安排，scrum的核心，是把整个项目分成若干个冲刺，每次2-4周，冲万一次再来一次。

3.3 数据收集

内部数据：由公司业务体系决定，公司内部产生的互数据。

常用工具有：GA/百度统计；
也有公司自建数据库：通过SQL查询。

外部数据：

常见指数：百度指数、阿里指数、谷歌趋势指数、**TBI指数、经济指数（大**指数等）
竞品监控：ALEXA / similar WEB。

3.4 数据的预处理和预分析

我们收集来的数据，并不能直接使用，而是需要先进行清洗。

预处理主要是指清洗好数据之后，可以对数据做一下粗略分析，方便建模的深入。

预分析-主要是针对对象做描述统计，包括分布、集中/离散趋势，包括均值/方差/偏度/峰度/分位数等，也包括相关性的探索性分析。

3.5 选择模型

模型空间的构建：这是个无限集合，其实模型的收集永无止境。我们也可以按照演绎的体系去梳理模型空间，我们主要收集的是三类模型：商业/统计/数据挖掘。

商业分析模型：麦肯锡等咨询公司根据商业需要总结的一些分析框架，我们的模型大多来自咨询公司，也可以根据业务理解，自己建立。

比如：波特五力模型是迈克尔·波特（Michael Porter）于20世纪80年代初提出。他认为行业中存在着决定竞争规模和程度的五种力量，这五种力量综合起来影响着产业的吸引力以及现有企业的竞争战略决策。五种力量分别为同行业内现有竞争者的竞争能力、潜在竞争者进入的能力、替代品的替代能力、供应商的讨价还价能力、购买者的讨价还价能力。

统计模型，主要是依靠统计学知识。各种分布和检验的关系原理，这部分需要很好的数学基础，我这里只简单的给出输入条件和输出条件，至于其中的具体原理，有机**做一个概述。

数据挖掘模型：

生成模型：由数据学习联合概率分布P(X，Y)，然后求出条件概率分布P(Y|X)作为预测模型，即生成模型P（Y|X）=P（X，Y）/P（X）——存在隐变量。典型的生成模型：朴素贝叶斯法，隐马尔可夫模型。
判别模型：由数据直接学习决策函数f(X)或者条件概率分布P（Y|X）作为预测的模型。即对给定的输入X，应该预测什么样的输出Y。典型的判别模型：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场。

监督学习三类问题：分类问题、标注问题、回归问题。

可用于分类问题的统计学习方法：k近邻法，感知机，朴素贝叶斯法，决策树，决策列表，逻辑斯蒂回归模型，支持向量机，提升方法，贝叶斯网络，神经网络，Winnow 可用于标注问题的统计学习方法：隐马尔可夫模型，条件随机场。

模型的选取标准：

根据业务需求，确定优先级进行打分；
根据测试效果选择。

模型在具体问题下的构建：

数据挖掘问题的模型求解；
根据业务实际需要调整模型。

模型评价：基准模型，其他建模尝试。

多元线性回归作为基准模型；
其他模型效果明显提高，认为**越基准模型。

3.6 成果输出

成果输出，一般是面向组织内部，比如：同事、老板，也有可能面向吃瓜群众，这俩种情况的原则很不一样，组织内部是理性交流，要讲逻辑，面向观众，则要讲情感。

（1）结构化 mece法则

MECE，是Mutually Exclusive Collectively Exhaustive 缩写，中文意思是“相互独立，完全穷尽”。也就是对于一个重大的议题，能够做到不重叠、不遗漏的分类，而且能够借此有效把握问题的核心，并成为有效解决问题的方法。它是麦肯锡的第一个女咨询顾问巴巴拉·明托（Barbara Minto）在金字塔原理（The Minto Pyramid Principle）中提出的一个很重要的原则。

可视化的本质是面对非本领域专家，为了方便信息的传达，用图形直观的方式展示分析成果（分析模型），图形主要是各种统计图表和逻辑框架图.，图形的选择标准主要是根据变量属性（定量数据还是定类数据），变量个数，希望达成的展示目标决定。

具体选择原则见下图：

面向吃瓜群众的成果输出，感官刺激，如果是面向吃瓜群众，那么要尽量减少逻辑/说理的成分，尽量用视觉化的表达.视觉想象是第一说服力。生活中我们做事情，并不是理性对理性，更多的时候都是感情对感情。

3.7 模型反馈

知道贝叶斯定理吗？其实我们最终得到的模型，本质是一个假设，具体有效没效，需要在实践中检验。

模型评价：模型效果=模型预测-实际情况。

关于工具选择的框架

我们需要区分方法和工具，以上谈到的数据分析框架是方法，而实现这些方法可以人力完成，也可以借助计算机辅助，目前计算机辅助数据分析工具主要是三部分：

计算机语言：Python 和 R. 我学习的是Python，Python具有高扩展的能力，几乎在计算机各个领域都有应用. R具有非常全面的数学分析包，也是不错的选择；
软件：Excel ，power BI等. 入门的话可以掌握Excel，Excel提供了实现以上框架的全流程操作，不仅仅是做个表格那么简单. powerBI 是微软推出的免费的商业智能软件，是可视化不错的工具；
各种小型工具主要是各种指数工具，还有各种数据收集工具，以下给出了围绕营销漏斗的工具集合。