数据挖掘建模:如何从数据中“淘金”?


时间: 2021-07-30 09:14:19 人气: 3 评论: 0

本文笔者将对数据挖掘建模的一般过程进行解析,主要分为四部分:数据准备、模式发现、模型构建以及模型评价。

数据挖掘介绍

数据挖掘(Data Mining,DM):就是从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。这些模型和关系可以被企业用来分析风险、进行预测。

数据挖掘的目的就是从数据中“淘金”,就是从数据中获取智能的过程,数据挖掘是提供了从数据到价值的解决方案。

数据+工具+方法+目标+行动=价值。

目前,数据挖掘已有一系列应用:

  1. 分类分析:有监督学习,将数据映射到事先定义的群组或类。应用在将信用卡人分为低中高风险群等。
  2. 回归分析:用属性的历史数据预测未来趋势,应用预测哪些用户在未来半年**流失等。
  3. 聚类分析:无指导学习,在没有给定划分类的情况下,根据信息相似度进行信息聚类。应用在对客户行为分析,对客户分层进行精准营销。
  4. 关联分析:发现事物间的关联规则或称相关程度,常用在交叉销售,交叉分析,著名的啤酒与尿布。
  5. 时序模式:已知的数据预测未来的值,回归不强调数据间的先后顺序。
  6. 偏差分析:来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化。常用在防欺诈,以及保险领域。

以上这些应用涉及的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。

数据挖掘建模的一般过程

第一步,数据准备

数据选择主要考虑的包括:

  • 哪些数据源可用?
  • 哪些数据与当前挖掘目标相关?
  • 如何保证取样数据的质量?
  • 是否在足够范围内有代表性?
  • 数据样本取多少合适?
  • 如何分类(训练集、验证集、测试集)?

选择数据的标准,一是相关性,二是可靠性,三是最新性,而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。

1)数据探索:数据清洗和构造

前面所叙述的数据选择,多少是带着人们对如何达到数据挖掘目的的先验认识进行操作的。

当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求?其中有没有什么明显的规律和趋势?有没有出现从未设想过的数据状态?因素之间有什么相关性?它们可区分成怎样一些类别?这都是要首先探索的内容。

对所抽取的样本数据进行探索、审核和必要的加工处理,是保证预测质量所必需的。可以说,预测的质量不****过抽取样本的质量。

数据探索主要包括:异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。

2)数据预处理:整合和格式化

当采样数据维度过大,如何进行降维处理?采样数据中的缺失值如何处理?这些都是数据预处理要解决的问题。

由于采样数据中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那么,如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果的目的呢?

数据预处理主要包括以下内容:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约。

第二步,模式发现

样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?

模型构建的前提是在样本数据集中发现模式,比如:关联规则、分类预测、聚类分析、时序模式等。

在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要。

第三步, 模型构建

确定了本次建模所属的数据挖掘应用问题(分类、聚类、关联规则或者时序模式)后,还需考虑:具体应该采用什么算法,实施步骤是什么?

这一步是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。

预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用**有细微的变化。

第四步, 模型评价

模型评价的目的是什么?如何评价模型的效果?通过什么评价指标来衡量?

模型效果评价通常分两步:

第一步是:直接使用原来建立模型的样本数据来进行检验。

假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

第一步通过后,第二步是:另外找一批数据,已知这些数据是反映客观实际的、规律性的。

业务应用场景:网红销售额评估模型、客户ROI评估模型、网红品类推荐模型、网红报价建议模型、网红欺诈行为预警模型、网红流失预警模型等

结论

实践表明:由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样**进行复杂的思考,它只**按照人的指令工作。

但是,计算机拥有海量的数据存储能力和**强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务。

数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将**不停地促进它的发展。

每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是**大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。

另外,近年来短视频,图**等多媒体数据库发展很快,面向多媒体数据库的挖掘技术今后将成为研究开发的热点。

 

本文由 @无语凝咽 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!
---蛙鱼源码WAYUYM.COM---专业提供网站模板,网站源码下载,教程培训,程序插件,网站素材等建站资源,主要收集各类精品源码资源,包含CMS程序模板、网站源码、游戏源码、APP源码等 ,所有资源都没有水印适合搬运,我们致力于打造一个优秀的建站资源共享学习平台!

专业厂家,设备先进,技术力量雄厚,自动化生产技术先进,产品质量符合国家标准,价格合理,https://www.69shenlan.com/,具有质量保证,生产及时,交货快捷的特点。 我们的宗旨:做我们擅长的事,希望用我们的创意和创意为客户实现战略定位,塑造品牌,强化形象!
我们的要求:坚持“优质产品、优质服务、优惠价格、快速交货”的经营方针,努力开拓市场,真诚为客户服务! 我们的发展:以独特的专业和专业精神,https://www.69shenlan.com/1:1--

2年

评论