设为首页 | 收藏本站
185 1521 8668

CRISP-DM和决策管理

发表时间:2025-04-11 15:13作者:Together规则引擎
文章附图

创建以决策为中心、可重复的方法

聪明的公司知道他们需要一种方法来利用新技术取得成功。高级分析和数据科学项目也不例外:仅仅投资大数据基础设施并购买新工具不会突然让您的组织决策变得更加明智。

CRISP-DM:概述

CRISP-DM - 跨行业数据挖掘标准流程是高级分析和数据科学(数据挖掘)项目的绝佳框架,特别是对于那些缺乏此类项目经验且尚不清楚哪种分析有助于做出哪些决策的组织而言。该流程于 1996 年底构思,并由戴姆勒-奔驰、SPSS 和 NCR 于 1997 年组建的联盟开发。CRISP-DM 1.0 于 2000 年发布。尽管是在 20 多年前构思的,但它仍然是高级分析最流行和最有效的方法。CRISP-DM 首先确定业务问题并了解可用数据。然后准备数据并进行迭代分析建模,直到获得可以评估和部署的结果。整个方法的设计既具有迭代性又具有可重复性。

这六个阶段是:

l 商业理解

确定商业目标,评估情况,确定您的分析目标并制定项目计划。

l 数据理解

收集、描述、探索和验证可用数据的质量。

l 数据准备

选择、清理、构建、集成和格式化所需的数据。

DM1.png

图1.CRISP-DM 的主要阶段

l 建模

选择建模技术,生成测试设计,构建和评估模型

l 评估

评估结果和过程以确定下一步。

l 部署

计划部署和监控/维护方法,最终确定和部署。

然后,根据需要对所有这些都进行迭代,以不断改进所提供的分析结果。

CRISP-DM 的三个关键方面,决策管理和决策建模起着关键作用:

l 商业理解

l IT 参与

l 部署和交付业务价值

商业理解

CRISP-DM 最重要的元素之一(也许是热衷于开始使用数据的数据科学家经常忽视的元素)是,在开始任何分析工作之前,首先要了解业务。核心思想是业务目标和情况必须推动项目,而不是数据科学。业务理解阶段应该产生以下工作成果:

l 背景信息

l 术语表

l 风险和意外事件

l 业务目标和成功标准

l 要求、假设和约束

l 资源清单

l 成本效益分析

l 数据挖掘成功标准和目标

这些都是很棒的可交付成果。使用CRISP-DM的项目团队面临的问题是,如何捕获需求、假设、约束和可用资源,以明确数据挖掘的成功标准,并将这些标准与真正的业务目标相匹配。

虽然可以编写一份文档来实现这一点,但建立一个模型来做到这一点要有效得多。什么样的模型?高级分析项目应该专注于改善决策。

近年来,决策建模已成为一种日益主流的技术。有一个已发布的决策模型标准—决策模型和符号(DMN)—以及有关该主题的几本书籍。DMN决策模型(如图2所示)采用有针对性的决策并将其分解为子决策(和子子决策等)。每个决策都根据必须回答的特定问题进行描述,并链接到其先前的决策以及所需的输入数据。这定义了做出决策所需的信息,即决策的数据输入或做出其他决策所产生的信息。此外,还确定了可用的知识来源(例如,政策、法规、最佳实践)并将其与决策相关联,以明确应如何做出这些决策。整个模型与决策影响的业务目标、参与决策的组织以及必须做出决策的流程相关联。

对于CRISP-DM项目来说,至关重要的是,决策模型还可以包括分析或数据科学输出作为知识来源,以便项目的数据科学的作用可以清楚地显示决策中的输出(例如,回归模型、神经网络、决策树)。

DM2.png

图2.显示分析模型特定作用的DMN决策模型

在业务理解阶段构建决策模型的项目团队可以明确其数据科学要解决的问题。决策模型将重点直接放在业务决策上,而不是所涉及的技术上,并清楚地表明分析应该帮助决策者做什么。决策模型还将建议的分析与业务目标和业务流程联系起来,因此何时使用分析以及它是否对业务产生了积极影响是显而易见的。最重要的是,决策模型在整个项目中都有好处。

IT参与

构建决策模型来定义其需求并获取业务理解的项目团队可以清楚地了解他们正在解决的问题。此外,决策模型可以确保业务和IT专业人员持续有效地参与项目的分析核心。

分析模型开发是高度迭代的—处理模型的数据科学家不断以新的方式评估可用数据,尝试不同的采样算法,应用不同的分析技术,并以不同的方式组合数据。这对于分析模型的有效开发至关重要,并且任务非常技术性,团队中的业务或IT从业人员很少或根本没有作用。这些任务也构成了项目工作的大部分,包括CRISP-DM中的数据理解、数据准备和建模阶段。

这会产生一个单一的危险—团队的分析成员将与业务和IT成员渐行渐远。由于这些任务没有得到广泛的理解或访问,因此业务和IT合作伙伴无法参与。每次迭代都可能导致分析团队进一步断开连接,直到完全不同步。决策模型通过为分析团队提供一个框架来帮助防止这种情况,每个迭代都必须适应该框架-如果迭代没有朝着更好的决策方向发展,那么它就没有帮助。

决策模型还明确了分析团队何时需要重新吸引业务。有时,分析团队无法找到构建最初设想的分析模型的方法。在这个过程中,团队很可能会发现还有其他可以预测或描述的东西。此时,它可以调出决策模型,了解需要哪些更改才能利用新的分析,并与业务和IT合作伙伴合作,看看这种更改是否可行。这使得业务视角可以与分析视角并行迭代。

项目也可能遇到可以被描述为“闪亮物体”的问题。有许多令人兴奋的分析技术可用,并且不断有更多技术上线。认知和人工智能技术允许对文档、电子邮件甚至图像进行分析。机器学习和深度学习技术从更嘈杂、更复杂的数据集中创建分析见解。此外,还有许多新的数据源可用—包括内部数据源,如组织采用数据湖,并在外部采用数据湖,因为应用程序编程接口(API)经济提供了更多可供消费的数据。

所有这些新的分析机会都可能让人分心—它们是明亮闪亮的对象,可能会诱使项目团队偏离其路径。参与该项目的业务和分析专业人员都是如此。分析和数据科学专业人士被来自同行和技术社区的有关新算法和新数据源的文章淹没。他们自然希望使用最酷、最新的方法。业务人员也会看到针对非专业读者的文章,这些文章详细介绍了其他组织从某种类型的数据或算法中实现的商业价值。自然,他们从他们的项目中寻求相同的价值。

决策模型为项目提供了一组导轨和路标。它详细说明了哪些决策需要改进、更好的决策是什么样的、谁做出决策,以及分析或数据科学在哪些方面有望在哪些方面对决策产生影响。这为项目团队提供任何新功能的有效试金石:鉴于我们专注于此决策,这些新技术或数据是否会帮助我们实现业务目标?如果不是,则可以将其放在一边(至少目前是这样)。如果是,决策模型会为其采用提供明确的指导和理由。

部署和交付业务价值

CRISP-DM方法的主要优势之一是它包括评估和部署。成功运用高级分析的组织知道,能够将分析操作化是成功的关键。只有将分析嵌入到操作工作流中并根据这些分析采取行动,才能创造价值。

应用CRISP-DM的分析团队通过记录他们的业务理解来开始他们的项目——理想情况下是基于决策模型和符号标准(DMN)的决策模型,如图2所示。这捕获了需要改进的决策的要求、假设和约束。它还将项目的分析成功标准与真正的业务成功标准联系起来,确保团队知道他们的分析模型必须有多好才能增加业务价值。

分析模型开发是高度迭代的。多种建模方法经过尝试、改进、拒绝和组合,以得出一个有效的模型。然而,分析团队可能会过于关注分析准确性而忽视业务目标,这是很危险的。分析团队有时会发现他们可以提高模型的准确性——例如将“是/否”答案转换为五分位数或十分位数——并开始开发一个尽可能准确的分析模型。虽然这看起来无害——毕竟更准确的模型肯定更好——但它需要时间和资源,而这些时间和资源本可以花在其他地方。

但是,有时数据并不支持非常准确的模型。此时,分析团队可能会决定放弃这项工作,因为似乎只有可能开发出质量较差的模型,或者他们可能会继续努力提取他们所能提取的任何准确性,即使清楚地感觉到可以开发的准确性有一个上限。

在这一点上,决策模型提供了一个试金石。分析团队可以参考决策模型,看看实际改进决策需要什么模型的准确性。他们可以看到,他们开发的模型已经足够准确,可以区分决策模型中概述的选项,因此停止处理模型。他们可以看到模型不太可能达到决策中使用的所需水平,因此返回到业务理解步骤,与他们的业务合作伙伴合作,了解如何更改决策以反映可能的分析模型。决策模型确保使用分析模型的数据科学家可以进行业务评估,而不仅仅是分析评估。

一些分析团队认为,一旦他们拥有满足此业务评估的模型,他们就完成了。然而,该企业仍然没有从他们的工作中获得任何价值。除非部署分析,将其嵌入到作工作流中并导致采取不同的作,否则不会增加任何价值。成功的分析团队将继续与其业务和IT合作伙伴合作,以确保部署(CRISP-DM的最后一步)成功。

DM3.png

图3.决策管理技术架构

部署通常涉及与IT部门合作,将分析模型(开发的算法)嵌入到生产环境中。如图3所示,这涉及将业务规则、分析和AI组件协调到支持各种应用程序上下文的决策服务中。

部署模型后,最后一步是与业务和运营团队合作,以确保发生变化,行为发生变化,以利用新的分析方法。

在项目开始时创建的决策模型可确保有效部署。决策模型显示了分析模型与决策时必须强制执行的策略或法规产生的显式决策逻辑或业务规则之间的平衡。由于决策模型也是业务规则的一种很好的要求技术,因此单个模型显示了如何将业务规则和分析相结合以做出数据驱动的合规决策。决策模型还准确显示决策中的哪个位置使用了哪些数据,从而简化了分析所需的数据集成。

决策模型还充当相关人员的培训和实施框架。通过将决策映射到不同的组织和角色,以及与业务目标的明确联系,决策模型可以向组织展示它需要如何做出新的分析决策。决策模型的可视化特性使其易于理解,决策模型是非常有效的训练工具。自动和手动决策之间以及判断和分析决策之间的平衡清楚地显示了出来。决策模型为必要的组织变革提供了路线图。

最后,决策模型将组织的数据与其决策和绩效管理环境联系起来。决策监控基于跟踪决策的制定方式(就决策模型而言),然后将此决策数据与绩效管理环境中跟踪的业务结果联系起来。

结论

采用高级分析似乎令人生畏,并且需要技术驱动。采用CRISP-DM和决策建模使不熟悉这些技术的团队能够为他们制定强大的业务案例,并将提议的项目与实际业务价值联系起来。

l 决策建模是一种可访问的技术,它使具有业务领域专业知识但不具备数据科学技能的团队成员能够积极参与。

l 将决策模型放在首位和中心,并在必要时对其进行迭代,使数据科学项目能够保持业务和IT从业人员的参与度和相关性。

l 决策模型可确保构建正确的分析,为分析团队提供评估其进度的业务目标,并确保可以部署和有效使用生成的分析模型。

决策模型和CRISP-DM方法可帮助您确保从分析投资中获得商业价值。

精选文章
公众号
关于我们
联系方式
让您的业务更自动化、智能化!
联系邮箱:   zhangy@jee-soft.cn       wangyl@jee-soft.cn
185 1521 8668
183 3562 2627
联系电话: