设为首页 | 收藏本站
185 1521 8668

嵌入预测分析

发表时间:2025-04-14 16:51作者:Together规则引擎
文章附图

嵌入预测分析是构建决策管理系统所需的五项关键功能之一。每项功能都可以逐步采用,并可以根据资源和业务驱动因素进行扩展。

数据挖掘和预测分析模型通常与商业智能(BI)、报告和可视化一起归入通用术语“分析”下。数据挖掘和预测分析与BI功能的主要区别在于:

l 预测分析提取有关可能的未来的含义,而不是总结或理解过去。它们使用历史数据来预测未来可能发生的事情。

l 预测分析是概率性的,而不是确定性的。通常,它们通过以一定程度的置信度进行预测来表示某事发生的可能性,或者对一组可能的结果从最有可能到最不可能进行排序。

l 他们不是依靠人类的视觉处理能力来查看数据中的模式,而是依靠数学算法以可部署在信息系统中的格式从数据中明确提取这些模式。

最后一点是预测分析工作台产品用于开发决策管理系统的关键。将预测分析项目的结果呈现为数学或可视化和报告是不够的。必须能够使用该产品生成有效的预测分析模型,并将此类模型嵌入到操作系统中,以便用于构建决策管理系统。

概述

嵌入预测分析需要一个软件组件来创建、验证、管理、部署和持续重建预测分析模型。这样的预测分析工作台允许数据挖掘者、数据科学家、分析专业人员或业务分析师探索历史数据并使用各种数学技术来识别和建模该数据中可能有用的模式。

就本文而言,我们不关心使用数据挖掘或预测分析工作台进行一次性研究项目以回答特定问题或构建统计模型本身。仅包括可应用于特定交易或项目以对其进行分类或对其进行预测的模型。其他形式的数据挖掘和预测分析可能对组织具有巨大的价值,但它们与决策管理系统的讨论无关。

所创建的预测分析模型可以预测二元结果(是或否),提供一个数字(通常表示概率或可能性等级)或从列表(例如产品)中进行选择。它们还可能根据可能性进行聚类或分组,或者确定哪些项目与哪些其他项目相关联。

数据挖掘和预测分析使组织能够将历史数据转化为有用的、可操作的分析见解。

数据挖掘和预测分析模型通常与商业智能、报告和可视化一起归入“分析”这一通用术语。数据挖掘和预测分析与商业智能功能在以下几个方面有所不同:

l 它们专注于提取可能的未来含义,而不是总结或理解过去——它们使用历史数据来预测未来可能发生的事情。

l 它们是概率性的,而不是确定性的,因为它们很少甚至从未预测过某件具体的事情一定会发生。一般来说,它们会说出某事发生的可能性有多大,以一定的置信度做出预测,或者将一组可能的结果从最有可能到最不可能进行排序。

l 它们依靠数学算法而不是人类的视觉处理能力来查看数据中的模式。

最后一点对于用于开发决策管理系统的产品具有重要影响。这些产品必须做的不仅仅是定义正确的数学模型并将其呈现为数学、可视化或报告。它必须能够生成预测分析模型并将其嵌入到操作决策管理系统中。

架构

预测分析工作台需要支持一系列通常以高度迭代方式执行的活动:

l 与各种数据源集成,以便将数据带入建模环境进行分析。

l 清理、集成、汇总和探索这些数据。

l 创建适合分析的分析数据集。

l 使用各种算法对大量记录进行自动或大部分自动分析。

l 根据此分析创建分析表示。

l 验证这些模型以证明它们将使用未用于构建它们的数据进行预测,以及评估它们在进行预测方面的有效性。

l 将这些模型部署到执行环境中或作为可以独立执行的代码。

l 定义和管理可重复的流程或工作流来处理所有这些步骤,以便可以使用新数据重复这些步骤。

这些工作台最重要的方面之一是它们支持工业规模的预测分析模型构建流程。随着组织越来越需要数十或数百个模型,需要更工业化的流程。这不会消除建模者的技能,但确实需要预测分析模型的构建和管理方式具有更高的可重复性、自动化和可扩展性。这就是预测分析工作台必不可少的地方。预测分析工作台使数据挖掘人员和业务分析师能够从过去的潜在大量数据中得出有关未来的有用概率。这些概率可以对客户或其他记录进行分组或细分,识别某人做某事的倾向(例如,购买、流失、响应、访问),确定两个记录之间的关联强度,或识别在许多可能的组合中可能的最佳组合。

功能

     数据管理

预测分析模型通常基于大量数据构建,这些数据通常来自多个数据源。预测分析工作台必须能够连接各种结构化和非结构化数据源以及各种平面文件并从中检索信息。

数据准备

可用数据通常不适用于构建预测分析模型。预测分析工作台提供了各种工具,允许在建模之前清理和集成数据。这些工具包括重命名和重新分类数据字段、输入缺失值、过滤异常值、提取样本和转换数据以使其更适合建模。这种数据准备工作的最终结果是通常所说的分析数据集-一组大型数据属性(一些原始的,一些派生的),任何层次结构都被“扁平化”为单个属性列表。

预测分析1.png


数据可视化和分析

建模工作通常从探索可用数据开始,以了解数据及其模式。丰富的可视化和图形工具以及统计分析例程有助于找到可能推动有效模型的隐藏模式和关系。这些工具通常与数据准备工具一起使用,以便可以在数据准备例程中纠正在绘制数据图表时发现的问题。一旦模型开发完成,相同的可视化和分析工具也将用于评估模型结果。

预测建模

预测分析工作台的核心是模型创建环境,至少适合数据挖掘者和其他分析用户。建模环境还可能允许业务分析师创建和管理建模过程——通常通过自动化和简化界面的组合。

一些预测分析工作台是为专家用户设计的。有些主要针对这些专家,但提供了针对更广泛受众的简化界面。有些设计为单一环境,既适用于专家用户,也适用于不太专业的用户。虽然界面的风格及其期望可能有所不同,但所有这些工作台都在某种形式的共享存储库中创建预测分析模型和相关资源。

建模环境通常涉及制定一系列步骤,这些步骤将导致构建一个或多个可评估性能的模型。这些步骤将包括数据准备和分析以及从大量算法中执行一个或多个算法。支持的算法包括聚类、关联、线性和逻辑回归、决策树、支持向量机、贝叶斯建模和最近邻技术等等。越来越常见的是,集成模型应用了几种技术,或者一种技术应用了不同的参数,结果以某种方式聚合在一起,以创建一个单一的整体集成模型。

一些预测分析工作台可以利用数据库内建模引擎,这些引擎可以处理一些数据准备任务,并在包含正在分析的数据的数据库服务器上执行建模算法本身。这通过消除将数据从数据库移动到单独的分析服务器的需要来提高性能,并利用支持数据基础设施的日益强大的服务器。

模型验证

无论使用哪种技术或技术组合,模型性能评估和比较工具都可用于查看模型的性能。可以比较不同的模型,并使用诸如提升曲线(将使用模型的选择与随机分布进行比较)之类的工具来查看模型在生产中的有效性。这些工具通常使用新数据(未用于构建模型的数据)来查看模型在部署后的预测能力。

部署和评分

一旦确定了最终模型,就必须部署它们。预测分析工作台可能允许多种部署方法:

l 模型可用于以批处理模式对数据进行评分,将结果应用回包含构建模型的数据的数据库。

l 一些预测分析工作台可以充当实时评分服务器,使用自己的评分引擎并提供Web服务或其他API以允许在决策过程中调用它。

l 还可以生成评分代码(以C或Java、SQL或业务规则的形式),以便将其部署到决策服务中进行实时评分。

l 还提供数据库内评分,模型定义被推送到运行评分引擎的分析基础架构。

l 多个预测分析工作台还允许使用预测模型标记语言(PMML)生成模型,从而允许任何支持此标准的业务规则或评分引擎执行该模型。

模型监控

模型是根据数据快照构建的。因此,它们会“老化”——随着时间的推移,输入到部署模型中的数据可能看起来越来越不像构建它的数据。预测分析工作台需要工具来监控部署的模型,以查看它们的性能如何随时间变化,并识别性能或数据分布的变化。许多新模型最初部署是为了挑战现有模型,需要比较原始“冠军”模型和新“挑战者”模型的性能,以确定挑战者是否足以取代冠军。模型监控工具需要识别刷新和重新训练模型的机会,并提供工具让用户轻松重建模型以利用新数据。

PMML是由数据挖掘组管理的开放标准,它提供了预测分析模型的标准XML表示,以便它们可以在多个产品之间交换。

模型调整

一些预测分析工作台提供用于自动模型调整和更新的组件。这些机器学习技术在部署中使用模型时监控其性能,并根据该性能自动调整其底层方程。其中一些环境可以从没有模型开始,并根据随机实验的结果逐渐构建预测模型,而其他环境则设计为与预定义模型一起使用。模型调整可以永远运行,也可以在定义的边界内调整模型,并在模型性能开始超出这些边界时标记模型以进行重建。如果模型在决策服务中执行,则模型调整功能通常部署在决策服务中。

存储库

预测分析工作台应提供企业级存储库来存储和管理预测分析模型。该存储库可能是一个完整的决策管理存储库,还存储业务规则和优化模型。它应该提供访问控制和安全性、对模型所做更改的审计跟踪和版本控制。

越来越多的软件产品允许在同一产品中指定和管理业务规则以及构建的预测分析模型。管理大量业务规则的程度和可以构建的预测分析模型的范围各不相同,因此这种组合产品可能无法支持特定决策管理系统所需的复杂性。这些产品通常还允许集成在其他预测分析工作台中构建的模型。

数据库内分析

数据库内分析可以准确理解为嵌入在关系型或列式数据库中的分析功能,尽管该短语也用于描述嵌入在数据仓库软件、数据设备和Hadoop集群中的分析功能。

数据库内分析功能以一组库(用户定义函数)的形式提供,这些库提供分析或数据挖掘功能,以便它们能够:

l 就地访问数据库、数据仓库、设备或Hadoop文件系统中的数据,而无需将其提取为某种临时格式。

l 直接使用数据基础设施的内存、并行处理功能和负载平衡/处理器管理。

l 既可以从专业分析工具(例如用于模型创建或数据质量任务)访问,也可以从操作系统访问。

数据库内分析功能特定于特定数据库、数据仓库、数据设备或Hadoop发行版。许多供应商提供对多个数据基础设施平台的支持。一些功能由数据基础设施供应商提供,一些由专业分析供应商提供,一些通过分析和数据基础设施供应商之间的合作提供。

对于决策管理系统,当今数据库内分析产品的核心功能包括:

数据库内数据准备和质量

数据准备、集成和清理通常耗费分析项目60-70%的时间和精力。在传统方法中,数据从存储数据的数据基础架构中提取,经过各种准备步骤处理,然后呈现给需要它的分析建模算法。

然而,有了数据库内功能,这些步骤都在数据库中执行。这意味着原始数据不是从数据库中提取的,而是在原地处理。

清理和转换后的数据可以存储在数据基础架构中,也可以传递到预测分析工作台进行进一步处理。最终结果是分析建模所需的数据在数据库中进行转换。

Hadoop提供了一个分布式、强大、容错的数据存储和操作环境,非常适合应对大数据的挑战。使用商用硬件使其能够以低成本扩展,而仅在读取数据时应用数据模式的能力意味着Hadoop对于各种数据类型都非常灵活。存储和处理以流为中心,这使环境能够处理快速移动的数据。对于采用预测分析的公司来说,Hadoop具有很大的潜力,但必须结合具体情况来应用。从业务问题(必须做出的决定)开始,确定所需的分析以及所需的数据类型。这通过识别需要现有基础设施中尚不可用的数据的业务问题来为Hadoop创建用例。

数据库内预测模型开发

数据库内模型开发允许使用嵌入在数据基础架构中的算法来开发预测分析模型。这些算法直接访问表和视图以获取所需的数据,使用数据基础架构的处理功能处理数据,并创建预测分析模型。此模型可以存储在数据基础架构中以进行数据库内评分,也可以传递出去供其他地方使用。这些功能可以与外部预测分析工作台集成。

R本质上是一种用于开发这些模型的解释型语言,以统计计算和图形显示结果的能力而闻名。它具有高度可扩展性,可作为免费和开源软件使用。核心环境提供标准编程功能以及数据提取、数据处理、数学分析和可视化的专用功能。核心包含对线性和广义线性模型、非线性回归、时间序列、聚类、平滑等的支持。

数据库内模型部署和评分

数据库内模型部署和评分基础架构采用使用数据库内建模基础架构和预测分析工作台的某种组合开发的模型,并在操作数据存储中执行它们,以便它们可供访问该数据存储的操作系统使用。这通常涉及将模型转换为可以使用SQL调用的UDF或存储过程,并将数据库字段作为输入。

PMML是由数据挖掘小组开发的用于交换预测分析模型的XML标准。基本结构是包含数据字典、数据转换和模型的XML格式文档。

PMML提供了一种开放的、基于标准的方法来实现预测分析。分析工具、数据库、数据仓库和服务器部署对PMML的支持越来越广泛。业务规则和其他开发环境也越来越多地支持它。

未来,对分析模型管理的更广泛支持以及将分析包装在业务规则中以进行数据库内决策将变得越来越重要。


我们拥有丰富的经验,专注于帮助客户使用决策管理、业务规则和高级分析技术构建以决策为中心、以行动为导向的系统和流程。使客户快速有效地采用决策建模并将其集成到他们的系统中。我们的客户涉及保险、银行、医疗、制造、供应链、物联网、电信、电商、健康管理和零售等领域的领先公司。

您可以联系我们进行免费咨询并了解有关我们服务的更多信息。

精选文章
公众号
关于我们
联系方式
让您的业务更自动化、智能化!
联系邮箱:   zhangy@jee-soft.cn       wangyl@jee-soft.cn
185 1521 8668
183 3562 2627
联系电话: