Spark大数据第一步：关联规则挖掘须知，什么是支持度、置信度

spark与大数据

发布日期: 2019-07-24

文章字数: 791

阅读时长: 3 分

阅读次数:

概念

在本篇文章中，我将举一个超市购物的例子，来解释频繁模式数据挖掘（frequent pattern mining）和其他相关知识点的概念。^[1]

消费者去沃尔玛（Walmart）买东西，把他们想买的东西放进购物篮（baskets）或购物车（cart）里，然后拿到收银台去结账（check out）。以下定义需要我们事先约定：^[1:1]

T：消费者购买一系列商品，然后结账，超市存储在自己的收银系统里的唯一记录。
购物篮（Basket）：消费者购买的一系列商品。
项集：一系列我们感兴趣的项。

现在让我们假设，我们分析了消费者的购物记录，然后发现了一个现象：大多数人，如果他们买了红酒，他们也会买芝士。等等，知道这个现象有什么意义？哈哈，有重大意义呢！比如，我们可以把红酒和芝士摆的远一点，中间放上很多其他的商品，当顾客走过去的时候，可能会产生附带的消费行为；我们可以给买了红酒的顾客推送芝士的广告，让他意识到我们超市有他很可能需要的芝士。这样促进他购物的欲望，我们就能从中获利。^[1:2]

但是，我们怎么才能科学的衡量上面描述的这件事情呢？所以人们发明了**支持度（Support）和置信度（Confidence）**数学概率概念来描述事物的关联规则。^[1:3]

假设红酒和芝士的关联规则定量如下公式所示：

Wine→Cheese[Support:9\\%,Confidence:65\\%]

支持度

是指在所有的结账记录数据中，9%的账单里面同时出现了红酒和芝士。也就是说支持度代表的是，A和B两件事物同时发生或存在的概率。^[1:4]

support(A→B)=P(A∪B)

置信度

是指一张账单，包含红酒，然后也同时包含了芝士的概率是65%。也就是说65%的买了红酒的人，同时也买了芝士。^[1:5]

confidence(A→B)=P(B|A)

仔细想想，确实如此，9%是一个比较小的数字，不是那么多的人会同时买红酒和芝士，然而去买红酒的人，有65%又去买了芝士，不是吗？

这样意味着：如果我们的芝士打折大促，我们应该同时通知经常买红酒的顾客，因为他们是最大的潜在买家。^[1:6]

关联规则

所谓关联规则，用于表达数据内隐含的关联性^[2]，例如：

Wine→Cheese[Support:9\\%,Confidence:65\\%]

现在你搞懂了吗？

参考文献

Azim Maae. What is support and confidence in data mining?[EB/OL]. https://www.quora.com/What-is-support-and-confidence-in-data-mining, Apr 25 2017 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
小帆的帆. 关联规则、支持度（support）、置信度（confidence）、并运用Spark RDD计算[EB/OL]. https://blog.csdn.net/wo334499/article/details/51698810, 2016年06月17日 11:37:50 ↩︎

转载规则

《Spark大数据第一步：关联规则挖掘须知，什么是支持度、置信度》由 Harbor Zeng 采用知识共享署名 4.0 国际许可协议进行许可。

中英双语论文解析：Mining Frequent Patterns without Candidate Generation（挖掘没有候选者生成的频繁模式）

Abstract 摘要 Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. 在数据挖掘研究中普遍研究了在事务数据库，时间序列数据库

2019-07-25 spark与大数据

spark 论文 Frequent-Pattern

中英双语论文解析：RDD，基于内存的集群计算容错抽象

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing（RDD：基于内存的集群计算容错抽象） Abstract 摘要 We present Resilient Distributed Datasets (RDDs), a distributed memory abs

2019-07-18 spark与大数据

spark hadoop RDD dataset

概念

支持度

置信度

关联规则

参考文献

投食