Spark大数据第一步:关联规则挖掘须知,什么是支持度、置信度

概念

在本篇文章中,我将举一个超市购物的例子,来解释频繁模式数据挖掘(frequent pattern mining)其他相关知识点的概念。[1]

消费者去沃尔玛(Walmart)买东西,把他们想买的东西放进购物篮(baskets)或购物车(cart)里,然后拿到收银台去结账(check out)。以下定义需要我们事先约定:[1:1]

  • T:消费者购买一系列商品,然后结账,超市存储在自己的收银系统里的唯一记录。
  • 购物篮(Basket):消费者购买的一系列商品。
  • 项集:一系列我们感兴趣的

现在让我们假设,我们分析了消费者的购物记录,然后发现了一个现象:大多数人,如果他们买了红酒,他们也会买芝士。等等,知道这个现象有什么意义?哈哈,有重大意义呢!比如,我们可以把红酒和芝士摆的远一点,中间放上很多其他的商品,当顾客走过去的时候,可能会产生附带的消费行为;我们可以给买了红酒的顾客推送芝士的广告,让他意识到我们超市有他很可能需要的芝士。这样促进他购物的欲望,我们就能从中获利。[1:2]

但是,我们怎么才能科学的衡量上面描述的这件事情呢?所以人们发明了**支持度(Support)置信度(Confidence)**数学概率概念来描述事物的关联规则。[1:3]

假设红酒和芝士的关联规则定量如下公式所示:

WineCheese[Support:9Wine→Cheese[Support:9\\%,Confidence:65\\%]

支持度

是指在所有的结账记录数据中,9%的账单里面同时出现了红酒和芝士。也就是说支持度代表的是,A和B两件事物同时发生或存在的概率。[1:4]

support(AB)=P(AB)support(A→B)=P(A∪B)

置信度

是指一张账单,包含红酒,然后也同时包含了芝士的概率是65%。也就是说65%的买了红酒的人,同时也买了芝士。[1:5]

confidence(AB)=P(BA)confidence(A→B)=P(B|A)

仔细想想,确实如此,9%是一个比较小的数字,不是那么多的人会同时买红酒和芝士,然而去买红酒的人,有65%又去买了芝士,不是吗?

这样意味着:如果我们的芝士打折大促,我们应该同时通知经常买红酒的顾客,因为他们是最大的潜在买家。[1:6]

关联规则

所谓关联规则,用于表达数据内隐含的关联性[2],例如:

WineCheese[Support:9Wine→Cheese[Support:9\\%,Confidence:65\\%]

现在你搞懂了吗?

参考文献


  1. Azim Maae. What is support and confidence in data mining?[EB/OL]. https://www.quora.com/What-is-support-and-confidence-in-data-mining, Apr 25 2017 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 小帆的帆. 关联规则、支持度(support)、置信度(confidence)、并运用Spark RDD计算[EB/OL]. https://blog.csdn.net/wo334499/article/details/51698810, 2016年06月17日 11:37:50 ↩︎


   转载规则


《Spark大数据第一步:关联规则挖掘须知,什么是支持度、置信度》 Harbor Zeng 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
中英双语论文解析:Mining Frequent Patterns without Candidate Generation(挖掘没有候选者生成的频繁模式) 中英双语论文解析:Mining Frequent Patterns without Candidate Generation(挖掘没有候选者生成的频繁模式)
Abstract 摘要 Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. 在数据挖掘研究中普遍研究了在事务数据库,时间序列数据库
下一篇 
中英双语论文解析:RDD,基于内存的集群计算容错抽象 中英双语论文解析:RDD,基于内存的集群计算容错抽象
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing(RDD:基于内存的集群计算容错抽象) Abstract 摘要 We present Resilient Distributed Datasets (RDDs), a distributed memory abs
  目录