Apriori算法——从尿布与啤酒的故事启发的算法- 大数跨境

数组智控产业发展科技院

2021-07-02

导读：1、目的：从用户的商品购买流水中，找出经常被一起购买的商品集合。即遍历所有可能的商品组合集合，找出频繁集。

1、目的：从用户的商品购买流水中，找出经常被一起购买的商品集合。即遍历所有可能的商品组合集合，找出频繁集。

2、概念

a) 频繁集：指的是商品数据集合中经常一起出现的组合。在同一频繁集中出现的商品说明存在某种关联性。用支持度与置信度来定义商品间的强弱关系。

b) 支持度：数据集合中包含该项集记录所占的比例。下面表格例子中，{豆奶}的支持度=2/5，{啤酒，尿布}的支持度=3/5；

c) 置信度：针对频繁集商品数量>=2的情况，k项数据集的置信度等于k项集的支持度与k-1项集的支持度之比。比如：{啤酒，尿布}的置信度=支持度（{尿布，啤酒}）/支持度（{尿布}）；

3、算法步骤（例子）

1) 扫描数据集，构建单项的集合，对所有单项的支持度计算数量，并收集满足最小支持度的项。找出单项频繁集集合。

2) 以上一次遍历所得到的频繁项集作为种子项集，构建新的2项候选集，选出满足支持度的所有2项频繁集，依次迭代，直到遍历所有可能的数据集；

（给定一个候选k项集，只需要检查其k-1项子集是否频繁）

【声明】内容源于网络

数组智控产业发展科技院

以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

内容 986

粉丝 0

数组智控产业发展科技院以AI技术为底层能力，聚焦智慧园区、城市公共安全、数智警务、健康医疗、能源电力、科研实验及平安校园等领域，提供从感知到决策的全流程软硬件一体化的国产装备智能体产品解决方案。

总阅读2.3k

粉丝0

内容986