
1、 目的:从用户的商品购买流水中,找出经常被一起购买的商品集合。即遍历所有可能的商品组合集合,找出频繁集。

2、 概念
a) 频繁集:指的是商品数据集合中经常一起出现的组合。在同一频繁集中出现的商品说明存在某种关联性。用支持度与置信度来定义商品间的强弱关系。
b) 支持度:数据集合中包含该项集记录所占的比例。下面表格例子中,{豆奶}的支持度=2/5,{啤酒,尿布}的支持度=3/5;
c) 置信度:针对频繁集商品数量>=2的情况,k项数据集的置信度等于k项集的支持度与k-1项集的支持度之比。比如:{啤酒,尿布}的置信度=支持度({尿布,啤酒})/支持度({尿布});

3、 算法步骤(例子)
1) 扫描数据集,构建单项的集合,对所有单项的支持度计算数量,并收集满足最小支持度的项。找出单项频繁集集合。
2) 以上一次遍历所得到的频繁项集作为种子项集,构建新的2项候选集,选出满足支持度的所有2项频繁集,依次迭代,直到遍历所有可能的数据集;
(给定一个候选k项集,只需要检查其k-1项子集是否频繁)



