作者:李健民 在之前的文章中,我们介绍了apriori算法的思想,应用场景,以及先验项、后验项、支持度、置信度、提升度等基本概念。
详见:啤酒与尿布的故事和临床研究有什么关系 ——关联规则的基本概念 本文将结合具体数据讲解apriori算法的分析实例和如何在R中实现。
数据说明:近年科学家发现了一种新的流感病毒正在东南亚蔓延,但是人们对这种病毒所知甚少。在显微镜下,人们发现这种病毒可以分成A、B、C、D、E、F这几个亚型,可以导致人体发生symptom1-symptom8这8个常见症状。研究者记录了500个病人的亚型与出现症状,并记录成数据集symptom(请在文章右侧下载数据集及代码)。如果我们进一步探索其中亚型与症状的规律,或许能找到更合适对症治疗的药。数据录入如下图 安装和调用相关的R包,本文涉及的包有readxl、ggplot2、arules、arulesViz,可用install.packages()安装
install.packages("readxl")
library(readxl)
#载入数据(可以用绝对路径,也可以用Rstudio中的import Dataset窗口导入)
symptom <- read_excel("C:/ symptom.xlsx") ##1.描述统计及可视化 #1.1我们想了解C亚型病毒中各种症状的频数表
library(dplyr)#dplyr包是数据清洗常用的包
subC<-filter(symptom, Subtype=="C")#筛选出目标行,共有163个C亚型对象
factor1<-subC[,3:10]#筛选出目标列,第3列至第10列是symptom1-symptom8
确认删除