apriori算法在R中的应用

李健民

李健民

某医学AI公司

擅长:临床研究设计和分析
已关注
关注
2019-09-04 来源:医咖会

作者:李健民 在之前的文章中,我们介绍了apriori算法的思想,应用场景,以及先验项、后验项、支持度、置信度、提升度等基本概念。

详见:啤酒与尿布的故事和临床研究有什么关系 ——关联规则的基本概念 本文将结合具体数据讲解apriori算法的分析实例和如何在R中实现。

数据说明:近年科学家发现了一种新的流感病毒正在东南亚蔓延,但是人们对这种病毒所知甚少。在显微镜下,人们发现这种病毒可以分成A、B、C、D、E、F这几个亚型,可以导致人体发生symptom1-symptom8这8个常见症状。研究者记录了500个病人的亚型与出现症状,并记录成数据集symptom(请在文章右侧下载数据集及代码)。如果我们进一步探索其中亚型与症状的规律,或许能找到更合适对症治疗的药。数据录入如下图  安装和调用相关的R包,本文涉及的包有readxl、ggplot2、arules、arulesViz,可用install.packages()安装

install.packages("readxl")

library(readxl)

#载入数据(可以用绝对路径,也可以用Rstudio中的import Dataset窗口导入)

symptom <- read_excel("C:/ symptom.xlsx") ##1.描述统计及可视化 #1.1我们想了解C亚型病毒中各种症状的频数表

library(dplyr)#dplyr包是数据清洗常用的包

subC<-filter(symptom, Subtype=="C")#筛选出目标行,共有163个C亚型对象

factor1<-subC[,3:10]#筛选出目标列,第3列至第10列是symptom1-symptom8

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈