基于scikit-learn识别导入的图像

李健民

李健民

某医学AI公司

擅长:临床研究设计和分析
已关注
关注
2020-08-20 来源:医咖会

人工智能和大数据结合的系列课程我们已经出了三期:

1、写给医生的人工智能体验课(一):作为医生,怎么跟进人工智能不落伍?

2、写给医生的人工智能体验课(二):用比喻的方式形象讲解神经网络

3、写给医生的人工智能体验课(三):利用SPSS、R、python建立简单的神经网络

本文继续讲解第四课:基于scikit-learn识别导入的图像

我们在经历前面的操作后,相信大家对表格形式的数据已经很熟悉了,肺癌数据集就是一个有344行患者,7列变量的数据。这个(344,7)就是代表一个二维数据。

现实生活中的数据都是有维度的,譬如一行患者的数据,一列变量的数据就是一维数据;肺癌数据集这种有多行多列的就是二维数据;如果肺癌数据集中的患者数据每周都会更新一次,增加了一个时间的维度,那么这就是三维的数据。

灰度图像只有一个颜色通道,算上图像的高度、宽度、样本量,也是一个三维数据;如果是彩色图像,具有三个颜色通道,那就是四维数据;视频可以看作一系列帧,每一帧都是一张彩色图像,于是数据又多了一个维度,为五维数据。

我们平常总听到广告说手机拍照的像素多高,动辄数千万甚至上亿。手机拍下的每张图片都是由色点组成的,每个色点称为一个像素。如果一张图片由30万个色点组成,这个图片的像素就是30W。把下载后的数据解压后,会有一个datanum的文件夹,里面有0-9共10个文件夹。每个文件夹下有对应的500张黑白手写数字,如图为0文件夹下的图片,我们的任务是建立模型,让程序识别图片写的是什么数字。

具体做法是把每个手写数字的前480张作为训练集,后20张作为训练集,用传统分析二维数据的方法,分别建立logistic模型和神经网络模型,看看模型的预测效果如何。

试读结束,兑换后即可解锁本专栏全部课程
评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈