临床预测模型,如何估算样本量

1天前 来源:小白学统计

内容来自:“小白学统计”微信公众号,感谢作者授权

预测模型开发中的样本量确定可以通过两种主要方法:经验法则和基于特定标准的计算方法

样本量确定的经验法则:

10 EPV(每个变量10个事件)和10 EPP(每个候选预测参数10个事件)是比较常用的经验法则。如果只比较这两个原则,建议选择 10 EPP而不是10 EPV ,EPP可以避免对“变量”术语的潜在误解。例如,当一个连续变量如“年龄”被纳入模型时,它对应一个估计参数。但是,添加年龄的二次项会增加到两个参数。同样,将年龄分类为五组需要估计四个参数。换句话说, 一个变量并不等于一个参数,一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。

尽管10 EPP原则很简单,但也存在不少争议。 有的模拟研究建议,增加10 EPP到20 EPP甚至50 EPP以减少偏差。这种不一致性源于所需事件取决于多种因素,如预测因子的效应量、研究群体中的结果比例和预测因子的分布。

样本量确定的计算方法:

Riley等人提出的计算方法包括五个步骤[1-3]: 

步骤1:计算样本量以确保整体结果风险的精确估计,相当于保证截距的精准估计,推荐的误差边界为0.05。 

步骤2:计算样本量以确保平均绝对预测误差(MAPE)小于5%。这是从预测和真实的差值角度来说的。

步骤3:计算样本量以确保全局收缩因子大于0.9,减少过拟合。 

步骤4:计算样本量以确保显著和调整后的R²Nagelkerke之间的绝对差异不超过0.05。 步骤3和4都是从过拟合角度来说的。

步骤5:选择四个计算得出的样本量中最大的作为最终样本量。

如果大家想直接略过理论部分,直接看如何计算,Riley等给出了一个r包pmsampsize。比如,结局是二分类变量;已知以往文献的roc曲线下面积为0.8,拟纳入15个参数,结局患病率约为0.1。那就可以用下面语句实现样本量估算

pmsampsize(type = "b", cstatistic = 0.8, parameters=15, prevalence = 0.1)

虽然计算方法在理论上比经验法则更合理,因为它考虑了多个因素,但仍存在许多实际挑战。

首先,尽管作者提供了样本量计算所需参数的推荐值,但使用固定参数值并不可取。例如,在步骤1中,作者固定误差为0.05并不合理。比如,对于5%和50%的患病率,都采用0.05的误差,显然不大合理。因此,在实际应用中,仍需结合临床知识和先前文献进行综合判断。

其次,从现有文献中获取预先指定的参数存在挑战。在Paula Dhiman等人的系统综述中,62项研究中的152个评估模型只有一个报告了R²,而仅四个报告了MAPE或RMSE。因此,在实际计算中,参数的确定涉及一定程度的主观性。

使用计算方法确定EPP: 

为简化临床应用,我们根据前述五个步骤计算了不同c统计量、事件比例和参数数量的样本量和相应的EPP数量。结果汇总于下表。

评论
请先登录后再发表评论
发表评论
使用课程券需先认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
下载附件需认证
为保证平台的学术氛围,请先完成认证,认证可免费享受基础会员权益
基础课程券2张
专属科研工作台
200积分
确认
取消
公众号
统计咨询
扫一扫添加小咖个人微信,立即咨询统计分析服务!
会员服务
SCI-AI工具
积分商城
意见反馈