1.缺失值和空值
空值就是我们这个患者本来就没有做这个检验,所以我们没有这个数据就空着了。
缺失值是我们这个患者做了这个检验,我从集成视图看他做了,但是点击报告看不到,因为太早年了数据丢失了。
我查了缺失值的处理。
缺失少于15%,分类变量用众数替代,数值变量用均数替代。
但是>15%的是都可以用回归估计吗?回归估计最多可以适用于多少比例呢?
但是空值我不知道怎么处理呢?算是缺失值吗?
我要不要处理缺失值?我的指标中就没有几个计数资料,就是检验资料里面有一些连续性变量,但是检验资料缺失好多呀,我收集了8年的病人,有的检验方法也很不同,有的就查肝功,有的是生化全套,像细胞免疫检验的项目名称也不一样,而且都不到一半病人有查,我看有的文章是写有多少例查了这个指标,有几例异常,又变成分类变量了。crp是比较全的一个值班又出现了极值(〈5,〈0.5,〉90)。spss又处理不了了。
另外,如果缺失值处理了要在毕业论文中提吗?
2.暴露因素
暴露因素有要求是入院前的指标吗?流行病学里面有一句话(病例对照研究是按照有无所研究的疾病或某种卫生事件,将研究对象分为病例组和对照组,分别追溯其既往(发病或出现某种卫生事件前)所研究因素的暴露情况,并进行比较,以推测疾病与因素之间有无关联及关联强度大小的一种观察性研究。)但是我看有的文章有用到住院期间的治疗作为危险因素拿去分析的。
3.危险因素OR的计算
一种是相关性分析或者单因素分析之后二元logistic回归分析里面有OR。
里面会衍生出一个问题,为什么有的用相关性分析,有的用单因素分析?哪种更好呢?两种都对吗?
另一种是先用卡方检验之后用交叉表选择风险计算OR。
这两种都可以吗?有什么区别和联系呢?比如什么情况下用第一种什么时候用第二种?
第二种就是流行病学里面的方法,用四个表去算OR,我可以理解。
但是第一种算OR我不懂,就是感觉什么指标都可以拿去算OR,计数资料分类变量都可以。按理说计数资料我们是不可以拿去按第二种方法算的,因为它没有赋值成分类变量的话就不能变成四个表,就没办法算OR。
5.我的分组悬殊挺大的,合并bo的病例数17,不合并bo的病例数69。
我目前了解的就是看四个表里面T值去选择卡方检验的方法,应该很多都是要用Fisher精确法,这样可行吗?
如果是二元logistic回归的话有说研究组/总人数比例〉15%,那我17/86≈20%〉15%,危险因素个数不超过总人数的5-10%(4-8个变量) 那我单因素分析之后挑4-8个变量分析,这样可行吗?
分组差距大,还有什么地方会有问题吗或者有哪些不适用的情况吗?
6.我这个属于病例对照研究分析,也不是按1:1分的组,也没有OR值也没有总体均数和标准差,怎么算样本量?