论文中出现的各种问题，期待您的解答，谢谢！-医咖社区

研究问答

详情

论文中出现的各种问题，期待您的解答，谢谢！

1.缺失值和空值

空值就是我们这个患者本来就没有做这个检验，所以我们没有这个数据就空着了。

缺失值是我们这个患者做了这个检验，我从集成视图看他做了，但是点击报告看不到，因为太早年了数据丢失了。

我查了缺失值的处理。

缺失少于15%，分类变量用众数替代，数值变量用均数替代。

但是＞15%的是都可以用回归估计吗？回归估计最多可以适用于多少比例呢？

但是空值我不知道怎么处理呢？算是缺失值吗？

我要不要处理缺失值？我的指标中就没有几个计数资料，就是检验资料里面有一些连续性变量，但是检验资料缺失好多呀，我收集了8年的病人，有的检验方法也很不同，有的就查肝功，有的是生化全套，像细胞免疫检验的项目名称也不一样，而且都不到一半病人有查，我看有的文章是写有多少例查了这个指标，有几例异常，又变成分类变量了。crp是比较全的一个值班又出现了极值(〈5，〈0.5，〉90)。spss又处理不了了。

另外，如果缺失值处理了要在毕业论文中提吗？

2.暴露因素

暴露因素有要求是入院前的指标吗？流行病学里面有一句话(病例对照研究是按照有无所研究的疾病或某种卫生事件，将研究对象分为病例组和对照组，分别追溯其既往(发病或出现某种卫生事件前)所研究因素的暴露情况，并进行比较，以推测疾病与因素之间有无关联及关联强度大小的一种观察性研究。)但是我看有的文章有用到住院期间的治疗作为危险因素拿去分析的。

3.危险因素OR的计算

一种是相关性分析或者单因素分析之后二元logistic回归分析里面有OR。

里面会衍生出一个问题，为什么有的用相关性分析，有的用单因素分析？哪种更好呢？两种都对吗？

另一种是先用卡方检验之后用交叉表选择风险计算OR。

这两种都可以吗？有什么区别和联系呢？比如什么情况下用第一种什么时候用第二种？

第二种就是流行病学里面的方法，用四个表去算OR，我可以理解。

但是第一种算OR我不懂，就是感觉什么指标都可以拿去算OR，计数资料分类变量都可以。按理说计数资料我们是不可以拿去按第二种方法算的，因为它没有赋值成分类变量的话就不能变成四个表，就没办法算OR。

5.我的分组悬殊挺大的，合并bo的病例数17，不合并bo的病例数69。

我目前了解的就是看四个表里面T值去选择卡方检验的方法，应该很多都是要用Fisher精确法，这样可行吗？

如果是二元logistic回归的话有说研究组/总人数比例〉15%，那我17/86≈20%〉15%，危险因素个数不超过总人数的5-10%(4-8个变量) 那我单因素分析之后挑4-8个变量分析，这样可行吗？

分组差距大，还有什么地方会有问题吗或者有哪些不适用的情况吗？

6.我这个属于病例对照研究分析，也不是按1：1分的组，也没有OR值也没有总体均数和标准差，怎么算样本量？