作为临床科研工作者或者医学生,如何利用中国人群公开数据库开展课题相关的科学研究,并发表较高质量科研论文?相信这是很多人都思考过的问题。
这篇文章,我就结合我们发表过的两篇论文,和大家分享一些经验:
1. 发表在《Cardiovascular Diabetology》 杂志(中科院一区,IF 9.3分),论文题目为 “Triglyceride-glucose index, renal function and cardiovascular disease: a national cohort study”
2. 发表在《Alzheimer's Research & Therapy》杂志(中科院一区,IF 9.0分),论文题目为“High-intensity physical activity is not associated with better cognition in the elder: evidence from the China Health and Retirement Longitudinal Study”
我主要分享以下两方面内容:
一、目前国内公开可获取的人群数据库有哪些;二、如何确认选题并增加研究创新性。
一、关于中国人群公开数据库
人群数据的收集需要大量时间和科研经费的投入,因此并不是所有课题组都拥有可用的人群或者患者数据。且单一课题组收集的数据往往受限于样本量,数据的人群代表性并不完美。在这种情况下,除了课题组之间的合作获取可使用数据之外,利用公开数据平台结合自身课题方向开展研究是一个十分可行的选择。
除了大家熟知的国外一些经典的公开数据库,例如UK Biobank,NHANES,ARIC,SEER等,国内也有比较成熟的数据库供大家申请使用。我后面主要介绍中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)数据库,同时推荐大家使用中国健康与营养调查(China Health and Nutrition Survey, CHNS)和中国老年健康调查(Chinese Longitudinal Healthy Longevity Survey, CLHLS)两个数据库开展科学研究,后续会继续和大家分析其他数据库的使用注意事项。
中国健康与养老追踪调查(CHARLS)数据库,是国家自然科学基金委资助的重大项目,旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,为制定和完善我国相关政策提供更加科学的基础,同时也为公共卫生、疾病危险因素、环境暴露等多领域研究提供了数据支持。
全国基线调查于2011年开展,于2011、2013、2015和2018年分别在全国28个省(自治区、直辖市)的150个县、450个社区(村)开展调查访问。值得关注的是,CHARLS 2020年全国追踪调查数据于2023年11月16日正式公开发布:
https://charls.charlsdata.com/pages/Data/2020-charls-wave5/zh-CN.html
截至2023年11月,CHARLS用户数已经达到90 191人。其中国内用户占93.9%,海外用户超过5 483人。截至2023年11月,据不完全统计,基于CHARLS数据库发表累计4676篇论文,其中,已发表的期刊总数3 778篇,学位论文总数719篇。
CHARLS数据内容包括:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,社区基本情况以及血液检查数据等。
在疾病危险因素领域研究中,最关键的数据是社会人口学信息(年龄、性别、婚姻、教育程度等),行为因素(吸烟、饮酒、体力活动等),自报的健康状况(疾病史,如高血压、糖尿病、高血脂、心脏病、脑卒中、恶性肿瘤,服药史等),体格检查(身高、体重、腰围、握力、血压等),认知功能评分和抑郁状况量表,生化检查(血脂、血糖、肾功能指标,如血肌酐和胱抑素C、炎症指标等),死亡登记信息等。
值得注意的是,血液检查指标在2011年和2015年进行了两轮检测,在2020年新公布的数据中,加入了疫情数据模块以促进相关研究。
利用CHARLS数据库,最常见的研究疾病是抑郁症、认知功能、高血压、糖尿病、代谢综合症、睡眠障碍、肥胖、心脏病、脑卒中、口腔健康等,同时也关注到一些新结局,如肌少症、衰弱等表型的研究。
CHARLS数据的形式为基于不同的调查年份进行申请下载和整合。不同层面的数据位于不同的文件,提示大家要注意和数据说明文档的比对从而进行数据清洗。
关于研究的设计类型,最多见的是横断面研究和队列研究。随访的基线可以是2011年即首次全国调查,也可以根据自身课题情况,选择如2015年作为基线,18年随访结束等。总之,设计类型相对灵活,但要注意选择匹配的统计学方法进行数据分析,并考虑抽样过程中的个体权重。举例说明,在第一篇“Triglyceride-glucose index, renal function and cardiovascular disease: a national cohort study”论文中,我们基线选择2011年,分别于后续三轮(2013,2015,2018)随访中收集心脑血管疾病的发生情况。
确认删除