上QQ阅读APP看书,第一时间看更新
第四章 循证医学文献质量的分析与评价
【案例】53岁女性,绝经半年,因潮热、失眠、阴道干涩就诊。医生为其进行相关检查后,诊断为围绝经期综合征,建议进行激素治疗。患者对于绝经后激素治疗是否会增加乳腺癌发生的几率存在疑虑,她下载了几篇医学文献,其中一些研究指出激素治疗不会增加乳腺癌的患病风险,而另一些研究的结论却与之相反。患者带着这些资料再次咨询医生,她希望医生帮助她作出判断,选择一种风险小获益大的治疗方案。若你作为该患者的主诊医生,你该如何对这些结论不一的研究文献进行评价并向患者作出解释,选择一种更适合她的治疗方案?
如以上案例所示,临床医生在临床实践中经常会遇到各种问题,患者对自己疾病的关心和认识程度提高,治疗需求进一步增加,对医生提出了更高的要求,而临床医生在医学院校学到的知识和已有的临床经验并不足以回答和解决所有的临床问题;同时,随着医学研究的发展,新的研究结果甚至可能会否定临床医生对某个临床问题的共识。因此,当临床医生在工作中遇到自己难以解决的临床问题时,除了向同行咨询请教之外,更多的则需要通过检索和阅读相关的医学文献,进行质量的分析与评价,择优指导循证医学实践,从而获取最佳答案。
第一节 分析与评价循证医学文献的重要性
一、医学文献的特殊性
医学文献的数量十分庞大,全球范围内的生物医学期刊已有数万种,每年发表的文献可达数百万篇;另外,还有大量未公开发表的文献以及灰色文献等。同时,医学文献发表的形式多种多样,语种多,更新快,并且可能存在重复发表、滞后发表等问题。因此,要在浩瀚的医学文献海洋里寻找到能够指导适合每一个具体患者临床实践的相关研究证据十分不易。另一方面,虽然每年有数百万篇医学文献得以发表,但文献质量往往参差不齐。有些文献可能在研究设计、试验实施、数据分析或文章撰写等方面存在较大缺陷,未经严格的同行评审即发表;也可能因为一些商业目的,使部分质量差的文献得以发表;甚至可能出现文献抄袭、造假等问题。因此,即使找到相关证据,这些已查找到的医学文献其结论是否真实可靠,能否直接应用于临床,是需要进行严格的分析与评价的。
二、评价医学文献的重要性
临床医生工作繁忙,工作性质决定了他们不可能有过多的时间对某一专题的相关文献一一详细阅读;面对数量繁多、质量良莠不齐的医学文献,临床医生亟需掌握相关的文献评价方法和技巧,从而迅速准确地找出质量高、有重要临床价值的文献,来指导临床实践。
多数情况下,临床医生还面临着医学文献中研究的对象与临床实际需处理的患者,可能来源于不同的国家和地区,可能在种族、性别、年龄、疾病的病程、严重程度、并发症等方面有所差别。因此,即使文献研究设计严格,实施周全,数据分析合理,其结论也并不一定适用于每一个医生在临床实际工作中遇到的每一个患者。因此,临床医生必须在对文献进行严格的质量评价基础上,还要联系实际,分析其是否适用于自己的患者,才能将其用于指导临床实践。
第二节 循证医学文献的主要类型及证据质量
一、循证医学文献的主要类型
要想对医学文献进行分析和评价,首先必须对医学文献的类型有所了解。目前,根据医学文献中报道的临床研究证据,主要分为两种类型(图4-1):①原始研究证据,即原始论著,包括试(实)验性研究(experimental studies)和观察性研究(observational studies);②二次研究证据,即对原始研究证据进行综合分析、加工提炼后,整理概括编写而成的综述性文献,包括系统评价、综述、临床实践指南、临床决策分析、经济学分析等。循证医学文献的评价既包括对原始研究证据的评价,也包括对二次研究证据的评价。
图4-1 医学文献的分类
二、循证医学证据质量分级
对于临床医生来说,高质量的临床研究证据是进行循证医学实践的有力工具,是解决临床问题的关键。那么,这些证据从何而来?哪些临床研究证据质量更高、结果更可靠?
根据临床研究证据的来源、科学性和可靠程度,可将其分为5个等级,其中以高质量的原始临床研究证据,以及基于高质量的原始临床研究证据进行整理后所获得的二次研究证据(如系统评价)为最高级别证据(1级证据),而专家意见或基础研究的证据级别最低(5级证据)。临床研究证据的推荐使用级别分为4个级别,1级证据的推荐级别为A,2级、3级证据的推荐级别为B,4级证据的推荐级别为C,5级证据的推荐级别为D(表4-1)。
表4-1 临床研究证据的分级
第三节 如何评价循证医学文献
一、循证医学文献评价的范围
要对医学文献的质量进行评价,首先必须明确评价目的,评价目的直接决定了评价的重点和范围。临床医生需要利用医学文献中的研究证据来进行临床实践,那么必须对医学文献的质量进行评价,包括文献报告质量和文献方法学质量。
文献报告质量是指文献报告内容的全面性和完整性,其报告方法是否符合相应文献类型报告的规范;文献方法学质量是指文献中所涉及研究的科学性,在研究过程中是否很好地控制了混杂和偏倚等,这是文献评价的核心部分。
二、循证医学文献评价的内容
要判断一篇医学文献是否有临床价值,需要从3个方面着手来考虑:①该研究结果是否真实可靠?即临床研究证据的真实性;②该研究结论是否具有临床意义和实用价值?即临床研究证据的重要性;③该研究结论是否可推广,其适用性如何?即临床研究证据的适用性。
三、循证医学文献评价的原则
根据文献类型不同,如有关疾病病因、诊断、治疗、预后、系统评价、临床指南和卫生决策分析等,其研究设计不同,论证强度不同,具体的评价工具也不同,但一般的评价原则如下。
(一)真实性评价原则
真实性评价是循证医学文献评价的核心,真实性得到了保证,才有资格谈论其他方面的价值。真实性评价需要考虑多方面的问题,如:研究设计是否合理,是否设置对照及对照设置是否合适,样本量如何,纳入/排除标准是否可靠,是否采用盲法,是否进行随机隐藏,组间的基线情况是否相似;患者的依从性如何,是否有偏倚因素存在,是否采取了相应的预防和处理措施;数据收集是否全面,资料录入是否完整;统计分析是否正确,是否将所有的研究对象都纳入了分析,是否采用了恰当的统计方法,统计软件使用是否准确;结论是否可靠,研究结果是否支持作者的结论等。例如,针对定量研究文献,JAMA发表的评价手册中提出了5项指导性评价原则:①研究对象是否与研究问题有关?②研究对象的选择是否有充足的理由?③数据资料的收集方法是否与研究目的和场所匹配?④数据资料的收集是否完整充分,是否足以描述观察事件?⑤资料的分析是否合适,发现的结果是否被充分证实?这5项原则基本概括了一般定量研究文献的评价内容,有一定的参考意义。
(二)重要性评价原则
医学文献研究证据的重要性是指研究结果本身是否有临床价值,其评价常常借助于一些客观指标,包括定性和定量的指标,不同的研究类型其指标也不同。例如,病因学研究可采用发病率(incidence)、归因危险度(attributable risk,AR)、相对危险度(relative risk,RR)等来判断可疑病因与不良结局之间的因果相关性及相关强度和价值;诊断性研究可采用敏感度(sensitivity,Sen)、特异度(specificity,Spe)、阳性和阴性预测值(positive/ negative predictive value)、似然比(likelihood ratio,LR)及受试者工作特征曲线(receiver operator characteristic curve,ROC曲线)等指标来判断某种试验性诊断是否有临床价值;而治疗性研究则通常采用相对危险降低率(relative risk reduction,RRR)、绝对危险降低率(absolute risk reduction,ARR)及需治疗多少病例数才获得一例好结果(number needed to treat,NNT)等量化指标的数据来判断某种治疗措施的有效性及临床价值,其重要性需依据所研究的疾病具体情况和专业的现实水平以评价。重要性应包括统计学意义和临床意义,两者结合起来作出评价,则更为全面。统计学意义由检验假设的P值小于预先设定的检验水准表示;因此,当研究结果既有统计学意义,又有临床意义时,可以肯定其重要性;若仅有临床意义而无统计学意义,不能盲目否定其临床价值,应计算Ⅱ型错误率或检验效能加以核实;当研究结果既无统计学意义,又无临床意义时,则此类文献则无重要性可言了。
此外,临床意义的判断还需进行卫生经济学的评价,只有那些高效低成本的研究成果才具有更大的临床价值。
(三)适用性评价原则
循证医学文献质量评价的目的,在于寻找真实可靠的,而且有着重要临床价值的临床研究证据用于临床实践,而这些证据是否真正可以在临床工作中进行推广应用,是否可用于自己的医疗机构和患者,则需要评价其临床适用性。由于临床研究结果可能来源于不同的地区和国家,涉及的研究对象可能在种族、自然及社会环境、经济水平、医疗卫生条件等方面与拟进行实践的地区和国家不同,甚至疾病的严重程度、病程等方面也有不同。因此,评价文献研究结果的适用性,需要具体问题具体分析,要考虑自己的病例与文献中的研究对象是否有相似之处,要结合不同的国情、种族和病患特点,以及考虑到具体患者对疾病不同结局的价值取向,仔细权衡利弊,切忌盲目照搬研究结论。
第四节 各类医学文献的评价方法
不同的研究设计,其评价原则和方法均不同,目前已有一些现成的评价标准可供参考。下面将常见的临床研究证据的评价原则简要列出。
一、原始研究证据
原始研究证据的评价工具较多。试验性研究证据的报告质量评价可采用CONSORT(consolidated standards of reporting trials),方法学质量评价可选择Cochrane手册中的偏倚风险评价工具、Jadad评分量表等;观察性研究证据的报告质量评价可采用STROBE (strengthening the reporting of observational studies in epidemiology),方法学质量评价可选择CASP工具(critical appraisal skills programme)、纽卡斯尔-渥太华量表(the Newcastle-Ottawa scale)等。
常见的原始研究证据包括病因、诊断、治疗和预后,国际临床流行病学相关的评价原则见表4-2~表4-5。
表4-2 评价病因学/不良反应研究证据的基本原则
表4-3 评价诊断性研究证据的基本原则
表4-4 评价治疗性研究证据的基本原则
表4-5 评价预后研究证据的基本原则
二、二次研究证据
二次研究证据是临床医生快速获得有效信息的最佳途径。就系统评价而言,其评价工具较多,方法学质量评价工具有OQAQ(Oxman-Guyatt overview quality assessment questionnaire,OQAQ)、AMSTAR(assess methodological quality of systematic reviews,AMSTAR)等,报告质量评价工具有QUOROM(quality of reporting of meta-analyses,QUOROM)及其升级版PRISMA(preferred reporting items for systematic reviews and metaanalyses,PRISMA)等。
常见的二次研究证据主要包括系统评价、临床实践指南、临床决策分析和卫生经济学分析,相应的评价原则见表4-6~表4-9。
表4-6 评价治疗性研究证据系统评价或meta分析的基本原则
表4-7 评价临床决策分析的研究证据的基本原则
表4-8 评价卫生经济学分析研究证据的基本原则
表4-9 评价临床实践指南的基本原则
三、评价案例
下面拟用上述文献质量评价方法来评价“文首案例”中患者所查找到的一篇文献:Breast cancer and hormone-replacement therapy in the Million Women Study(Lancet,2003,362: 419-427)
此为病因学研究证据,适用于病因学研究证据评价原则(见表4-2)。
1.真实性评价
(1)研究对象是否明确:
本研究采用论证强度较高的队列研究方案,研究对象为1 084 110名年龄50~64岁的英国女性。
(2)除暴露的危险因素外,其他重要特征在组间是否可比:
根据是否使用激素治疗分为正在使用激素治疗组、既往使用激素治疗组和从未使用激素治疗组三组。尽管无法严格控制组间差异,但暴露组与非暴露组均来自同一队列,因此组间应该是有可比性的。
(3)测量各组暴露因素和临床结局的方法是否一致(结果测量是否客观或采用盲法):
本研究数据来源于The National Health Service Breast Screening Programme( NHSBSP),根据调查问卷中激素使用情况将研究对象分为正在使用激素治疗组,既往使用激素治疗组和从未使用激素治疗组。乳腺癌的诊断则根据国际疾病分类代码进行。因此,本研究中各组对于暴露因素和临床结局的测量方法应该是客观一致的,采用了标准化的方法,不存在盲法的问题。
(4)研究对象是否完成了随访期限,随访时间是否足够长:
从本文的研究结果来看,所有1 084 110名研究对象均完成了随访。本研究对乳腺癌的发病率进行了为期2.6年的随访,对乳腺癌致死率进行了为期4.1年的随访。
(5)研究结果时相关系是否明确:
本研究是前瞻性队列研究,文中明确表明对激素使用情况的调查问卷在乳腺检查之前的2~6周返回,由激素使用情况将研究对象分为正在使用激素治疗组,既往使用激素治疗组和从未使用激素治疗组,之后随访观察一段时间,从而比较乳腺癌的发病率和致死率。因此,时相关系明确。
(6)剂量-效应关系是否存在:
本研究对正在使用激素治疗组中激素治疗持续时间不同的研究对象其乳腺癌的发病率进行了比较,经分析存在剂量-效应梯度关系,并发现使用时间越长,乳腺癌发病风险越高。以单用雌激素治疗为例,使用时间<1年者 RR=0.81,使用时间1~4年者 RR=1.25,使用时间5~9年者 RR=1.32,使用时间≥10年者 RR=1.37。
(7)危险因素的消长与疾病或不良反应的消长是否一致:
关于激素治疗是否与乳腺癌的发生存在消长关系,文中提到,正在使用激素治疗者乳腺癌的发病风险( RR=1.66)高于既往使用激素治疗但现已停药者( RR=1.01),且停药时间越长,乳腺癌发病风险有下降趋势,停药<5年者 RR=1.04,停药5~9年者 RR=1.01,停药≥10年者 RR=0.90。因此,是否使用激素治疗与乳腺癌发病率的消长是一致的。
(8)不同研究的结果是否一致:
本研究结果显示,正在使用激素治疗组其乳腺癌发病风险增加0.66倍( RR=1.66,95%CI:1.58~1.75),与Hunt(1987)、Mills(1989)、Kaufman(1991)等研究结果一致,但与Palmer(1991)、Stanford(1995)、WHI(2004)等结果不一致。因此,还需对相似研究进行系统评价,通过扩大样本含量减少随机误差所致差异,并探讨多个研究结果间的异质性,从而进行定量综合分析。
(9)危险因素与疾病或不良反应的关系是否符合生物学规律:
文中未提及。
2.重要性评价
(1)暴露因素与结果之间的联系强度如何:
与从未使用激素治疗组相比,正在使用激素治疗组的乳腺癌发病风险 RR=1.66,其中单用雌激素治疗 RR=1.30,雌孕激素联合治疗 RR=2.00,替勃龙 RR=1.45,其他类型激素治疗 RR=1.44。激素不同,对乳腺癌发病风险的影响强度是有差异的,其中采用雌孕激素联合治疗的女性其乳腺癌发病风险最高。
(2)危险度的精确度如何:
上述 RR对应的95%置信区间分别为(1.58~1.75),(1.22~1.38),(1.91~2.09),(1.25~1.67),(1.17~1.76),不包含1,均有统计学意义,并且置信区间均较窄,说明研究结果的精度较高。
3.适用性评价
(1)你的患者与研究中的研究对象是否存在较大的差异,导致研究结果不能应用:
由文中的研究对象基线情况描述可知,本研究的研究对象是50~64岁的围绝经期女性,因此,该研究结果应该适用于该患者(53岁女性)。
(2)你的患者发生疾病/不良反应的危险性如何,从治疗中获得的利益如何:
根据该患者的情况,因其子宫存在,且年龄偏大,无定期撤血的需求,为降低子宫内膜病变的风险,医生选择雌孕激素联合治疗的可能性大。那么该患者属于正在使用激素治疗组中雌孕激素连续联合治疗亚组。若治疗时间<5年,该研究结果显示NNH(number needed to harm,需要暴露的人数)=1/(243/23708−2894/392757)=347.07,即:每347.07个女性使用雌孕激素连续联合治疗<5年才增加1例乳腺癌的发病;若治疗时间≥5年,该研究结果显示NNH=1/(388/25286−2894/392757)=125.38,即:每125.38个女性使用雌孕激素连续联合治疗≥5年会增加1例乳腺癌的发病。该研究结果提示雌孕激素连续联合治疗时间≥5年会增加乳腺癌发病风险。但激素治疗可改善潮热、失眠、阴道干涩等症状,同时可预防骨质疏松,预防心血管疾病的发生。因此,该患者在选择治疗前应知晓该治疗的利弊。
(3)你的患者对治疗措施的期望和选择如何,价值观如何:
该患者希望改善绝经后潮热、失眠、阴道干涩等症状,但对治疗不良结局的担心超过对疗效的期待。因此,应当告知患者激素治疗的具体利弊,了解患者在接受激素治疗改善症状的同时,是否能够接受可能出现的不良反应甚至其他致病风险,让患者结合自己的情况进行选择。
(4)是否有备选的治疗措施:
除了激素治疗外,中药、中成药和植物类药物治疗可能有改善潮热、失眠症状的功效,阴道局部雌激素治疗可改善阴道干涩症状,这些备选治疗方案尚无增加乳腺癌发病风险的证据。医生应将这些备选治疗措施一并告知患者,供其参考选择。
小结
现代信息技术发展迅猛,临床医生在临床工作中必须跟随时代的发展,掌握医学文献的评价方法和原则,逐步更新自身知识结构,拓展视野,才能高效地利用浩瀚的医学文献资源,实现临床实践与国际接轨,做到终生自我学习,永葆一流的临床技能与水平。
(许良智)