1、基于聚类分析的ADR信号检测模型 摘要: 随着数据库技术的迅速发展与数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据内部隐含着许多重要信息,通常的分析手段已不能满足数据分析的深度与数据伸缩性的需要,人们希望能够对其进行更高层次的分析,以便更好的利用这些数据。然而,相对于数据库技术的发展,对数据中知识挖掘的手段却停滞不前,从而导致了“数据爆炸但知识贫乏”的现象。这种情况同样发生在我国的药品不良反应(adverse drug reactions ,ADRs)监测系统的数据库中。本课题通过对目前国内外在ADR信号检测方面的研究现状分析,首次提出了用聚类的方法对ADR信号进行检测。通过构建
2、ADR信号检测的聚类模型,对江苏省ADR中心2008年数据库中的部分数据进行研究分析,信号检测的最低标准为聚类分成的每一类里没有导致目标不良反应的药品数不超过3种,得出的结果与该药品的说明书进行比对。最终我们在西药类里挖掘出了56个符合标准且在药品说明书上没有标明的新的不良反应。关键词:药品不良反应;聚类;FCM; 信号检测一、引言药品安全问题是关系到人民健康和国计民生的重大问题,注重合理用药及用药卫生是每个人都必须做到的。随着社会的发展和科学的进步,越来越多的药品经研发并被投入市场,由此带来的药品不良反应也相应增加。药品不良反应(adverse drug reaction,ADR)指的是合格
3、的药品在正常用法用量下出现的与用药目的无关的或者意外的有害反应。包括:副作用、毒性反应、过敏反应、依赖性、特异质反应等方面。据世界卫生组织统计,因药品不良反应住院的人数达5%-10%,而住院病人中发生药品不良反应的人数达10%-20%,致死率为0.24%-2.9%。由此可见,药品不良反应的发生已成为一个全社会都必须关注的重大医药卫生问题。我国药品不良反应的检测主要采用的是自发呈报系统(spontaneous reproting system,SRS),它是目前世界上最主要的ADR检测手段,也是目前发现ADR信号的最主要来源。世界卫生组织(WHO)对信号的的定义为:未知的或是尚未完全证明的药物与
4、不良反应(医疗产品与不良事件)可能有因果关系的信息。根据事件的严重程度与信息的质量,一般需要多份报告才能产生一项信号。传统针对SRS数据库的信号检测工作主要靠专家委员会来完成。但随着计算机科学技术的发展以及ADR自发呈报数量日益增加,ADR数据库逐步建立,专家评价的局限性开始显现,如主观偏差、耗时长、效率低下、时间滞后等。2006年一年全国收集的ADR报告数就超过36万份,从如此海量的数据中专家人工发现ADR信号难度系数相当高。怎样有效的分析和利用这些报告资料,利用这些数据库所包含的巨大数据资源结合计算机辅助技术进行数据挖掘处理成为一个关键环节。本课题旨在结合江苏省ADR监测中心给出的数据,从
5、统计学的角度出发构建统计模型,深层次的挖掘和分析药品/药品类-不良反应/不良反应类之间的关系,从而为不良反应信号监测和预警工作提供理论与决策支持。具体包括:对数据进行规范化处理,并对各种药品及不良发应进行编码、分类,为下面的分析做好准备工作。从统计学角度出发,对所有药品进行聚类,最终得出药品新的类别,然后再进行分析、探讨。利用其他的药品不良反应信号检测办法(如:四格法等等)来对数据进行分析,并与聚类分析得出的结果进行比对检验。二、ADR信号检测的研究背景1.ADE概述药品不良事件(adverse drug evevt,ADE)指在治疗过程中发生的任何意外的有害反应,其与用药间的必然因果关系尚待
6、确定。上个世纪六十年代之后,陆续出现了一些与上市药品相关的严重不良反应报告。如著名的沙利度胺(反应停)与海豹肢畸型1、己烯雌酚、与妇女阴道透明细胞癌2、普拉洛尔与眼粘膜皮肤综合症3、氨己烯酸与视野缺损4,另有一些已经上市较长时间的药物,在临床应用过程中逐渐发现一些与之相关严重的不良反应,如减肥药氟苯丙胺(芬氟拉明),长期使用会增加瓣膜病变的风险。2.研究背景 自20 世纪 50 年代开始,世界新药研制出现高潮,药品的品种多达数万种,全球药品不良反应的发生率、严重性日益突出。据WHO统计,在世界许多国家,因药物不良反应导致的死亡在其死因顺位中居第 4至6位。而在我国,不合理用药占用药者的12%至
7、32%,在中国现有的聋哑儿童中,60%以上是不合理用药所致,每年因药品不良反应事件死亡的人数高达几十万人,远远超过因传染病死亡的人数。由于药品本身“治病又致病”的特殊性,许多药品在前期临床试验中,因检验的样本小、观察时间与范围有限等原因,很难发现一些药品潜在的危险,因此当这些药品进入临床使用后很可能导致不可预测的危害。那么在要求药品能治病的同时,怎样尽可能减少ADR的发生?为此,需要深入分析ADR与各种可能因素的关系,探求ADR的内在发生机制。可是影响ADR发生的因素十分复杂,不仅有药物的因素,也有非药物的因素,还有病人的体质及用药环境等多方面原因。面对成千上万种药物,不同体质的病人与用药环境
8、,性质各异的不良反应,要研究其中隐藏的深层次规律并合理运用,这对ADR监测和预警工作而言,是一项巨大挑战。具体体现为:如何从海量数据中发现ADR信号?怎样根据数据库特点选取适当的信号检测方法?如何检验信号的真实性?如何挖掘出ADR中隐藏的大量规律?要解决好以上问题,除了需要精深的医学理论与实践作指导外,还离不开现代化信息手段、先进的数据挖掘技术、严谨的数学建模(含统计建模)技术。为此,本课题试图将计算机信息处理技术、数据挖掘技术、统计建模技术有机结合起来,在医学理论与实践的指导下,在海量数据中深层次探究ADR 发生的内在规律,从而尽量减少国家和个人的损失,并有助于在保证药品能治病的同时,尽可能
9、把ADR的危害降到最低限度,从而为构建和谐社会做出贡献。三、国内外关于ADRs信号检测的研究现状1.国内研究现状 我国的ADR监测比国外晚了近20年。1989年,卫生部成立了ADR监测中心,并开展了相应的工作。1998年3月,我国正式加入了WHO国际药品监测合作中心并成为第68个成员国。1998年4月,国家药品监督管理局成立。截止到2002年12月底,31个省、自治区、直辖市均成立了本地区药品不良反应监测中心,加上解放军ADR监测中心,共有32个省级ADR监测中心,国家药品不良反应监测技术体系框架全部建成。2003 年建成覆盖全国的国家ADR监测信息网络系统,这为中国的ADR监测工作提供了现代
10、化的管理手段。而科学有效的ADR监测及应急管理,依赖于高质量的数据库及严谨而科学的ADR综合分析技术。关于我国ADR数据库及相关研究的现状可概括如下:(1) ADR数据采集方式单一且漏报率较高。药品不良反应监测采取的是自愿性报告和强制性报告相结合的方式,药品不良反应报表主要来源于医疗机构,我国药品不良反应的发生率约为5%,但上报率却仅有1%。漏报率较高导致无法计算ADR的发生率,且对自发呈报的ADR进行适宜解释的暴露人群的资料缺乏,由于对药品的ADR报告率的差异,在同等情况下,可影响医生对药品的选择,对ADR的分析质量无疑会产生不利影响。(2)缺乏适合我国国情的ADR信号检测方法和标准。近几年
11、,国内的学者也开始了ADR信号检测的研究工作:李婵娟等人将国外的多种信号检测方法应用于广东省ADR数据并进行了比较与分析5,章少华等根据江苏省ADR数据作了相应的统计分析6,取得了一定的成效,但均未能建立适合我国ADR数据特点的信号检测方法和标准。根据CNKI文献数据库资料查询,国内ADR预警相关文献仅十余篇,并且大部分文献主要讨论了药品安全预警的必要性和意义,因此对于适合我国特点的信号检测方法与标准方面的研究几乎空白。此外在ADR因果评价方面,面对大型数据库,复杂的不确定性影响因素,在医学领域一直是个公认的难题,目前只能采用成本较高的流行病学等方法。其原因在于缺少多学科专业人员的有机融合。(
12、3)缺乏对不良反应内在发生机制的分析。即使有准确的信号检测方法与因果评价方法、及准确的预警,如果没有对ADR内在机制的综合分析,就不会制定出更详细的应急预案,进而更有效地实行应急管理。综观国内不良反应分析方面的学术论文,往往仅是对不良反应病案信息进行简单的归类论述,如计算各类临床表现的构成比和年龄段、性别构成比等,缺少能深入揭示不良反应发生机制的有价值的知识发现。之所以出现这些现象,除了缺少高质量的数据库外,根本原因还在于没有使用数据挖掘、统计建模等深层次的数据分析技术。(4)现代信息技术应用不够。目前ADR主要通过网络进行数据的收集,异常信号检测以主观经验判断和人工评阅为主,2006年全国收
13、集的ADR报告达36万份,从如此海量的报告中通过人工的方式来发现异常信号几乎是不可能的。同时,ADR监测工作主要以药物学和医学相关专业人员构成,缺乏信息处理的技术和能力,不能采用先进的数据处理与分析技术来实现数据的自动处理。2.国外研究现状自著名的“反应停”事件之后,西方各发达国家纷纷着手本国的“ADR监测体系建设”。1968年,WHO应各成员国的要求开始推行“国际ADR监测合作计划”,并最终于瑞典的乌普萨拉镇成立了国际ADR监测中心,即现在著名的UMC中心。随着WHO国际ADR监测合作计划在全球的推广,到本世纪初,各发达国家的ADR报告体系日臻成熟。在现在药品市场日益全球化的大背景下,ADR
14、监测也逐步走向全球一体化。为此WHO及国际ADR监测组织密切合作、协调、制定相关的通行标准与要求,以期提高世界各国ADR报告的数量和质量;并在世界范围内组织研究利用ADR数据库检测生成ADR信号的方法;用流行病学方法进行某些特定药品的安全性研究,加强世界范围内的ADR信息交流等。ADR数据库的建立和完善,将为ADR信号检测提供强有力的数据保证。国外基于ADR数据库的定量研究,较多地集中在ADR信号检测层面,比较而言,利用数据挖掘进行ADR因果评价的研究相对较少。而关于ADR信号检测,目前国际上尚无统一的标准,各国体制不一样,ADR数据的来源、质量和性质不一样,因而检测方法也不可能完全相同。但主
15、流的方法都是基于“比例失衡测量法”, 该方法建立在经典的四格表的基础上,其思想就是估计自发报告系统中实际出现的与某种药物有关的不良反应数量与预期数量或者与其他药物引发的其他不良反应数量的比值来确定信号。目前,该方法已被荷兰的药物警戒中心、英国的药品不良反应监测系统、世界卫生组织Uppsala药品不良反应监测中心(WHO-UMC)及美国的药品不良反应自发报告系统、处方事件监测数据库广泛应用。比值失衡测量法中具体测量比值失衡程度的方法很多,可概括为两大类:即频数方法与贝叶斯方法,都是基于分子的方法(不考虑分母)。前者主要有报告比值比法(ROR)、比例报告比法(PRR)、MHRA法等;后者包括贝叶斯
16、判别可信区间递进神经网络模型(BCPPN)与美国FDA采用的经验性贝叶斯伽玛泊松分布缩减法等。在上述各种定量信号检测方法中,频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;而贝叶斯方法无应用条件限制,可做时间趋势分析,但计算过程复杂,不易理解常需借助计算机程序。所有上述方法的共同缺陷是没有充分考虑ADR数据库中所提供的患者信息与临床信息,并要求报告数足够大(这与预警目的相悖),仅进行关联度分析而非真正意义上的因果分析,且灵敏度和特异度难以同时满足要求,各种方法的结果差异较大,如:日本于2004年开展相关的研究,结果显示在药物-不良反应组合报告数为1、2例时,一致性较差7。在国外
17、现有的上述信号检测方法中,除了BCPPN法可称为真正意义上的数据挖掘之外,其他方法至多可称为基于数据库信息的知识发现,而不是典型或严格意义上的数据挖掘。在信号的因果评价上,国外利用ADR数据库及电子病案等数据库进行了成功的药物流行病学研究工作,如Strom BL利用Medicaid数据库资料,对西米替丁引起中性白细胞减少症进行评价,发现二者因果关系不明显8 ,并通过研究否定了透皮东莨菪碱的使用引起惊厥得假设9。但从因果评价的一般方法来看,仍然主要采用传统的流行病学方法、临床前药理学和毒理学的再验证及Meta方法,或建立在专家知识和经验基础上的“全面内省法”。而基于ADR数据库并利用数据挖掘和数
18、学模型进行因果分析的研究却很少。3.四格表法传统的ADR信号检测方法的研究都是基于四格表原理,报告比例比(proportional reporting ratios,PRRs)就是一种基于四格表原理信号检测方法,通过计算数据库中出现某特定Drug-ADR组合(Drug-ADR combinations)的比例,所得结果与背景相比,如有明显增强并达到一定标准时,可以认为是一个可能的信号。表2.3中,a表示数据库中同时出现目标药物与目标ADR的报告数量,b为目标药物出现的其他所有ADR的总数,c为数据库中除目标药物之外其他药物出现目标ADR的总数,d为整个数据库中除了目标药物以及目标ADR之外的报
19、告总数,n为整个数据库的报告总量。在一个已知数据库中,四个表中a、b、c、d的具体值都可以通过对数据的筛选获得。表2.1 四格表法目标ADR 所有其他ADRs目标药物 a b数据库中所有其他药物 c d 即: 卡方检验校正公式4.小结综观以上国内外研究现状,以及我国在ADR研究方面的不足,在信号检测方法上,针对国外主流类的“比例失衡测量法”的不足,即:某些情况上不可计算、没有充分利用患者信息和临床信息、仅进行关联度分析而非真正意义上的因果分析、且灵敏度和特异度难以同时满足要求,要求报告数足够大等,本课题将利用数据挖掘技术和统计建模的思想对 “比例失衡测量法”中的几种通用的信号检测方法进行有效改
20、进,并建立相应的信号检测标准,使之适合我国体制特点。在信号的因果评价上,无论是国内还是国外,都缺少基于ADR 数据库的定量因果研究, 所以本课题将在遵循因果联系准则的前提下,结合医学理论与实际,通过统计建模技术,解决因果评价的难题。在ADR发生规律的研究上,由于国内基于数据挖掘和统计模型的研究还属空白,国外的相应研究也很少,本课题将利用统计建模思想并结合数据挖掘技术,对ADR数据进行综合分析,多角度多侧面地研究 ADR的发生规律。由于数据挖掘和统计建模技术具有很强的专业性,所以需将这些研究方法得到的结果进行综合,并结合专家意见。四、存在的缺陷及假设性解决方案的提出1.存在的缺陷综上所述,现在国
21、内适合我国特点的特色检测方法与标准方面的研究几乎空白。而国外主流的方法都是基于“比例失衡测量法”,该方法建立在经典的四格表的基础上。比值失衡测量法中具体测量比值失衡程度的方法很多,可概括为两大类:即频数方法与贝叶斯方法,都是基于分子的方法(不考虑分母)。频数方法使用简单、方便、易理解,但具有某些情况下不能计算的缺点;而贝叶斯方法无应用条件限制,可做时间趋势分析,但计算过程复杂,不易理解常需借助计算机程序。所有上述方法的共同缺陷是必须要有足够量的样本,且分母不能为0,否则无法计算结果。2.假设性解决方案的提出我们提出用聚类的方法来对ADR信号进行检测。通过构建多维矩阵,借助Matlab软件实现对
22、ADR的聚类,通过分析每一类里产生目标不良反应的药品占该类药品总数的比例来进行检测:之所以这些药品会聚在一起是因为这些药品的特征(即它们产生的不良反应)有一定的共性,比利越大说明这一类所有的药都能产生这种不良反应可能性也就越大。本课题选取这类里没有产生这种不良反应的药品数为3或者2或者1作为参考标准。举例说:某一类里有10种药,其中能够产生头晕这种不理反应的药品比例占到7/10,那么就有3种药没有产生这种不良反应,由此可以挖掘出:这3种药也可能产生头痛这种不良反应,然后对照原始数据进行比对。最后通过大量的数据检测和专家对其结论的评价来检验它的合理性及精确性。整个模型构建的流程图如下:数据采集数
23、据预处理工具聚类结果分析检验比对通过已知数据与专家评价来检验按照ADR信号检测标准分析通过计算机软件拆分、编码、分类、筛选图3.1 建模的流程图 聚类技术是现代科学研究中最常用的一种数据挖掘技术。聚类分析又称群分析,是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析(Cluster Analysis)是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生分类结果。类内部个体之间具有相似性,不同类间个体特征的差异性较大。定义聚类分析之前,首先要知道“类
24、”的意思。由于客观事物的千差万别,在不同问题中,类的定义是不尽相同的。基本原则是同一类中的事物相比较,或说它们之间的距离比较小(这里的距离有欧氏距离、绝对距离等)。它的数学模型可以描述如下:假设样本集X=x1,x2,xn,其中样本xi=(xi1,xi2,xim)为m维特征空间Rm中的一个点,现在要找到这样一个划分C=C1,C2,Ck,使得: 且,并且满足类内之和的值最小,xj*表示类Cj的中心,xi表示划分在类Cj中的样本。五、ADR信号检测的聚类模型建立1.工具Visual Foxpro(6.0版):用于数据的预处理;MATLAB(R2007b):用于聚类算法的实现;SPSS : 进行统计分
25、析。2.数据采集从江苏省ADR中心收集了51982例不良反应的报告,用表格形式表示成了如表4.1所示。其中包括2759种药品,及118种不良反应。3.数据预处理由于所采集的的数据(如表4.1所示)存在一些不规范的书写,所以对原始数据进行一定的处理是必要的,这不仅是为了让一些工具软件能很好地识别,同样也是为了得到最优化的数据,从而保证分析结果的科学性和准确性。表4.1 原始药品不良反应数据ADRDRUGADRDRUG头晕*骨刺平片过敏性休克*来立信*恶寒*灌肠剂腹泻*利落林发热*灌肠剂口干*利培酮口腔崩解片呕吐*灌肠剂焦急不安*利培酮口腔崩解片便秘*硫糖铝片锥体外系病*利培酮口腔崩解片呕吐*铝镁
26、加恶心,呕吐*连花清瘟胶囊腹泻*齐拉西酮头晕*林旦乳膏静脉炎*6-氨基己酸震颤*氯丙咪嗪片皮疹*ABPC*头痛、头昏、嗜睡*氯唑沙星片腹痛*T型节育环头痛*氯唑沙星片*面色苍白*VB1注射液发热*轮状病毒*药疹*阿莫西林钠克拉维加水肿*洛平呕吐*安茶碱瘙痒*洛文恶心*氨萘成注射液瘙痒*美宝腹痛*奥沙美嗪腹泻*莫家清宁丸腹痛*奥汀美嗪不适*内消乳核冲剂注射部位反应*白破二联苗*心慌、脸色苍白*奈替米星氯化钠注射部位反应*白破二联苗静脉炎*尿素霉素注射部位反应*白破二联苗皮疹*帕特欣炎(1)规范化处理原始数据中如出现“*”、“*”、“,”等不规范的书写,这样今后的数据处理工具就会不能识别,所以必须
27、将这些符号去掉。诸如类似于“头痛、皮疹”两种不良反应在表中对应着“博利康尼片”一种不良反应的情况也有很多,也是不规范的。本课题要研究处理的是那种一种药品对应着一种不良反应,所以可以将其改写为“头痛”和“皮疹”分别对应着“博利康尼片”,这样就相当于增加一条记录。具体点操作是我们将Excel表格导入到vfp里面,利用vfp强大的表处理功能,通过编写算法来对这51983条记录进行处理。如此便得到了如下所示的规范化的数据:表4.2 规范后的药品不良反应数据ADRDRUGADRDRUG头晕骨刺平片过敏性休克来立信恶寒灌肠剂腹泻利落林发热灌肠剂口干利培酮口腔崩解片呕吐灌肠剂焦急不安利培酮口腔崩解片便秘硫糖
28、铝片锥体外系病利培酮口腔崩解片呕吐铝镁加恶心,呕吐连花清瘟胶囊腹泻齐拉西酮头晕林旦乳膏静脉炎6-氨基己酸震颤氯丙咪嗪片皮疹ABPC头痛氯唑沙星片腹痛T型节育环头痛氯唑沙星片面色苍白VB1注射液发热轮状病毒药疹阿莫西林钠克拉维加水肿洛平呕吐安茶碱瘙痒洛文恶心氨萘成注射液瘙痒美宝腹痛奥沙美嗪腹泻莫家清宁丸腹痛奥汀美嗪不适内消乳核冲剂注射部位反应白破二联苗心慌奈替米星氯化钠注射部位反应白破二联苗静脉炎尿素霉素注射部位反应白破二联苗皮疹帕特欣炎药品名采用通用名,此项工作相对容易,一些记录是用药物商品名代替通用名,或出现错别字,经修改后统一采用规范的通用名。比较重要的是对ADRs名称的规整,规整的标准时
29、WHO药品不良反应术语集。需要进行ADRs名称整理的情况通常有以下几种:出现错别字,如:“寒战”,记录中也有称为“寒颤”的。出现WHO药品不良反应术语集中没有的ADRs名称,如胸闷,腹胀,昏厥,根据对整个术语集的仔细查找,及关于这些不良反应的相关医疗资料查询,找出与之最为相似的名称进行替代,分别为憋气,胃肠胀气,昏厥。不良反应诸如“发热”、“发烧”表示的是同一个意思,我们可以将其作为“发烧”来统一编号。类似的还有“肌肉痛”和“肌痛”等等。(2)分类及编码处理1.分类通过用药网()结合说明书的查询,将2759(51982条记录一共包含有2759种药品)种药品分为34类:抗微生物药、抗寄生虫病药、
30、主要作用于中枢神经系统的药、主要作用于神经系统的药、麻痹药及其辅助药物、循环系统药物、主要用于呼吸系统的药物、消化系统药物、泌尿系统药物、血液系统用药、激素及影响分泌的药物、抗肿瘤药物、免疫系统用药、抗变态反应药物、维生素、矿物质类、营养药、减肥药、调节水、电解质及酸碱平衡用药物、临床专科用药物、酶类及其他生化制剂、生化制剂、解毒药物、诊断用药物、西药其他用药、延缓衰老药及某些老年病用药、内科用药、外科用药、肿瘤用药、妇科用药、五官科用药、骨伤科用药、皮肤科用药、民族药、中药其他用药。依据不良反应作用人体的部位所属的系统或者器官,将118种不良反应分为20类:皮肤及其附件损害、肌肉骨骼系统损害
31、、中枢及外周神经系统损害、视觉损害、听觉和前庭功能损害、神经紊乱、胃肠系统损害、肝胆系统损害、代谢和营养障碍、心血管系统一般损害、心率及心律失常、心外血管损害、呼吸系统损害、红细胞异常、白细胞和网状内皮系统异常、血小板和出血,凝血障碍、泌尿系统损害、女性生殖系统损害、全身性损害、用药部位损害。2.编码对药品和不良反应进行编码处理可以使工具软件能够方便快速的读取数据和其他分析操作。对这些药品采取简单合理的手段进行编码。如阿莫西林,我们将其编为0010101001。具体的示意图如下:0010010101抗微生物药西药抗生素阿莫西林编号青霉素图4.1 药品编码方式示意图对药品统一用10位数进行编码,
32、第一位用二进制表示(0表示西药,1表示中药),第二三位表示药品所属的大类别,后面的两部分表示大类别里的小类别,这样的编码可以一下就清晰的知道该药品大致信息。依据WHO药品不良反应术语集对原始数据中的不良反应进行编码。把编号处理的药品及不良反应等数据生成药品类表、不良反应类表、药品编码总表、不良反应编码总表、药品不良反应表。4.构建DR矩阵(二维表)2759种药品共产生118种不良反应,将载有这些记录的Excel表格导入到VFP中进行表操,计算出药品(d)对应不良反应(r)的记录数(即频数),计为p。考虑到数据是否具有研究价值,剔除掉p3的记录。设任意一种药品为,则其可以向量表示为(m为不良反应
33、总数)。以药品为行数据,不良反应为列数据,将剩余下来的有效数据在VFP中制成二维表,矩阵示意图为: 由于不良反应的总体很大,而每一种药品绝大多数情况下只产生几种不良反应,所以构建的该矩阵为稀疏矩阵。为了减少占用内存实现对其优化,我们通过三坐标法对该稀疏矩阵进行压缩,这样大大地减少对内存容量的需求(尤其对于大量药品数据效果非常明显),适合该模型的应用推广。将二维表中数据导出成.txt文本,方便后面MATLAB导入进行聚类分析。5. MATLAB聚类1. 模糊C均值聚类简介 聚类分析有很多种方法,对不同的问题应该采取不同的方法,本课题采用的是聚类中很常用的模糊C均值聚类(FCM)。模糊C均值聚类,
34、即众所周知的模糊ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973年,Bezdek提出了该算法,作为早期硬C均值聚类(HCM)方法的一种改进。它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值聚类就是求使聚类目标函数J最小的模糊划分矩阵,以及类别中心V。其中:表示第i个聚类中心,i=1,2,C;j=1,2, N; m (1, ) 是加权指数,目标函数表示了各类数据到相应聚类中心的加权距离平方和. 具体算法如下:(1) 确定聚类数目C,初始化m 及聚类中心;(2) 对第t次迭代,根据式和,计算新的隶属度函数和C个聚类中心;(3
35、) 若,则停止,否则返回(2)继续迭代,直至得出聚类中心的最优解。2. MATLAB聚类的算法实现%主程序clcdata=importdata(zy_199.txt);rows=size(data,1); obj1=inf;for j=1:40 c u obj=FCMClust(data,8); if objobj1 obj1=obj; maxU maxIndex=max(u); for i=1:rows class(i,1)=i; class(i,2)=maxIndex(i); end endend class(:,2)obj1%FCM聚类function center,U,obj=FCMC
36、lust(data,cluster_n,options)if nargin=2 & nargin=3, error(Too many or too few input arguments!);end rows=size(data,1); columns=size(data,2); default_options=2;1000;1e-10;0; if nargin=2, options=default_options; else if length(options)4, tmp=default_options; tmp(1:length(options)=options; options=tmp
37、; end nan_index=find(isnan(options)=1); options(nan_index)=default_options(nan_index); if options(1)1, if abs(obj_fcn(i)-obj_fcn(i-1)min_impro, break; obj=obj_fcn(i); end, end obj=obj_fcn(i); end iter_n=i; obj_fcn(iter_n+1:max_iter)=; 34类药品包括西药25种,中药9种,剔除掉西药中比例较少的2类和中药中比例较少的1类还剩31类。分别对西药和中药进行聚类:西药聚成
38、23类,中药聚成8类。用flh表示分类号。选取西药聚类号flh=1的部分结果图表如下:表4.3 类别为1的数据表药品分类drug_fl药品编码drug_bm药品名称drug_mc不良反应编码Adr_bm不良反应名称adr_mc系统器官编码xt_bm系统器官名称xt_mc频次pc 分类号flh0060060400017卡托普利0027皮疹0100皮肤及其附件损害4910060060400017卡托普利0101头晕0410中枢及外周神经系统损害1010060060400017卡托普利0109头痛0410中枢及外周神经系统损害1310060060400017卡托普利0158眩晕0410中枢及外周神经
39、系统损害310060060400017卡托普利0197嗜睡0410中枢及外周神经系统损害310060060400017卡托普利0207潮红1040心外血管损害1010060060400017卡托普利0218口干0600胃肠系统损害310060060400017卡托普利0221心悸1030心率及心律失常1810060060400017卡托普利0224心动过速1030心率及心律失常410060060400017卡托普利0228呕吐0600胃肠系统损害1210060060400017卡托普利0308恶心0600胃肠系统损害1410060060400017卡托普利0398面部水肿1300泌尿系统损害5
40、10060060400017卡托普利0398水肿1810全身性损害510060060400017卡托普利0398眶周水肿1810全身性损害510060060400017卡托普利0513咳嗽1100呼吸系统损害55010060060400017卡托普利0714过敏样反应1810全身性损害1410060060400017卡托普利0716无力1810全身性损害41六、聚类结果的统计分析及结论1.信号检测原理信号检测中产生一个可能的信号的过程如图:符合标准的信号药品说明书上未标明药品说明书上已标明可能的信号?突出的药物安全问题图5.1 信号检测流程图2.结果分析及结论(1)非孤立点分析对这23类西药(
41、排除孤立点)经过分析统计,分析如下:第5类(flh=5)药品数量:23ADR比例DrugP过敏样反应22/23头孢美唑2呕吐20/23头孢噻吩、多潘立酮片、注射用头孢尼西钠2、1、2瘙痒20/23头孢噻吩、丙泊酚、小儿氨酚黄那敏2、0、2说明:ADR表示的是目标不良反应,比例一栏是引起该不良反应的药品占该类中药品数的比例,Drug栏对应着的是这类中剩余的没有产生这种不良反应的药品,p为原始数据中目标药物引起目标不良反应的频次。从结果中可以看出,这一类中只有引起过敏样反应、呕吐、瘙痒这3种不良反应的药品所占的比例较大,若p=0则说明目标药物可能会引起目标不良反应。对比药品说明书,检测出信号: 多
42、潘立酮片呕吐。 丙泊酚可能引起瘙痒。前面提到过用来聚类的数据是经过剔除掉频次p为1、2的记录,回归到没有剔除掉p为1和2的记录的原始数据,对比可以发现头孢美唑导致过敏样反应的频数为2。由此可以说明采用聚类这种统计方法对ADR信号进行检测能够发现那些不是很常见的DrugADR配对。flh=3药品数量:22ADR比例DrugP皮疹20/22复方甘草、葡萄糖注射液2、2对比药品说明书,检测出信号:复方甘草、葡萄糖注射液皮疹。通过比对原始数据,发现复方甘草、葡萄糖注射液产生皮疹这种不良反应的记录数都为2,再一次证明了用聚类方法信号检测的正确性,尤其是罕见的DrugADR信号检测。对以下的结果flh=15药品数量:5ADR比例DrugP水肿4/5注射用头孢呋辛钠0头晕4/5阿莫西林克拉维酸钾2心悸4/5阿莫西林克拉维酸钾2面部水肿4/5注射用头孢呋辛钠0眶周水肿4/5注射用头孢呋辛钠1静脉炎4/5注射用头孢呋辛钠1腹痛4/5阿莫西林克拉维酸钾0对比药品说明书,检测出信号: 注射用头孢呋辛钠可能引起水肿; 阿莫西林克拉维酸钾头晕; 阿莫西林克拉维酸钾心悸; 注射用头孢呋辛钠能面部水肿; 注射用头孢呋辛钠眶周水肿;
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922