1、中文摘要中文摘要随着人类基因组计划的实施和不断深入,核酸、蛋白质序列及其表达谱等生 物信息数据爆炸性地增长,这不仅为生物学药物学的研究提供了丰富的资源,加 速了功能基因组学的发展,也对数据挖掘和知识发现技术也提出了新的挑战3与 此同时,生命科学的研究E呈现“分子化、系统化、全面化”的趋势发展,人们 对疾病的认识也逐渐深入,从人、器官、组织、细胞、以至于达到H前的分子水 平,于是,后基因组时代疾病相关靶点的筛选需要从DNA序列,表达谱,蛋白 质各个层面进行研究,以期髙效地找到最优的疾病相关靶点。 离子通道是质膜上一类特殊蛋白,具有重要生物学及药理学意义。目前有关 离子通道的数据信息分布分散,尚未
2、有系统全面的离子通道数据集成平台,这对 离子通道的研究带來了很大的不便,为此,本课题遵循目前形势的需要,将序列、 表达等不同层面数据信息融合,并集成本课题组自主研发软件和现有经典数据分 析软件及功能数据库资源构建离子通道数据集成分析平台,以期为离子通道科研 者提供更为便捷的分析平台。由于离子通道疾病为多基因型疾病,传统的单基因疾病iK别分析方法已经不 能够深入可靠的挖掘出疾病相关基因,为此,本课题运用创新的数据挖掘技术对 离子通道基因表达谱数据进行系统化分析,并通过后期生物学功能注释数据库对 ft杂疾病的致病机理进行深入的分析研究。首先,根据离子通道的特点,从己有 的全基因表达谱数据筛选离T通
3、道基因以及其它跨膜蛋白基因的表达谱数据信 息,这既可以充分利用己有的生物信息学数据资源,同时也对典型的离子通道疾 病的研究提供了一个更新颖的数据提取分析视角,进而减少了昂贵的离子通道芯 片的制作成本。然后,针对心脏病等典型的离子通道病,在组织样本类别的引导 下,利用集成决策的方法识别与疾病相关的基因,对不同的交叉证实过程产生的 结果进行交叉分析研究,并采用多种其它分类学方法对结果进行证实,结果表明: 该方法识别出的具有统计学意义的与疾病相关的离子通道基因,与已有的生物学 知识是相符,证明了方法的有效性。本研究采用一种针对离子通道与跨膜蛋白基 因挖掘的模式识别方法,即决策森林方法,同时充分考虑综
4、合频率与深度两个重 IIAbstract要因素在致病基因选择过程的影响,而构建新的指标,同时采用四种经典分类方 法进行结果证实,并融合多种生物信息学数据库,对实验结果进行深入合理的生 物学解释。这些可靠性强的致病基因的发现,对于药物靶点的发现以及新药的研 制都具有十分重要的意义。第四,我们还提出了基于耦合双向聚类的离子通道数 据分析技术CCTWC,从样本与特征两个方向对离子通道表达谱数据进行聚类分 析,并将得到的离子通道基因簇,运用生物学通路网络构建软件PathwayStudio 构建基因之N的互作关系,并分别分析了传统离+通道分型在基于疾病遗传机理 层面所划分的离子通道亚型中的分布情况,以及
5、离子通道基因簇中离子通道的互 作关系,进而揭示基于表达相似所划分的离子通道亚型与疾病亚型之间的关联关 系。总之,本研究针对目前离子通道数据分散分布的特点,从不同层次构建了离 子通道数据集成分析平台,并从离子通道基因表达谱数据出发,利用集成决策的 方法挖掘疾病相关基因,并通过CCTWC方法分析研究了离子通道亚型与疾病亚 型之间的内在关联,这些工作为复杂的离子通道疾病发病机理的研究提供了一个 全新的视角。 关键词离子通道,集成平台,决策森林,耦合双向聚类AbstractAlong with the deep implement of the Human Genome Project, biolog
6、ical information about nucleic acid and protein sequence and expression profile has risen exploded. This has provided plenty information for biological and pharmacological study, and accelerate the development speed of functional genome, but also, it puts forward new challenge for data mining and kn
7、owledge discovering technology. Meanwhile, the study of life sciences has presented a current development of molecularisra? systematism and complentisra. Understand for disease has gone deep gradually, from body, to organism, to tissue, to cell, presently, even to molecular level. So, in post-genome
8、 era, selection of disease related target needs studies on various lays,accordingly,from DNA sequence, to expression profile,to proteins, looking forward to find out the best disease related target.Ion channel are special kind of membrane proteins which own important physiological functions. Researc
9、h on ion channel has critical biological and pharmacological significance. Now, data about ion channel are scattered different databases, and there has no one systematic and full-scale ion channel data ensemble flat, this has brought great inconvenient for ion channel study works. So, to follow the
10、phasic need, our study will construct the ion channel data ensemble analysis flat from sequence data, expression profile dataset of ion channel genes and proteins, also integrate some our software and other classical data analysis software, expect to provide a more convenient analysis flat for ion c
11、hannel scientific researchers-Often, channelopathy are more complex polygene diseases, and traditional discriminance analysis methods of single-gene disorder are already unable to dig out disease related genes thoroughly and reliably. So, to make a thorough study for the pathopoiesis mechanism of co
12、mplex channlopathy, we apply novel data miningillAbstracttechnology to make a systematic analysis of in channel expression profile, and also their sequence dataset and other biological annotation information from the functional databases. First of all, based the character of ion channel as well as t
13、he increasing of dataset of high throughput and whole genome gene expression profile, we try to select the ion channel gene expression profile from the existing gene expression dataset. This work can make a full use of existing biological data, also provides a novel visual angle of data extraction f
14、or channelopathy research. Further more, it reduces the dearly facture cost of ion channel microarry. In the next place, aim at the representative channelopathy such as cardiomypathy and under the lead of tissue samples classes, vve apply the ensemble decision approach to mine the disease related io
15、n channel genes. Also, we make a cross analysis to the various results getting from different cross validation process, and use other different classification approach to validate it. The results show that, this ensemble decision approach can mine out the disease related ion channel genes which poss
16、es the statistical significance and the results match with the existing biological knowledge. This can prove the validity of ensemble decision approach. In our research, we raise a new pattern recognition method for the ion channel data analysis, decision forest. In our study, we also considered the
17、 impact of two important factors, frequency and deepness of the features in the tree, and construct a new index for settling this problem. Meanwhile, we apply four classical classification methods to invalidate the results, and fiisc various bioinformatics database to explore a reasonable biological
18、 explanation for the experiment results. The discovery of disease related genes are provided with an important significance for discovery of target and the development of new drug. Fourthly, we also provide the ion channel data analysis technology CCTWC based on the coupled two-way clustering which
19、make a clustering analysis on ion channel#Abstractexpression profile from two directions, samples and features- This work wall get the different ion channel clusters according the gene expression level. That is to say, genes in one cluster always own the similar expression level Then we use the path
20、way construction software PathwayStudio to get the interaction between everf ion channel cluster, and analysis the distribution of tradition ion channel classes in the subtypes of ion channels found by disease heredity mechanism, also the interaction relationships between ion channels of different i
21、on channel gene clusters. Further more, discover the relationship between ion channel subtypes which found by similar expression style and the disease subtypes. On the whole, to aim directly at the feature of the ion channel data distributed dispersedly, this study construct the ion channel data ens
22、emble analysis flat from different data layers. And to set out from the ion channel gene expression profile, we use the ensemble decision approach to mine the disease related ion channel genes. Also we use the coupled two-way clustering approach to analyze the inner relationship between the subtypes
23、 of ion channel and the subtypes of diseases. These works provide a new view angle for the pathogenetic study of the complex channclopathyKeywords : Ion Channel; Eensemble Flat; Decision Forest; Coupled Two-Way Clustering第1章引言l.i课题研究的目的和意义离子通道是质膜上的一种特殊的蛋白质,分布于细胞膜以及线粒体、内质网 等细胞器的膜上。它们允许适当大小和电荷的离子以被动转运
24、的方式通过质膜, 产生膜电流,是神经、肌肉、腺体等许多组织细胞膜上产生兴奋、传输信号的基 本元件,参与动作电位传播、神经递质释放、肌肉收缩、激素分泌、细胞周期、 离子分布等多种生物学过程,对维持机体的下常生理功能至关蜇要。研究表明n,当编码离子通道亚单位的基因发生突变或者机体内出现针对 通道的内源性物质时,通道的功能将会被或多或少的增强或减弱,最终导致机体 生理功能紊乱,出现某些先天性或后天获得性的离子通道病疾(Channelopathy)。 目前发现的离子通道病己超过30种,主要包括心脏系统疾病如心律失常等,中 枢神经系统疾病如癫痫发作、共济失调、偏头疼等,动脉血管疾病如高血压等, 肺系统疾
25、病如囊肿性纤维化等,内分泌系统疚病如糖尿病等,以及竹脏系统疾病 等。同时,离子通道是少数受小分子药物有效控制的蛋白质之一2,由此吸引 了广大制药公司与科研单位的兴趣。目前,以离子通道为靶点的药物仅占上市药 物的6%,但年销倍额己超过60亿美元3,可见其是一类具有巨大幵发前景的 药物靶点,基于离子通道的药靶筛选及相关的药物设计具有很大的科研价值。随着人类基因组计划的实施和不断深入,核酸、蛋白质的序列4及表达等 数据信息爆炸性增长,这为生物药学研究提供了丰富的资源。从人类基因组序列5 中可预测和发现新基因,它们的产物可能是新的蛋白质类药物或药物开发的 靶标;生物体尤其是病原微生物特异性基因序列分析
26、,为感染性疾病沴断芯片的 设计奠定了基础;蛋白质结构6, 7相关信息,了为虚拟药物筛选和合理药物设 计提供帮助;SNP数据5, 8可为疾病发生和药物基因组学的研究提供重要信 息;此外,表达序列标记(EST),模式生物序列,基因表达数据9等也为药物 生物信息学的研究提供了丰富的信息10。同时,生命科学的研究E呈现“分子 化、系统化、全面化”的趋势发展,人们对疾病的认识也逐渐深入,从人、器官、v第l结引言组织、细胞、以至于达到目前的分子水平,后基因组时代中,疾病相关靶点的筛 选需要从DNA序列,表达谱,蛋白质11各个层面进行研究,以期高效地找到最 优的药物作用靶点。本课题的研究也遵循目前形势的需要
27、,提出从系统生物学12 的角度来进行疾病相关离子通道靶点的识别及功能的研究。1.2国内外研究现状与发展目前上市的药物中,以受体为作用靶点的药物占52%,以酶为作用靶点的药 物占22%,以离子通道为作用靶点的药物约占6%,以核酸作为靶点的药物占掷, 其余药物作用靶点尚不清楚13。其中每年以离子通道为作用靶点的药物的销售 额已超过六十亿美元,离子通道药物的研究14己成为当前药物开发的热点。2003至2005年间,国际上一些重要的学术团体和制药公司召开了多次会议, 讨论离子通道药物的研发问题:(1) 2003年,加拿大,on Channel Retreat”, 会议主题包括离子通道结构和功能的基础研
28、究,离子通道相关疾病,离子通道相 关药物的安全性、靶点识别和证实,高通量筛选技术,以及离子通道研究中的模 式生物等等问题。(2) 2004年,费城,第四届“11111115丨111*10丨5(17& Development”会议,讨论了以离子通道为靶点的药物的发展进程,潜在的新靶 点,技术上的突破,以及以离子通道为靶点的治疗方法所面临的挑战。(3) 2004 年,nature杂志drug discovery分册第三卷系统的综述和讨论了离子通道目前的 研究状况,主要的研究方法,离子通道在疾病和药物研发中的作用,基因组、蛋 白质组研究成果对离子通道的影响,以及离子通道研究中所面临的问题和挑战等 内
29、容。(4) 2004年,第三屈国际离子通道靶点会议在美国加利福尼亚州圣地亚 哥市举行,会议对疼痛、中枢和外周神经系统疾病中,以离子通道为靶点的治疗 方法进行了探U。国外许多科研机构和制药公司己经在药物生物信息学和以离了通道为靶点 的药物研发领域先行一少,我们对该领域包括药学专业数据库及软件、离子通道 数据库、离子通道研究技术、药物生物信息学方法等若干层面的国内外技术现状 进行了详细的调研,综述如下:1. 药学专业数据库及软件:药物研究发展迅速,出现了大量的相关数据5库,主要包括化合物结构数据库,可为新药合成、化合物筛选提供重要信息,此 类数据库包括DTP, Merck Synopsis onl
30、ine制药原料库,美国国家医学图书馆- 化合物结构数据库系列(SIS), WebReactions化学反应库等:药物专利数据库和 软件,提供了己知药物的结构、专利、药理机制、药物代谢途径等信息,多为商 业软件,如 Ensembl,InfoChem,Martindale 数据库,Pharmaprojects,The Combined Chemical Dictionary综合化学词典等;药理学与临床资料数据库,如 PharmGKB15,16】,TTD 药物祀点数据库,Drug ADME Associated Protien Database药物代谢动力学数据库,DART药物副反应数据库;计算机辅
31、助设计软 件,如Insightll分子模拟软件、3D-QSAR、TOPKAT计算机毒性预测软件包、 Cerius药物设计软件包、Tsar、Felix核磁共振辅助软件、BODIL等。2. 离子通道数据库:离子通道专业数据库的建立刚刚起步,目前主要集 中于收集大的序列数据库中与离子通道相关的基因和蛋白质序列,蛋白质高级结 构模拟,离子通道生理、病理功能模拟等方面,关于离子通道药物设计的数据库 还很少见。离子通道数据库包括序列结构数据库,如LGICdb配体门控离子通道 数据库17,18j、IUPHAR 离子通道数据库、Potassium Channel Enterprise Library 钾离子通
32、道专业数据库和VKCDB电压门控钾离子通道数据库等;离子通道生理 功能数据库,如Sansom group离子通道和膜蛋白仿真数据库、CellPropDB和 NeuronDB 等;离子通道与疾病数据库,如 Ion channel mutations database 和 10N CHANNF丄S,TRANSMITTERS,RECEPTORS & DISEASE 等。3. 离子通道研究技术:传统的离子通道研究技术包括膜片钳19、电压 钳、則!1(1丨叩、乂?1111、和丨011似等,其中膜片钳技术是电1门控离子通 道研究的经典技术,它具有信息含显大、可信度高的优点,但通1;较低。高通tt 筛选技术
33、一直是离子通道药物研究的瓶颈问题,近几年,随着纤维制造和纤维加 工技术的发展,涌现出一批优质的高通量筛选技术,如膜片钳芯片、微量吸管、 FMAT技术等。随之产生了一些可用于生物信息学分析的高通量数据,大大提高 了离子通道研究的效率,促进了离子通道研宄的发展。4. 药物生物信息学方法:在已发表的文献中,将生物信息学方法技术运 用到离子通道研究中的文章并不多,主要是有关同源建模以及分子动态仿真这方面的工作20,而运用表达谱数据的研究21主要有国外的Christopher P丄andowski等人22于2004年在AAPS上发表了一篇文章,借助78个转录子 及离子通道基因表达情况,来研究两个不同公司
34、oligo芯片是否具有可比较性, 没有进行深入的生物信息学方法技术的研究。复S大学生命科学学院遗传所也曾 经进行离子通道基因表达谱的研究,其中,谢建平等人23曾于2003年在生理 学报上发表了一篇文章,研究结核分枝杆菌对人巨噬细胞离子通道及其调控元件 转录表达的影响,文章仅仅将高表达和低表达的基因进行分类列表,没有进行更 深一步的研究。但目前有关疾病相关离子通道靶点识别的工作fH在不断展开,其 中,Scherf等13于2000年在Nature上发表了一篇利用基因表达谱数据对癌症 的分子药理学进行研究的文章,同时文章中还利用到了药物分子的结构信息; Sdya Imoto等24于2003年发表了一
35、篇利用网络来发现药物靶点的文章。对于 疾病发生机制的研究,SNP是目前国际上一个研究热点,其中,Wjst8于2004 年在BMC上发表了一篇利用分类学的方法进行tagSNP筛选的文章。(1) 3生物芯片技术简介生物芯片技术是20世纪90年代初半导体技术和生物技术“联姻”的结晶, 是随着人类基因组研究的深入应运而生的由于它可能形成巨大产业,近年来这 一技术显示出强劲的发展势头,并成了国际科研和开发的热点。生物芯片是指通过微加工技术和微电子技术在固体芯片表面构建的微型生 物化学分析系统,以实现对细胞、蛋白质、DMA以及其他生物组分的准确、快速、 大信息呆的检测。常用的生物芯片分为三大类:即基因芯片
36、、蛋白质芯片和芯片 实验室。生物芯片的主要特点是高通量、微型化和自动化。芯片上集成的成千上 万的密集排列的分子微阵列,能够在短时间内分析大量的生物分子,使人们快速 准确地获取样品中的生物信息,效率是传统检测手段的成百上千倍。它将是继大 规模集成电路之后的又一次具有深远意义的科学技术革命。当前生物芯片还没有正式进入临床诊断,同时由于生物芯片研究的重要性及 其将带来的巨大商业价值和应用前景,吐界各国科学家相继加入科研竞赛的行 列,以便在这个新的“淘金”领域抢得先机。以生物芯片为核心的相关产业正在 全球崛起,而许多研究机构与一些有实力的大公司相结合,著名跨国公司的加入, 大大加快了生物芯片研究和产业
37、化的进程。据专家估计,在世界范围内的生物芯 片市场(包括芯片实验室、基因组分析工具、疾病沴断、司法鉴定及免疫分析) 到2010年可能上升到600亿美元。用生物芯片进行药理遗传学和药理基因组学 研究所涉及的世界药物市场每年约1亿美元。1.4基因芯片及表达谱数据分析基因芯片是生物芯片研究中最先实现商品化的产品,其原理是指利用现代探 针固相原位合成技术、照相平板印刷技术、高分子合成技术等微电子技术把大量 分子生物学技术(包括技术、探针杂交技术、PCR等)具体而微的固定在一定狭 小的空间内,以实现高速度、高通量、集约化和低成本的分析技术。其基本运作 过程是:将基因片段固定于载体上制成基因芯片,然后将其
38、与荧光标记产物一起 放入自动杂交系统,让两者按碱基配对的原则进行固相杂交,然后通过激光共聚 焦扫描仪对芯片上的荧光信号进行扫描,最后用计算机系统对每一探针上的荧光 信号作比较和检测,并显示出有关的信息。在这个过程中,基因芯片就犹如一面 超高倍率放大镜,映射出被测患者基因结构与正常人基因结构上的细微差异,从 而诊断出疾病。具体流程参见图1-1。图卜1基因芯片试验流程图 Fig. 1-i Flow chart of gene microaiTy experiment7从点阵的制备方法来分主要有两类:原位合成型与“点膜”型。原位合成型 指根据预先设计的点阵序列在每个位点通过有机合成的方式直接聚合得到
39、所要 求的探针分子,聚合之后芯片片基的制作即告结束该方法有两类:荧光引导原 位聚合技术与m电打印原位聚合技术。“点膜”型合成工作用传统的DNA固 相合成仪完成,只是合成后用特殊的自动化微量点样装置将其以比较高的密度涂 布于硝酸纤维膜、尼龙膜或玻璃片上。支持物应事先进行特定处理,例如包被以 带正电荷的多聚赖酸或氨基硅烷,以便能够牢冏地结合寡核苷酸分子。该方法是 H前大多数中小型公司所采用的方法。从支持物来分主要有薄膜型跟玻片型。前 者如聚丙烯膜、硝酸纤维素膜、尼龙膜等,这种类型“芯片”的点阵是通过“点 膜形式制作的,并通过一定的方法使探针能够牢固地结合于其上,整个过程类 似于斑点杂交技术(如Cl
40、oneTech公司)。玻片型芯片的点阵是通过原位合成技 术制作的,点阵密度很高,所以必须借助于特殊的仪器对测定结果进行解读和分 析。当前具有此类产品研制能力的公司很少(如Affimetrix公司)。也可根据所 用探针的类型不N分为cDNA微阵列(或cDNA微阵列芯斤)和霖核苷酸阵列(或 oligo芯片)。当然还有苋它不N标准的分类方法。基因芯片技术具有高度并行性、多样性、微型化和自动化这四大特点。高度 并行性有利于基因芯片所示图谱的快速对照和阅读,效率大为提高;多样性则提 供了样品的多指标测定;微型化的好处在于对样品的需要量非常少,而且还能节 省试剂用量,降低成本:自动化使得人力投入减少并保证
41、了质量。同时,它还具 有操作简便、信息综合处理能力强、结果可靠和仪器配套齐全等优势,因而备受 占睐。从而解决了传统核酸印迹杂交(Southern Blotting和Northern Blotting等) 技术操作繁杂、自动化程度低、操作序列数量少、检测效率低等不足。而且,通 过设计不同的探针阵列、使用特定的分析方法可使该技术具有多种不同的应用价 值,如基因表达谱测定、实变检测、多态性分析、基因组文库作图及杂交测序等。尽管基因芯片技术己经取得了长足的发展,但仍存在诸如技术成本昂贵、复 杂、检测灵敏度较低、重复性差、分析范围较狭窄等难以解决问题;但其在基因 表达谱分析、基因功能研究、基因诊断、药物
42、筛选及序列分析等诸多领域己呈现 出广阔的应用前景,随着研究的不断深入和技术的更加完善,基因芯片一定会在生命科学研究领域发挥出其非凡的作用。1.5药物靶点的发现与药物基因组学药物靶点是指药物在体内的作用结合位点,包括基因位点、受体、酶、离子 通道、核酸等生物大分子(如图1-2所示)。选择确定新颖的有效药靶是新药开 发的首要任务。迄今己发现作为治疗药物靶点的总数约500个,其中受体尤其 是G-蛋白偶联的受体(GPCR)靶点占绝大多数,另还有酶、抗菌、抗病毒、抗 寄生虫药的作用祀点。合理化药物设计(rational drug design)可以依据生命科学 研究中所揭示的包括酶、受体、离子通道、核酸
43、等潜在的药物作用靶位,或其内 源性配体以及天然底物的化学结构特征来设计药物分子,以发现选择性作用于靶 点的新药。图i-2作为药物靶点的蛋白质家族 Fig. l-2 Protein families of drug targets目前,国际上新药研究领域呈现出一个显著的特点,即生命科学前沿技术如 功能基因组学、蛋白质组学和生物信息学等与药物研究的交叉结合日益密切,且 己发现和验证新型药物靶点作为主要目标。众所周知,新药研发的过程非常漫长, 可达10多年。在这个过程中,生物信息学提供了大量的数据资源(包括表达序 列标记、微生物基因组序列、模式生物序列、单核苷酸多态性、基因表达数据、 蛋白质组数据等
44、等)、各种算法和数据软件工具,使得它可以为药物研究提供新 的作用靶位,有助于计算机进行药物分子桟拟,并使药物的临床前评价和临床评 价的现状得到较大的改善,更重要的是可以不同程度地缩短研发的周期,大大缩 减研发成本。药物基因组学就是生物信息学与药物学相结合的一门应用科学,它是在基因组学的基础上研究不个体对药物反应的差异以便针对不同的基因型量 身定做药物,从而将药物的药效充分发挥而不良反应减少到最小。可以利用基 因芯片来寻找药物靶点,能更快速准确地确定药物研究的方向。目前,国外几乎所有的主要制药公司都不同程度地采用了基因芯片技术,应 用基因芯片来寻找药物靶点,查检药物的毒性或副作用,用芯片作大规模
45、的筛选 研究也可以省略大量的动物试验,缩短药物筛选所用时间。除了 DNA芯片外, 组织芯片、蛋白质芯片和细胞芯片也在药物研究中崭露头角。最近,耶鲁大学的 研究小组首次报道了真核生物蛋白质组水平的蛋白质微阵列芯片。他们的研究成 果证实了制作和使用蛋白质组微阵列芯片进行功能分析检测的可行性,并向人们 预示了蛋白质微阵列芯片在药物开发领域的广阔应用前景。药物基因组学的主要优点为:在进入临床试验前,药物基因组学可以利用 生物芯片来寻找药物靶点,能更快速准确地确定药物研究的方向,还可以通过化 合物对基因多态性的影响挑选先导物,从而降低由于药效的不稳定导致的失败几 率。在I期临床试验中,个体基因型可以预见
46、基因多态性造成的药物代谢动力 学差异。由于药物作用靶蛋白的差异反映在基因多态性上,因此在I期临床试 验中,由个体基因型可以预见基因多态性造成的药效差异,由此来指导III期临床 试验一旦发现一种可以导致药物作用差异的蛋白,其他与之相关的蛋白可作 为潜在的药物作用靶点进行分析研究。1.6疾病相关基因与致病基因疾病相关基因是指那些对人类健康和疾病以及对药物和环境的反应有影响 的相关基因,至于其是否真JH影响到疾病的发生或药物的作用机制,尚需进一步 验证。而所谓致病基因,即人体携带的对某种疾病具有易感染性的基因。英国遗传学家Sewall Wright的早期研究工作表明,在多因素疾病中起作用 的基因数量
47、并不多,最近的研究估计,每一种疾病的相关基因的数冃在510 之间。根据多因素疾病的盛行和严重程度以及当今工业社会引发的那些疾病来 看,这个数字在100150之间。那么与疾病相关的基因可达到500100个9 并非每个“致病基因都能独立地成为药物作用的靶点,而且其功能可与那些在生s第I章引M9理或病理过程中起信号传导和调控的其它蛋白相关联,因此这些可作为药物作用 的靶位蛋白可能是致病基因的510倍,那么潜在的药物作用靶点就有5000 10000个,换句话说,至少10倍于目前的分子靶位可被开发用于药物治疗。 在方法学中,给定一个特征离子通道基因,假定它被包含在所有由离子通道基因表达谱数据阵列数据训练
48、集归纳的分类器中。若将它从任意一个分类器中 剔除,将导致该分类器对疾病表型划分的错分率增加,则称(是与疾病相关的;若特征基因/,不是与疾病完全相关的和至少存在一个这样的持征离子通道基因子集/,依据/建立的划分的错分率高于依据/uf,建立的划分的错分率,称是与疾病部分相关的;若既不是完全相关亦不是部分相关,称(是与疾病无关的。(1) 7特征选择方法特征选择在模式识别、数据挖掘领域有着十分广泛的应用,同时也是需要有 效解决的重要问题。特征选择是指从己知一组特征集中按照某一准则选择出有很 好的区分特性的特征子集,或按照某一准则对特征的分类性能进行排序,用于分 类其的优化设计。特征选择是为了滤除对分类
49、没有什么贡献的特征。从这个意义 上来讲,它过滤了千扰特征,因而能够提高分类精度。特征选择方法主要有以下三种,一类是过滤法,如排秩、信息增益、Markov 毯和边际过滤法等,该类过滤方法主要优点是计算复杂度较低、速度快,但它在 特征选择过程中与分类器的决策机制脱离,一般难以确定由过滤方法选择的特征 是否能使某一特定分类器的分类准确率达到最大;另一类特征选择方法是缠绕法 25,其中特征选择的算法是作为-个围绕归纳算法的缠绕器,归纳算法及用來 搜寻有效的特征基因子兔,其本身又是特征基因的评价函数,这种归纳算法可用 于基因芯片数据,通常基因芯片数据被人为的分割为内源性学习样本和外源性检 验样本。具有最高评价的特征基因子集被选为最后的集