上QQ阅读APP看书,第一时间看更新
第一章 遗传学基础
第一节 基因及基因突变
1.为什么人类基因大多为两个拷贝
答:基因是遗传的基本生理及功能单位,主要由脱氧核糖核酸(deoxyribonucleic acid,DNA)组成,通过编码各种蛋白质发挥功能。基因具有自我复制的特性,通过形成配子结合成受精卵,人类的基因得以传递给后代,最终发育为成熟的个体。在这个过程中,每个个体的染色体一套来自父亲,一套来自母亲,共包含22对常染色体和1对性染色体。除性染色体X和Y的形态和组成存在重大差异外,其他每对常染色体上的基因都相同,因此这些染色体上的基因都有两个拷贝。如果发生遗传变异导致这些基因出现拷贝数的变化,往往会造成个体发生严重的遗传性疾病。
2.什么是人类基因组
答:人类基因组即人体细胞内全部DNA序列,包括人的所有遗传信息,由细胞核基因组和线粒体基因组组成,以染色体的物理形式存在。完整的核基因组由23对染色体组成,其中包括22对常染色体和1对性染色体;线粒体基因组指存在于线粒体中的闭合环状双链DNA分子。人类基因组计划在1990年启动,由美、英、法、德、日、中等国共同参与,耗时十余年,最终于2001年公布人类基因组草图。这项伟大的计划共花费约30亿美元,与曼哈顿原子弹计划和阿波罗登月计划并称为科学界的三大工程。经过此项计划的实施,人类染色体中包含的30亿个碱基对组成的核苷酸序列被解码,开启了生命科学的新时代。
3.为什么要实施人类基因组计划
答:人类基因组计划的宗旨在于测定组成人类染色体(主要指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,辨识其载有的基因及其序列,达到破译人类遗传信息的目的。1986年,DNA序列自动分析技术得到了发明,科学家们意识到基因组信息对肿瘤治疗等具有重大意义,便开始对人类基因组测序的可行性进行探讨。最终,人类基因组计划由美国能源部和美国国立卫生研究院在1990年牵头实施。这项研究计划的实施使得人们可以从整体层面解析人类的遗传信息,为单基因疾病、多基因疾病(如心血管系统疾病、肿瘤、糖尿病、神经精神类疾病及自身免疫性疾病等)的病因学诊断提供依据,同时也为基于基因组信息的基因治疗、疾病预防、易感基因的识别、风险人群生活方式及环境与遗传交互作用的研究提供了契机。
4.为什么会发生遗传现象
答:遗传是指子代的性状可以从亲代得到继承从而具有与之相似性的现象。从表型上看,遗传是性状从亲代到子代的延续。从分子水平上看,遗传是由基因决定的。从配子形成、受精卵形成直到个体发育,基因完成了在亲代中的复制以及在子代中的分配、继承。这个过程使得遗传信息以基因序列的形式传递给子代,最终决定了子代的性状。近年来的研究发现,除了基因序列使得性状在子代得以继承以外,一些发生在基因上的表观遗传修饰也可以通过生殖细胞传递给子代,对子代的性状产生影响。基因决定的遗传主要遵循4个定律:分离律、自由组合律、连锁律与交换律,而表观遗传决定的遗传往往受环境因素影响较大,不符合这样的规律。
5.什么是脱氧核糖核酸
答:脱氧核糖核酸(DNA)是人及绝大多数有机体的遗传物质。在每个人体内,每一个正常细胞的DNA均相同。大部分DNA定位于细胞核中,称为细胞核DNA;小部分DNA定位于线粒体中,称为线粒体DNA或mtDNA。DNA所携带的遗传信息主要由4种碱基即腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)及胸腺嘧啶(T)以不同密码子组合的形式构成。人类DNA拥有约30亿个碱基对,碱基的排列顺序决定了个体的生物性状,类似于字母以不同的组合组成不同的单词和句子。碱基以A=T、C≡G的形式相互配对形成碱基对,每个碱基同时与一个戊糖和一个磷酸根连接,即一个碱基+戊糖+磷酸根称为核苷酸。核苷酸彼此相连形成核苷酸链并螺旋上升,即双螺旋结构,该结构形似梯子,碱基对形成阶梯,戊糖及磷酸根分子形成梯子垂直的侧面。
6.什么是核糖核酸
答:核糖核酸(ribonucleic acid,RNA)是由核糖核苷经磷酸二酯键缩合而成的长链状分子,是一类遗传信息传递的载体。与DNA类似,RNA的组成碱基也为4种,分别为腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C) 和尿嘧啶(U)。RNA按功能和结构主要可以分为以下几种:①信使RNA(messenger RNA,mRNA),是遗传信息的中间载体,在蛋白质合成过程中作为信使分子,将DNA的遗传信息转化为氨基酸序列;②转运RNA(transfer RNA,tRNA),在蛋白质合成过程中携带特定的氨基酸加入正在合成的肽链中;③核糖体RNA(ribosomal RNA,rRNA),在细胞RNA中占比75%~85%,是蛋白质加工复合物核糖体的主要成分;④端粒酶RNA,存在于真核细胞中,是端粒酶的组成部分,作为模板辅助端粒的延长;⑤反义RNA,通过与mRNA配对抑制其翻译,调控其转录或表达;⑥核酶,是一类具有催化活性的RNA,可以发挥切割核酸、RNA连接酶以及磷酸酶等活性。此外,还存在许多非编码RNA,如长非编码RNA和小RNA,在细胞中起到调控作用。
7.为什么人类基因组存在非编码序列
答:基因是由成千上万个核苷酸组成的,核苷酸序列可以分为不同的区段,在基因表达的过程中,不同区段所起的作用不同:
(1) 编码序列(coding sequence,CDS):
能够转录为相应信使RNA,进而指导蛋白质合成(也就是能编码蛋白质)的区段。
(2)非编码序列:
不能编码蛋白质的区段。在基因内部,非编码区域称为内含子,将基因的蛋白质编码序列分隔开。这样的基因组成形式使得真核生物的同一个基因可以通过可变剪接方式形成大量不同的蛋白质异构体以行使不同的功能,大大提高了基因组的利用效率。在基因间也存在大量的非编码序列,一方面,这些非编码序列形成了对遗传变异的缓冲,使得一些随机发生的突变不至于改变蛋白质的结构因而对生命个体不产生严重的影响;另一方面,在非编码序列中存在着许多调控元件,对于染色体结构的稳定性、基因表达等细胞生命活动起到重要的调控作用。
8.为什么真核生物中编码序列往往不是连续的
答:蛋白质合成过程中,DNA序列转录为mRNA,mRNA经过翻译后加工最终指导合成蛋白质。编码序列(CDS)是指与编码蛋白序列一一对应的DNA序列。在真核生物中,编码序列往往不是连续的,而是由一些不翻译成蛋白质的序列隔开,这些断裂基因中的编码序列称为外显子(exon),它在剪接后仍会被保留下来,并可在生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,是既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。内含子(intron)是断裂基因的非编码区,可被转录,但在mRNA加工过程中被剪切掉,故成熟mRNA中无内含子序列。内含子可能含有 “旧码”,就是在进化过程中丧失功能的部分基因。正因为内含子对翻译产物的结构无意义,不受自然选择的压力,所以它比外显子累积有更多的突变。
9.什么是密码子
答:密码子是指mRNA分子上每相邻3个核苷酸组成的三联体,在蛋白质翻译过程中,分别对应编码一种氨基酸。密码子具有简并性、通用性和连续性等特点。①简并性:同一种氨基酸可以由几个不同的密码子决定,除了起始密码子甲硫氨酸及色氨酸外,每一种氨基酸至少对应着两个密码子,此为密码子的简并性;②通用性:从原核生物到真核生物,不同的生物密码子基本相同,即共用一套密码子,此为密码子的通用性;③连续性:密码子与密码子间没有任何不编码的核苷酸存在,且任意两个相邻的密码子不共用任何核苷酸,蛋白质翻译时从起始密码子开始,一个不漏的直到终止密码子,此为密码子的连续性。
10.为什么密码子具有简并性
答:构成mRNA的碱基有四种,即腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)及胞嘧啶(C),理论上以3个核苷酸为一组可以产生64种密码子组合,即代表64种氨基酸。但实际上,64种密码子组合仅代表20种氨基酸,意味着同一种氨基酸可以由几个不同的密码子决定。除了色氨酸及起始密码子甲硫氨酸外,每一种氨基酸至少对应着两个密码子,此为密码子的简并性。密码子的简并性具有重要的生物学意义,使得基因突变后改变原有编码蛋白质序列的可能性大大降低,减少了有害突变的遗传。
11.为什么中心法则的提出是个不断发展完善的过程
答:中心法则(genetic central dogma)是遗传信息在细胞内的生物大分子间转移的基本法则,首先由弗朗西斯·克里克于1958年提出,内容主要包括:遗传信息从DNA传递到RNA实现转录,再从RNA传递到蛋白质完成翻译,以及从DNA传递到DNA完成DNA自我复制的过程,这是所有具有细胞结构的生物遵循的法则。1965年科学家发现RNA自身可以完成复制,1970年研究人员又发现某些病毒在宿主细胞中的复制过程是先以病毒的RNA作为模板合成DNA,再以DNA为模板合成新的病毒RNA。这些均是对中心法则的补充,据此弗朗西斯.克里克于1970年重新提出了中心法则更为完整的形式。朊病毒是中心法则目前已知的唯一例外。
12.为什么会有RNA世界假说
答:RNA世界假说(RNA world hypothesis)由1981年度诺贝尔化学奖获得者吉尔伯特提出。RNA世界假说认为生命进化的早期,RNA是唯一的遗传物质,是生命的源头。RNA的五碳糖2′位是羟基,化学活性远大于DNA,特别容易发生突变,因而其携带遗传信息的能力不如DNA;再者,RNA的组成没有蛋白质复杂,因而其在功能分子的作用方面不如蛋白质。但是,RNA是唯一既能携带遗传信息又可以作为功能分子的化合物。因此,生命起源之初,很可能在原始的自然环境条件下,核苷酸经过亿万年的进化,形成了具有自我复制能力的RNA,其中的某些过程已在人工条件下被成功地模拟。核糖体具有核酶功能的发现大大支持了RNA的世界假说,此后发现了更多种类的RNA,在基因表达的整个阶段扮演着不同的结构和功能角色,也支持了这样的观点:整个遗传物质的维持和表达过程,都是在 “RNA世界”中完成的。
13.为什么蛋白质的合成需要三种主要的RNA
答:蛋白质的翻译过程需要三种主要的RNA直接参与:信使RNA(mRNA)、转运RNA(tRNA)及核糖体RNA(rRNA),不同种类RNA行使的功能是不同的。mRNA提供了特定蛋白质的DNA序列信息,其中每个三联密码子核苷酸都代表了一种特定的氨基酸;另外mRNA两侧的序列,在调控其活性及由此所产生的蛋白质数量方面扮演着重要角色。tRNA是用来运输氨基酸到对应的mRNA密码子上的小RNA,它的三维结构非常重要,可以被酶识别,同时具有与mRNA碱基配对并结合的能力,提供了与特定氨基酸建立连接的靶标。rRNA是核糖体的组成元件,核糖体是一个包括多种蛋白质和RNA组件的核糖核蛋白,可以将特定的氨基酸聚合成肽链;rRNA既提供了核糖体蛋白结合的骨架,又参与了核糖体的催化活动。因此,这三种主要的RNA是蛋白质合成过程中必需的成分。
14.为什么翻译过程并非将mRNA的全长转化为蛋白质信息
答:基因是可以编码产生各种蛋白质的DNA序列,但是基因并不直接翻译成蛋白质,而是通过mRNA来完成这个过程。基因产生蛋白质的过程称为基因表达,包含两个过程:第一步是产生一条与DNA链序列互补的mRNA,称为转录;第二步是以mRNA为模板合成蛋白质的过程,称为翻译。蛋白质的翻译过程即将序列中包含的核苷酸以三联体(密码子)对应的氨基酸逐个连接成肽链的方式合成相应的蛋白质。然而,mRNA除了包括一系列与蛋白质中氨基酸对应的核苷酸序列外,还包括两侧的附加序列5′非翻译区和3′非翻译区,这些序列不编码蛋白质。因此,翻译过程并非利用全长mRNA,只是将mRNA的基因编码序列翻译为蛋白质。
15.为什么一个基因会有多个转录本
答:真核生物的许多基因由若干个编码序列(外显子)和非编码序列(内含子)互相间隔组成,这些基因也称为断裂基因。在断裂基因的转录过程中,内含子区域会被剪接掉,mRNA通过不同的剪接方式(可变剪接)产生不同的mRNA剪接异构体,这是导致一个基因存在多个转录本的根本原因。由于mRNA的可变剪接不牵涉遗传信息的永久性改变,所以这是真核生物基因表达调控所采用的一种比较灵活的方式,丰富了蛋白质组的多样性,也造成人类基因数与蛋白质总数存在较大的差异。
16.什么是线粒体DNA
答:线粒体DNA是指存在于线粒体中的闭合环状双链DNA分子,也是独立于细胞核DNA之外的遗传物质,与细胞核DNA共同构成人类基因组。线粒体DNA可以分为外环的重链及内环的轻链,双链中有一小段三链的D-loop 7S DNA,是线粒体DNA复制和转录的起始位点。线粒体DNA结构紧凑,没有内含子也不含重复序列,共包含37个基因,均在线粒体正常功能行使中发挥重要的作用。已发现线粒体DNA结构异常或点突变可导致人类多种疾病,常累及能量需求较高的中枢神经系统和肌肉组织,最常见的为线粒体性脑肌病。
17.为什么线粒体DNA易于突变
答:线粒体DNA易于发生突变,主要是由线粒体内部的结构和环境决定的。线粒体是真核细胞的能量工厂,内膜富含呼吸链-氧化磷酸化系统的酶复合体,通过电子传递和氧化磷酸化产生大量ATP及高氧化的环境。因此,线粒体DNA容易受到氧化而导致突变。另外,线粒体DNA分子上没有核苷酸结合蛋白,缺乏组蛋白的保护作用;同时,线粒体内缺乏DNA损伤修复系统;再者,由于线粒体基因不存在内含子,在整个细胞周期中不断复制,更容易积累变异。因此,与细胞核DNA相比,线粒体基因的突变速率要高得多。
18.为什么基因转录后加工需要 “加帽”
答:加帽是指在DNA转录产物mRNA的5′端连接上一个甲基化帽,即7-甲基鸟苷酸(m7GTP)帽子。5′帽子的形成主要是在细胞核内完成的,但是某些动物病毒mRNA的加帽过程可以在宿主细胞的胞浆中完成。加帽封闭了转录产物的5′端,同时也避免5′端被磷酸酶和核酸酶消化,增加了mRNA的稳定性,避免了mRNA受到5′-3′核酸外切酶的攻击。此外,mRNA5′端帽子也是翻译起始过程所必需的,有助于mRNA从细胞核至细胞质的运输,同时有助于被细胞质中的核糖体小亚基所识别,可以使得mRNA较易与核糖体结合,从而提高蛋白质合成的效率。
19.为什么基因转录后加工需要 “加尾”
答:加尾是基因转录遇到转录终止信号后,在转录产物mRNA 5′端加帽的同时,腺苷酸聚合酶催化在其3′端附加约200个腺苷酸(A)的长链,即多聚腺苷酸(poly A)尾的过程,该过程也称为多腺苷酸化。Poly A尾不是由DNA序列编码的,完全是转录后在细胞核内添加的。Poly A尾可促进mRNA从细胞核向细胞质的转运,避免mRNA被磷酸酶及核酸酶降解,对维持mRNA的稳定性具有重要的意义。此外,细胞中出核复合体可以与mRNA的polyA结合,引导mRNA出细胞核。
20.为什么基因表达需要调控
答:正常人体的每个细胞内都含有完整的基因组,若每个细胞中的每个基因均同等程度的表达,则人体将没有组织和器官特异性。实际上,特定组织、特定器官的细胞中只有部分基因表达,且不同基因在细胞分化的不同时期或条件下表达程度也不同。基因的这种差异表达构成了人体内功能和形态各异的细胞类型,即细胞类型的差别并非在于基因组的不同,而在于基因的表达差异。如果基因在不恰当的时间或条件下表达,或表达水平出现差异,均可导致疾病的发生。因此,人体基因组每个基因的表达都需要精细的调控,以确保人体各个组织、器官功能的正常运行。
21.为什么说基因突变是人类进化的动力
答:所有生物体的基因组既要维持相对稳定性,以确保遗传性状代代传递;又要有所变化,以保持性状的多样性。如果基因组的DNA序列一成不变,就不会有进化。基因突变是指组成基因的DNA序列发生了永久性改变,使该序列不同于大多数人。基因突变是生物遗传变异的主要来源,突变产生的性状是进化过程中自然选择的对象,可以说突变是进化的原材料,选择是进化的动力。因此可以说基因突变是人类进化的动力。
22.为什么会发生动态突变
答:动态突变又称为不稳定三核苷酸重复,主要是指在基因的编码区、3′或5′-UTR区、启动子区、内含子区出现的三核苷酸重复,以及其他长短不等的小卫星、微卫星序列的重复拷贝数,可随着世代传递而呈现逐代递增的累加突变效应,因此称为动态突变。动态突变主要是由于细胞在减数分裂或有丝分裂过程中,配对的含有重复序列的等位基因区域中的一条链复制过程中,新生链不断扩增导致形成多余的未配对的环状结构最终未被切割修复而保留,从而产生重复序列拷贝数的扩增。动态突变造成遗传物质的不稳定状态,可引起某些单基因遗传性状的异常或疾病的发生。
23.为什么基因会发生自发突变
答:基因的本质是脱氧核糖核酸,是一种化学物质。在自然界中DNA在受到物理、化学及生物学因素的作用下可能会发生损伤而引起基因突变。生物体细胞内存在DNA修复系统,主要通过光修复、切除修复、重组修复及SOS修复等方式对突变位点进行修复。但有时DNA修复系统在修复过程中出现错误而造成突变,称为自发突变。事实上,在每一次复制过程中,DNA都在发生变异,这也是生命进化的动力。在自然选择的作用下,有利突变会被保留下来,而有害突变会逐渐被淘汰。当有害突变为非胚胎致死性时,就会导致遗传性疾病个体的出现。
24.为什么基因会发生诱发突变
答:诱发突变是指由各种诱变剂导致的基因突变。由于DNA的本质是一种化学物质,会在物理化学因子的影响下发生化学反应产生突变。常见的可以引起突变的诱变剂包括物理因素(如X射线)、化学因素(如亚硝酸盐)及生物因素(如细菌、病毒等)等。物理诱变剂如X射线作用于细胞DNA时,染色体或DNA分子受到射线作用产生电离和激发,同时产生各种游离基团,最终引起DNA分子结构改变。化学诱变剂可以通过改变DNA化学结构、或是竞争碱基互相配对、或是直接插入DNA分子结构中,最终造成基因突变或结构异常。生物诱变剂如反转录病毒等则直接将自身DNA导入细胞DNA分子中,引起基因突变。
25.为什么一个基因可以控制多个性状
答:生物体发育过程中,基因所表达的蛋白质主要通过调控新陈代谢的一系列反应,进而影响到个体的发育方式并决定遗传性状的形成。生物体内许多生理和生化反应都是相互联系和彼此依赖的,蛋白质与蛋白质之间彼此相互协作共同构成了多个独立而又交叉的调控网络。因此,一个基因的变异可以直接或间接的影响多个生理和生化反应过程,导致多个性状发生相应的改变,也称为基因的多效性。
26.为什么顺式作用元件与反式作用因子共同调控基因表达
答:顺式作用元件是指与结构基因串联的特定DNA序列,具有转录调节功能,按功能特性分为启动子、增强子、沉默子及其他可诱导元件等。顺式作用元件本身不编码任何蛋白质,主要提供作用位点。反式作用因子是指与顺式作用元件相结合的调控性蛋白分子,包括转录因子、诱导因子等。反式作用因子与特定靶基因的顺式作用元件结合,通过蛋白质和DNA相互作用、蛋白质和蛋白质相互作用、蛋白质修饰等途径实现对基因表达的调节。因此,真核生物的基因表达过程的转录调控是顺式作用元件与反式作用因子相互作用实现的。
27.为什么启动子本身不控制基因的活动
答:启动子(promoter)是基因表达(转录)起始时RNA聚合酶特异性识别和结合的DNA序列,位于基因5′端上游,能活化RNA聚合酶,使之与模板DNA准确结合并具有转录起始的特异性。基因的特异性转录主要取决于RNA聚合酶与启动子是否可以有效地形成二元复合物,故RNA聚合酶如何有效找到启动子区并与之结合是转录起始过程的关键。启动子是基因的一个组成部分,控制着基因表达(转录)的起始时间和表达的程度。然而启动子本身并不具备调控活性,它只是基因上游的一个开关标识,指导转录因子、RNA聚合酶等形成转录起始复合物开启基因的表达。
28.为什么增强子不同于启动子
答:增强子(enhancer)是指增强与其连锁的基因转录效率的DNA序列,可以位于基因的5′端、3′端以及内含子中。增强子的效应非常明显,一般可以使基因转录效率增加10~200倍,有的甚至可以高达上千倍。增强子可以分为两类:①组织和细胞专一性增强子,这类增强子只有在特定的转录因子参与下才能发挥功能;②诱导性增强子,这类增强子的活性通常需要有特定的启动子参与。虽然增强子是通过启动子来影响转录的,但它与启动子有两个主要的区别:①定位不确定,启动子位置相对固定,而增强子位置不固定,可有很大的变动;②能在基因上下游两个方向均产生相互作用,启动子仅作用于其下游特定基因的转录,而增强子能刺激其附近任一启动子的转录。
29.为什么沉默子与增强子作用相反
答:沉默子(silencer)是真核生物基因序列中可降低基因启动子活性的一段DNA序列,主要与调控蛋白结合后阻断转录起始复合物的形成或活化,使基因表达活性关闭。沉默子与增强子有一些相似的性质:①可以在远距离作用于下游顺式连接的启动子;②对基因的作用没有方向的限制,即无论位于启动子的上游还是下游均可以抑制启动子的活性。因此,可以将增强子看作相应诱导信号的正调控元件,而沉默子则是一种负调控元件。前者使得基因表达大量增加,而后者抑制基因的表达。因此,沉默子与增强子可以看作两个作用相反的基因调控元件。
30.为什么终止子与终止密码子不同
答:终止子(terminator)是在转录过程中提供转录终止信号的DNA序列,位于poly A序列下游,长度在数百碱基以内,在mRNA水平上通过转录出来的终止子序列形成茎环结构而起作用,其与三联体密码子无关。终止密码子(stop codon)是蛋白质翻译过程中终止肽链合成的mRNA序列上的三联体碱基序列,一般情况下有三种,分别为UAA,UAG或UGA。因此,终止子是相对于DNA转录mRNA来说的,而终止密码子是相对于mRNA翻译蛋白质来说的,两者是不同的概念。
31.为什么基因突变具有多种类型
答:基因突变(gene mutation)是指DNA分子发生的可遗传的变异现象。根据碱基变化的情况,基因突变一般可以分为以下几类:①碱基替换突变:指DNA分子中一个碱基被另一个不同的碱基取代引起的突变,也称点突变;②移码突变:指DNA片段中某一个位点插入或丢失一个或几个(非3或3的倍数)碱基时,造成插入或丢失位点以后的一系列编码顺序发生错位的一种突变;③缺失突变:指DNA片段中发生一个或几个碱基甚至大片段的DNA缺失;④插入突变:一个基因的DNA中插入一段外来的DNA,引起结构破坏而导致的突变。基因突变可以由物理、化学、生物等因素影响,具有不同的产生机制。不论何种突变类型,只要其不致死,均可以在存活个体中保留下来。因此,我们可观测的基因突变具有多种类型。
32.为什么会发生同义突变
答:由于密码子存在简并性的特点,即不同的密码子可能编码同一种氨基酸,核苷酸的碱基置换后虽然三联体密码子发生改变,但所编码的氨基酸没有改变,即为同义突变。同义突变通常发生在三联体密码子的第3个碱基上,如脯氨酸的密码子为CAU、CAC、CAA及CAG,它们的第3个碱基发生的突变即为同义突变,突变前后仅有碱基的变化,所对应的氨基酸序列没有改变,也不产生遗传表型的变化。
33.为什么基因组与蛋白质组的总数是不同的
答:基因组是指有机体的一组完整的基因,它最终由DNA的全序列决定。蛋白质组是指一组完整的肽链,它由全基因组编码。但是,基因组与蛋白质组的总数不是一致的:首先,有些基因是以多拷贝的形式存在的,这些基因编码相同的肽链;其次,一些基因可以通过可变剪接的方式产生多种肽链;再次,蛋白质采用不同的翻译后修饰,也使得单一转录产物最终可以产生更多种类的蛋白质。
34.为什么人类基因数目少于预期
答:人类基因组是第一个完成测序的脊椎动物基因组,包含22条常染色体和2条性染色体(男性为1条X和1条Y染色体;女性为2条X染色体),总长度约为3×10 9个碱基对。随着对其认识的深入,人们发现人类基因组实际上只有不到2%的序列是用来编码蛋白质的,即使加上内含子的序列,这些区域也只占到基因组总量的25%左右,其余大部分都是非编码序列。目前通常认为人类基因组存在约两万个基因,只比果蝇和线虫(分别为13 600个和18 500个)多一点,因此远比早期人们预期的少得多。
35.为什么基因组存在C值悖论
答:每种生物单倍体基因组的DNA总量被称为C值,反映了该种生物基因组的大小。高等生物比低等生物具有更为复杂的生命活动,早期人们认为它们的C值也应当更高。实际上,物种的C值与其进化复杂性之间并无严格对应的关系。生物体的复杂程度并不能仅仅从染色体的多少或DNA的总量来衡量,许多生物的基因组是冗余的,存在大量的非编码序列或重复序列,并不与生物的进化程度相对应。因此,基因组存在C值悖论。
36.为什么基因在基因组上的分布不是均一的
答:基因在基因组上并不是均匀分布的,人类基因组总共约20%的区域是没有基因存在的。有些染色体上基因分布很少,多达25%的区域无基因存在;即使基因最丰富的染色体,也有大约10%的区域是无基因的。重复序列占据了人类基因组的50%以上,包括:①转座子(活性的及非活性的)占据了重复序列的45%左右;②已加工的假基因约3000个,约占基因组的0.1%;③简单重复序列(如CA重复占据了重复序列的3%左右);④区段重复序列(长度为10~300kb的区段模块),大部分位于不同染色体上;⑤串联重复序列(特别是着丝粒和端粒处)。
37.为什么会有单核苷酸多态性
答:在比较等位基因时,有些基因位点的变异频繁地发生,其中发生在超过1%的人群中的基因位点变异称为单核苷酸多态性(single nucleotide polymorphism,SNP)。理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但后两者罕见。在人类基因组中存在大量的SNP,是人类可遗传的变异中最为常见的一种,平均每1300多个碱基中就存在1个SNP。单核苷酸多态性的产生源于核苷酸水平的变异,当对生物体没有明显的有害性时,该突变可能会通过遗传漂变等机制在一个种群中得到较高的频率并保留下来,形成SNP。
38.为什么基因组中会存在假基因
答:基因组中,由于位点突变等原因,有些基因的拷贝丧失了功能,它们被称为假基因。假基因是基因组中与编码基因序列非常相似的非功能性基因组DNA拷贝,一般情况下不被转录。第一个假基因是1977年在研究非洲爪蟾5s RNA基因时发现的。假基因和真基因的结构上的差异主要包括在不同部位不同程度的发生了缺失或插入、在内含子和外显子邻接区中的顺序变化、5′端启动子区域的缺陷等,这些变化往往使假基因不能够转录形成正常的mRNA,最终导致基因不能表达。由于基因突变是随机产生的,当个体中由于突变导致的缺陷基因在一个群体中得到保留并固定下来后,便成了一个没有功能的基因拷贝,即假基因。
39.为什么生物不太可能保留两份完全相同的基因序列
答:除非基因编码的产物在细胞中需要维持很高的浓度,或在以下情况两个基因都被生物体所必需:两个基因编码的蛋白质产生了不同的功能,或它们在不同时间/不同细胞类型中表达。如果此事件没有发生,其中一个基因很可能会变成假基因,因为如果它获得有害突变后,最终将由于缺乏选择压力而消亡。由于随机的遗传漂变,出现突变体的频率可能提高,并固定在某一物种中。
40.为什么非编码区位点突变也会影响基因的功能
答:发生在非编码区的突变虽然不会像编码区突变一样,通过改变编码的氨基酸序列而影响相关蛋白功能,但非编码区位点突变可以通过直接改变调节序列、DNA的二级结构以及染色质的空间结构来改变基因的调控模式,从而影响基因的转录速率、RNA加工、翻译效率等,最终影响基因的表达。因此,非编码区位点突变也会影响基因的功能。
41.为什么基因突变既可以引起蛋白质功能的丧失也可以导致其功能的获得
答:等位基因由于点突变、片段缺失、插入以及重排等原因使其编码的蛋白质功能完全丧失的突变称为无效突变(nullmutation),既可以指导致无法合成有功能性蛋白质的突变,也可以指促进合成无功能蛋白质的突变。无效突变或其他阻止基因表达功能的突变被称为功能缺失突变(loss-of-function mutation,LOF);其中有一部分丧失功能的基因突变,其编码的蛋白质功能失活不完全,仍保留了一些功能,但在杂合状态下不能产生足够多的野生型表型,这类突变称为渗漏突变(leaky mutation)。有时某些位点突变后可引起相反的效应,使蛋白质获得新的功能或表达模式,这样的突变称为功能获得突变(gain-of-function mutation,GOF)。
(王波 杨海鸥 傅启华)