一、基本概念
基因组学:研究基因组结构、功能及表达产物的学科,包括 测序、基因组作图、基因组分析 。
蛋白质组学:研究各种基因组在细胞中全部蛋白质的 组成、结构、功能及表达模式的学科。
表型组学:研究生物个体形态发生和生理特征发育的过程中,基因组和环境因子相互作用而产生生物表型多样性的学科。
蛋白质组:一定条件下,存在于一个体系(细胞、亚细胞和体液等)中的全部蛋白质的集合。
基因组学的亚领域包括 结构基因组学、功能基因组学、比较基因组学 。
二、原核生物和真核生物基因组的差异
三、基因组中的非编码序列
真核生物基因组中存在大量的非编码序列,包括基因内非编码序列和基因外的间隔DNA,其中,基因内不编码部分包括 5′5'5′ 端的前导序列、 3′3'3′ 端的尾随序列、内含子和假基因。
1. 间隔DNA
间隔DNA(spacer DNA)是真核细胞基因组中的一些功能基因之间的不转录的片段,通常含有单一序列和重复DNA。单一序列能以间隔序列存在,或散在分布于重复序列的侧翼。间隔DNA的功能现在尚未知,亦称为垃圾DNA,一般不编码,在人类基因组中约占 959595% 。推测它们可能和新基因的产生以及基因的修复有关。
2. 前导序列和尾随序列
前导序列(leader sequence)是位于结构基因起始密码子之前的一段核酸序列,包括核糖体结合位点。在原核生物中前导序列可能包括可被翻译的弱化子片段,它可在RNA聚合酶到达操纵子的第一个结构基因前终止转录。而真核基因的前导序列通常不翻译,在编码分泌蛋白和细胞器(如:线粒体、叶绿体)蛋白质的基因中,前导序列是可以编码信号肽和导肽的。
尾随序列(trailer sequence)是mRNA 3′3'3′ 端的在翻译终止信号后非翻译片段,不包含poly(A)尾部在内。一些mRNA在其尾随序列中含有核苷酸模体,可结合受体分子以定位于细胞特定区域,有的 3′3'3′ 端“UTR”具有一个特异微管结合序列,通过一种能与微管末端结合的蛋白质附着于微管上,以此进行mRNA的定位。
3. 内含子
内含子(intron)指在成熟的mRNA中不出现的序列。
外显子(exon)指在成熟的mRNA中出现的序列。
内含子并非都不编码,有些Ⅰ类和Ⅱ类内含子是有可读框的,可产生三种蛋白质:内切核酸酶、反转录酶、成熟酶。其中,前两者能剪切无内含子同源基因中特定序列,使该内含子的一个新拷贝插入到此同源部位,并稳定的遗传,此现象称为内含子归巢,而后者可与内含子RNA结合,折叠成有活性的结构,催化Ⅱ类内含子RNA剪切。
4. 假基因
假基因(pseudogene)又称拟基因,是指在多基因家族中,某些成员在进化过程中产生一个或多个突变而丧失了产生蛋白产物的能力。
加工假基因(processed pseudogene)又称反转录基因,是假基因的一种类型,其结构特点是:两端有短的同向重复序列,5′5'5′ 端有帽结构,3′3'3′ 端有poly(A)尾巴,中间没有内含子。这反映了它们来自mRNA,可能经过转录后加工,再反转录成DNA,经转座插入到基因组中而形成。
四、重复序列
1. 轻度&中度重复序列
轻度重复序列和中度重复序列在基因组中常以基因簇或基因家族的形式存在。
基因簇(gene cluster)
在染色体上紧密排列在一起,来源相同、功能相关的一组基因。一个基因簇中的基因,常编码催化同一代谢途径中不同步骤的酶的结构基因。例如:人类白细胞抗原(LHA)系统的7个连锁基因座,排列成 A-B-D-DR-DQ-DP ,形成一个基因簇。
基因家族(gene family)
一个祖先基因经重复和变异所产生的一组同源基因,它们的结构和功能都是相同的。不同的基因家族其成员的多少、结构和功能的相似性都不同,分散的基因家族其成员不在同一基因簇内,有的不在同一染色体上。
孤独基因(orphon)
多基因家族的一个以前的成员,其所在位置与该基因簇脱离。它含有编码区或是一个假基因,可能作为序列的储备,能进化产生新的功能。
2. 高度重复序列
散在重复序列(interspersed repeated sequence)
长散在核元件,又名长散在重复序列,在高等真核生物基因组中以散在的形式分布于基因组中的较长的重复序列,其单元长度在6kb以上,可编码反转录酶。基因组中少数的LINE具有自主转座的功能,其他的因曾发生过突变而不能转座。
短散在核元件,又名短散在重复序列,是散布在哺乳类基因组的一类短的高度重复序列,几乎均为反转录转座子。
卫星DNA(satellite DNA)
真核生物中一种串联排列的高度重复短序列,存在于着丝粒和端粒处。卫星DNA的碱基组成和基因组中的主体DNA差异很大。当将DNA切成片段进行氯化铯密度梯度超离心时,由于这种DNA富含A-T,所以浮力密度小,常常单独形成一条较窄的带,在主体DNA带的上面。其中,有的卫星DNA同样时高度重复的,但G-C的含量和基因组中其它DNA序列没有明显的差别,所以用密度梯度离心就分不出一条卫星带来,这种高度重复序列称为隐蔽卫星DNA,可通过复性动力学等方法将其从基因组中分离出来。
五、结构基因组学
任务
通过制作高分辨的遗传图、细胞图、物理图、序列图和转录图来确定生物基因组结构。手段
转录图(transcription map):又称表达图(expression map),是以基因的外显子序列或表达序列标签(expressed sequence tag, EST)为标记,精确地表明这些标记在基因组或染色体上位置的物理图。遗传图(genetic map):又称连锁图(linkage map),通常是利用杂交所得到的重组值来确定染色体上连锁基因或遗传标记之间的相对位置和距离的线性图。使用的遗传标记越多、越密集,所得到的遗传连锁图的分辨率就越高。细胞学图(cytological map):表示基因定位在染色体特异部位的图谱,通常指定位在双翅目昆虫的多线染色体和人类有丝分裂染色体G带上的基因。物理图(physical map):用限制性内切核酸酶切位点、序列标志位点等分子标记通过凝胶电泳所作出的图谱,其分辨率比遗传图谱和细胞图普高得多。按照其作图方式,可分为限制性酶切图、重叠群图、DNA序列图谱。六、功能基因组学
任务
进行基因组功能注释了解基因的功能认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用手段
消减式杂交(subtraction hybridization)差式杂交(differential hybridization)抑制性消减杂交(suppression subtraction hybridization, SSH)酵母双杂交系统(yeast two-hybridization)基因敲入(gene knockin)(以ES细胞培养技术和同源重组为基础,通过转基因将外源基因整合到特定的靶位点,利用靶位点全套的表达调控元件以实现特异性的异位表达)基因敲除(gene knockout)
(或基因剔除,将一个特地设计的DNA片段导入生物体中,通过同源重组使靶位基因失活的实验技术)基因敲落(gene knockdown)
(用反义技术、RNAi等降低或抑制靶基因的表达活性)基因表达的系统分析(serial analysis of gene expression, SAGE)DNA芯片(DNA chip)蛋白质芯片(protein chip)