1、RNA-Seq 名词解释1.index测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。2.碱基质量值(Quality Score 或 Q-score)是碱基识别( Base Calling)出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。3.Q30碱基质量值为 Q30 代表碱基的精确度在 99.9%。4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)每 1 百万个 map 上的 reads 中 map 到外显子的每 1K 个碱基上的
2、fragment 个数。计算公式为公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端 Reads 数目;Mapped Reads(Millions)表示 Mapped Reads 总数,以 10 为单位;Transcript Length(kb):转录本长度,以 kb 个碱基为单位。5.FC(Fold Change)即差异表达倍数。6.FDR(False Discovery Rate)即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原( 零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制 FDR 来决定 P 值的阈值。7.P 值(P-val
3、ue)即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的 P 值,一般以P0.05 为显著,P0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于 0.05 或 0.01。8.可变剪接(Alternative splicing)有些基因的一个 mRNA 前体通过不同的剪接方式(选择不同的剪接位点)产生不同的 mRNA 剪接异构体,这一过程称为可变剪接( 或选择性剪接,alternative splicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内,主要存在 7 种可变剪接类型:A )
4、Exon skipping;B)Intron retention;C) Alternative 5 splice site;D) Alternative 3 splice site;E) Alternative first exon;F) Alternativelast exon;G) Mutually exclusive exon。9.外显子跳跃(Exon skipping)外显子在前体 mRNA 剪接形成成熟 mRNA 过程中被跳过,最终没有出现在某些成熟 mRNA 上,这种剪接机制被称为外显子跳跃。10. 内含子保留(Intron retention)前体 mRNA 在剪接形成成熟 mR
5、NA 的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。11. 5或 3端可变剪接前体 mRNA 在剪接形成成熟 mRNA 的过程中,5端或 3端边界发生不同方式的剪接,这种剪接机制被称为 5或 3端可变剪接。12.基因结构优化由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。13. 基因间区(intergenic)指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。14. UTR:(UntranslateRegions)非翻译区域。是信使 RNA(mRNA
6、)分子两端的非编码片段。5-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子, 3-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴(Poly-A)的前端。15. ORF(open reading frame)开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。16. CDS(Coding sequence)是编码一段蛋白产物的序列,是结构基因组学术语。DNA 转录成 mRNA,mRNA 经剪接等加工后翻译出蛋白质,所谓 CDS 就是与蛋白质序列一一对应的 DNA 序列,且该序列
7、中间不含其它非该蛋白质对应的序列,不考虑 mRNA 加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。17. 插入片段大小(insert size)通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。18. 分子标记是遗传标记的一种,直接在 DNA 分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。目前常见分子标记主要有 SNP、InDel、SSR 等。19. SNP(Single Nucleotide Polymorphism)
8、即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性。SNP 所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的 SNP 并不包括后两种情况。20. SSR(Simple Sequence Repeat,SSR)即简单重复序列,又叫微卫星序列,指的是基因组中由 1-6 个核苷酸组成的基本单位重复多次构成的一段 DNA,广泛分布于基因组的不同位置,长度一般在 200bp 以下。21. 转换(transition)同类型(嘌呤和嘌呤,或嘧啶和嘧啶
9、)碱基之间的相互替换称为转换。22. 颠换(transversion)不同类型(嘌呤和嘧啶)碱基之间的相互替换称为颠换。23. RNA 编辑(RNA editing)是指在 mRNA 水平上改变遗传信息的过程。具体来说,指基因转录产生的 mRNA 分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。24. 差异表达转录本(DifferentiallyExpressed Transcript,DET)指表达水平存在显著差异的转录本。25. 差异表达基因(Differentially Expressed Gene,
10、DEG)指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。26. 生物学重复(Biological Replicates)可以定义为使用来自不同抽提的 RNA 样本进行杂交,例如,同一来源独立制备的样本,或者不同来源的样本(不同组织或者一个细胞系的不同培养物)。27. 技术重复使用同一个抽提的 RNA 进行实验称为技术重复。与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。28. 皮尔逊相关系数 r(Pearsons Correlation Coefficient)用于度量两个变量 X 和 Y 之
11、间的相关(线性相关),其值介于-1 与 1 之间。其中,1 表示变量完全正相关,0 表示无关, -1 表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近 1,说明两个重复样品相关性越强。29. UnigeneUnique Gene 的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。30. Contig高通量测序中利用软件将具有一定长度 overlap 的 reads 连成更长的片段,这些通过 reads overlap关系得到的不含 N 的组装片段称之为 Contig。31. Scaffold高
12、通量测序中 reads 经过拼接获得 Contigs,Contig 经过确定先后顺序用 N 连接起来组成Scaffold。32. Contig N50Reads 拼接后会得到长度不同的 Contigs。将所有 Contigs 的长度相加后获得一个 Contig 的总长度。之后将所有 Contig 按照序列长度由短到长进行排序,如获得 Contig1,Contig2 ,Contig3. 。将Contig 按照这个顺序一次相加,当相加的长度达到 Contig 总长度的一半时,最后一个加上的 Contig 长度即为 Contig N50。33. componentTRINITY 软件拼接过程中,由于
13、 contig 的构造方法,使得各个 contig 之间不可能共享 k 个以上序列,因此这些 inchwormcontigs 不能很好的表征各种可变剪切形式和同源基因等情况,软件中“chrysalis”这一步骤将那些有重叠的 contigs 聚类,构成 components。component 就成为一组可变剪切 isoform 或同源基因可能的表征的集合。34. de Bruijn graph使用 TRINITY 软件拼接时,在“chrysalis”步骤中会将 component 通过 overlap 关系构建成 de Bruijn 图,便于获取可变剪切的序列。35. 数字基因表达谱(Dig
14、italGene Expression Profile,DGE )利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。36. small RNA对长度在 18-40bp 的短 RNA 进行序列、结构、表达、功能上的分析,主要进行miRNA,siRNA,piRNA 几种类型 sRNA 的分析;可与 mRNA 关联分析。37. ncRNA(non-coding RNA)非编码 RNA。指不编码蛋白质的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多种已知功能的 RNA,及未知功能的 RNA
15、。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在 RNA 水平上行使各自的生物学功能。38. 降解组测序(Degradome Sequencing)利用高通量测序平台,针对 miRNA 介导的剪切降解片段进行深度测序,从中筛选 miRNA 作用的靶基因,并结合生物信息学分析确定降解片段与 miRNA 的精确配对信息。该技术能从细胞或组织中准确高效的筛选出 miRNA 的靶基因,为研究 miRNA 与其对应的靶基因的相互关系提供准确、高效的筛选手段。39. lncRNA( long noncoding RNA)长链非编码 RNA。在长度 200-100000nt 之间,不具有编码蛋白
16、功能的转录本。40. 正链/负链(plus strand/minus strand)对于一个基因来说,DNA 的两条链中有一条链作为 RNA 合成时的模板,这条链叫负链,另一条叫正链。41. 反义链/有义链(antisense strand/sense strand)在双链 DNA 中,用来转录 mRNA 的 DNA 链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补配对原则,转录出的 mRNA 链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的 T mRNA 链中全部置换成了 U。正是由于非模板链的
17、碱基序列实际上代表了 mRNA 的碱基序列(只不过在 mRNA 中 T 换成了 U),因此非模板链又被称为编码链( coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录 mRNA 的 DNA 链被称为非编码链(anticoding strand)或反义链(antisense strand)或沃森链(watson strand)。42. 链特异性(strand specific):链特异性建库,可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。(研究表明:很多基因组区域具有正负链
18、的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。对于原核以及低等真核生物的基因组,常常具有重叠基因。43. GO(Gene Ontology)基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因何蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构(分子功能、生物学途径、细胞组件)的系统定义方式,用于描述基因产物的功能。网址:http:/www.geneontology.org/。44. BSR(Bulked Segregant RNA sequen
19、cing)将转录组测序与集群分离分析相结合,在转录组范围内开发 SNPs,筛选与性状紧密连锁的SNPs,进行功能基因的定位,同时进行基因差异表达分析等转录组常规分析的技术。45. eQTL以一个分离群体中不同个体(基因型)或者是其它有遗传结构的群体作为样本,运用 QTL 分析方法分析特定基因转录丰度差异而得到的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式,并且作为一个性状来分析(e Trait)。46. COG/KOGCOG 是 Clusters of Orthologous Groups of proteins 的简称,KOG 为 euKaryotic Ortholog Gro
20、ups。这两个注释系统都是 NCBI 中基于基因直系同源关系的数据库,其中 COG 针对原核生物,KOG 针对真核生物。COG/KOG 结合进化关系将来自不同物种的同源基因分为不同的 Ortholog 簇,目前COG 有 4873 个分类, KOG 有 4852 个分类。来自同一 ortholog 的基因具有相同的功能,这样就可以将功能注释直接继承给同一 COG/KOG 簇的其他成员。详见 http:/www.ncbi.nlm.nih.gov/COG/。47. Nr(NCBI non-redundant protein sequences)是 NCBI 官方的蛋白序列数据库,它包括了 GenB
21、ank 基因的蛋白编码序列, PDB(Protein Data Bank)蛋白数据库、SwissProt 蛋白序列及来自 PIR(Protein Information Resource)和 PRF(Protein Research Foundation)等数据库的蛋白序列。根据 nr 注释信息我们能得到 GO 功能注释。48. KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等。KO(KEGG ORTHOLOG)系统将各个 KEGG 注释系统联系在一起,KEGG 已建立了一套完整 KO 注释的系统,可完成新测序物种的基因组或转录组的功能注释。详见http:/www.genome.jp/kegg/。49. Rfam 是 ncRNA 注释库包含 rRNA,tRNA,snoRNA,snRNA 等类型非编码 RNA。详见 http:/rfam.xfam.org/。