高通量测序原理
高通量测序原理是将基因组 DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒 DNA。高通量是相对于第一代测序的,第一代测序只能一次测1个样品的1段序列,产生的数据量相对来说很小,而高通量测序一次能够产生的数据量在几十G上百G,可以一次测很多的样本。高通量测序技术的诞生可以说是基因组学研究领域一个具有里程碑意义的事件。该技术使得核酸测序的单碱基成本与第一代测序技术相比急剧下降,以人类基因组测序为例,上世纪末进行的人类基因组计划花费30亿美元解码了人类生命密码,而第二代测序使得人类基因组测序已进入万美元基因组时代。高通量基因测序检查俗称无创DNA,即抽取孕妇静脉血,进行胎儿染色体的检查,目前进行该项检查的孕妇数目逐渐增多。无创DNA检查具有一定的适应症,符合适应症的孕妇需遵医嘱进行检查。高通量基因测序产前筛查相比血清学产前筛查,费用较为昂贵,约为1900元,筛查率和准确率更高,21-三体筛查的准确率一般可达95%。
高通量测序技术及原理介绍
高通量测序技术及原理介绍如下:1.什么是高通量测序高通量测序技术也被称作二代测序技术(Next Generation Sequencing, NGS),这是相对一代测序技术(Sanger Sequencing)而言的,同时由于高通量测序的出现使得我们能对一个物种的基因组和转录组进行全面、细致的分析成为可能,所以又被称为深度测序(deep sequencing)。高通量测序技术以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志,通过读取多个短DNA 片段,拼接成完整的序列信息。与一代测序Sanger法相比,高通量测序技术在处理大规模样品时具有显著的优势,在测序速度及测序通量上具有无可取代的地位,是目前组学研究中的核心技术。 2.原理将基因组 DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒 DNA。每个每个循环测序反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键。因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),使延长的寡聚核苷酸选择性地在G、A、T或C处终止,并产生荧光标记。最终得到一组长几百至几千碱基的链终止产物,它们具有共同的起始点,但终止在不同的的核苷酸上。通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。
RNA-seq的实验流程
样品提取总RNA后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并加 EB缓冲液洗脱经末端修复、加碱基A,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeq2000进行测序。
RNA-seq原理
测序技术发展:
1977Sanger测序--1996焦磷酸测序--2003cmPCR--2003ZMW---2012纳米孔测序
RNA-seq的一些技术限制,测序误差主要由生物学误差(生物学重复,比如取30只小鼠采样)和技术性误差(技术性重复,比如对1只小鼠采样3次)造成,如果想要得到的数据为无偏的,那么生物学重复最重要,因为生物个体代表着样本,而技术手段只会造成不可控干扰。总的来说,只做技术性重复的实验结果偏差最大,技术性重复+生物学重复的实验结果偏差也可能较大,除非生物学重复远大于技术性重复(因为当生物学重复次数不足时,技术性重复能扩大样本单一的影响),无论如何,多做生物学重复,这有助于你的结论被其他人复现。
原理详解:
A 为了保证细胞在标记的过程中是单独分开的,10X开发了微流体设备(microfuidic device)进行预处理,设备有三个上样孔,分别加入你的1.样本细胞悬液(Sample) 2.凝胶小球(Beads) 3.分离液(Oil),下图为具体设备的示意图。
当我们把样本细胞悬液加入设备时,每一个细胞会与凝胶小球单独结合,然后被分离液包裹,形成一个油包水的密闭小液滴(droplet)。进一步地,细胞和凝胶小球相遇不久后会裂解,释放出里面的各种物质,RNA(mRNA、tRNA、rRNA),蛋白质,脂质,DNA等。实际上Beads上联接了不同的接头,其中有一个接头包含ploy(dT)序列,在细胞裂解后释放的核酸中,只有mRNA带有polyA tail,于是Beads的poly(dT)接头就可以从众多的裂解产物里捕获到mRNA(实际上drop-seq采用3'端测序,就是为了检测polyA tail)。
Master Mix中带有反转录试剂,当mRNA被捕获后,就可以从它的3‘端开始作为模板,进行反转录出cDNA的第一条链,这第一条链就沿着poly(dT)序列延申,长在了beads上,形成了图一7中的STAMPs,接着我们把反转录出来的cDNA序列洗脱,以cDNA的第一条链为模板,进行PCR,合成cDNA的第二条链,然后就是我们熟悉的cDNA扩增以及illumina测序。
如何确定测序序列来自哪个细胞?single cell的RNA-seq和bulk的RNA-seq的最大区别是什么?是barcode,或者说是cell barcode(实际上DNA自带barcode,cell barcode是人为控制的)。每一种single cell的beads上都有着相同的cell barcode(beads与beads间的cell barcode是不同的),假设每个beads只捕获一个cell,那么则每个cell都被cell barcode 单独标记了。
如何保证每个beads只捕获一个cell?第一是控制cell和beads的流速,第二是beads的数目远远超过cell的数目,即绝大多数的beads都是空的,只有少数的才捕获到了cell。但是还是有个别的droplet里面会两个或者更多的细胞,这就需要进行质控(QualityControl)。
接下来可以参照10X Genomics的说明书详解single cell RNA-seq的barcode。
实际上beads上一开始只接了Read1、Barcode、Poly(dT)。
名词解释:
Poly(dT): 用来和mRNA的polyA结合,捕获mRNA
UMI: 用来标记不同的PCR产物(用于count计数)。为了减少由于复制引起的误差(重复抽样导致重复计数),人们在一些单细胞测序的步骤中增加了UMI(unique molecular identifiers),UMIs 是由 4-10 个随机核苷酸组成的序列,在 mRNA 反转录后,进入到文库中,每一个 mRNA,随机连上一个 UMI,因此可以计数不同的 UMI,最终计数 mRNA 的数量。
10X Barcode: 用来标记不同的single cell
Sample Index: 用来标记不同的sample
P5和P7: 用来进行illumina的桥式PCR测序
Truseq Read 1、2: 用来进行连接beads,cDNA的PCR扩增和加P7接头
在这些序列中,P5、P7、Truseq Read 1、2 的序列是已知的。
其他的序列是怎么一步一步添加上去的?
具体步骤:
利用Poly(dT)来捕获mRNA,在mRNA的5'端插入TSO(Template Switch Oligo模板切换低聚糖)引物,然后从mRNA的polyA开始反转录,直至mRNA的DNA序列被转录完成,然后在beads序列的3'端插入CCC,再对mRNA的TSO进行反转录,至此完成了cDNA的第一条链(序列顺序和mRNA逆序)。上述步骤很重要,因为中间cDNA的序列我们是不知道的(仪器测序长度有限),如果不加上这个接头,就没有办法设计引物来合成cDNA的第二条链。
将mRNA溶解,对cDNA的第一条链加入UMI引物,以cDNA的第一条链为模板合成cDNA的第二条链。最后使用PCR(聚合酶链式反应)对cDNA(拷贝DNA)进行扩增(为了富集)。
PCR原理
因为II代测序(NGS)的illumina测序不能测很长的seq,约为200-700bp,所以不能测得mRNA全长,因此需要进一步把合成的cDNA利用酶打断到illumina能测的长度(长度有些随机,比如300bp的cDNA能通过头尾150bp完整测序,但700bp的cDNA只能通过头尾150bp测序+参考基因组推断出来)。然后在cDNA的3'端插入Truseq Read2引物(和Truseq Read1引物匹配为头尾,中间序列就是reads)、P5、P7。
最后的测序数据(reads)从Truseq Read1后的10X Barcode开始,一直到Truseq Read2为止。
PCR扩增是对cDNA单链进行复制,后面的桥式PCR是对完整的样本进行复制(增加数据深度),总的来说各个cDNA呈均匀分布,然后进行抽样。
RNA-seq duplications有PCR duplication(最主要)、cluster duplication、optical duplication。
实际上仪器会对核苷酸进行染色,然后判断颜色确定ATCG碱基,因此有很多原因会导致机器误判,和后续QC有关。
1.某些核苷酸对颜色附着不明显
2.大片区域颜色相同(相同类型核苷酸),而其中仅有几个颜色不同的点(不同类型的核苷酸)
为什么高通量测序dna是深度,rna测序是多少m
由于RNA表达的时空和时间的特异性,所以不同时刻或者是同一时刻不同组织内RNA表达的数目有着较大的差别,所以我们在说RNA的测序数据量时就不能够用测序深度来表示。一般在说RNA测序时会说我们测了多少的cluster, 就是打断后的RNA分子。比如说某一个RNA样本测序用了30M(30million)的cluster,采用双端测序技术,就是每个cluster从两端都测一次,每次测150bp,所以就会得到30M*2=60M的reads数,然后reads数乘以每条read的长度就是我们最后的测序数据量(碱基数),即为60M*150=9G的碱基数。
RNA是测序深度为什么
基因组测序的测序深度一般是10x。
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2m,测序深度为10x,那么获得的总数据量为20m。
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,个体的行为特征及行为合理,如癌症或白血病,运动天赋,酒量等。