导航:首页 > 数据分析 > gwas的数据是从哪里来的

gwas的数据是从哪里来的

发布时间:2022-09-03 18:44:43

㈠ gwas的工作原理

GWAS(Genome-wide association study),即全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。
GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。GWAS一般采用非假说驱动。由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证遗传标记与疾病间的真关联。

分析原理
基于无关个体的关联分析
病例对照研究设计:主要用来研究质量性状,即是否患病。
基于随机人群的关联分析:主要用来研究数量性状。
基于家系的关联研究
在研究基于家系的样本时,采用传递不平衡检验(TDT)分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。
FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。
单倍型分析研究的必要性:多位点单倍型分析能够发现单倍型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。
单倍型分析能够发现非TagSNPs与疾病之间的因果关系。
表型选择
选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度。
由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。
由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关系,因此一般选择测量简单准确并且遗传度相对较高的数量表型。
设计类型
单个阶段研究
单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,计算其关联强度和OR值。由于样本数量需求量大,单阶段研究基因分型一般耗资巨大。
两个或多个阶段研究
采用小样本数量进行第一阶段的全基因组范围SNP基因分型,统计分析过后一般能够筛选少量阳性SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量,能够进行低成本高效益的SNP筛选。

㈡ 如何利用GWAS定位复杂性状

全基因组关联分析(Genome-wideassociationstudy;GWAS)是应用基因组中数以百万计的单核苷酸多态性(singlenucleotideploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年,Science杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动,此后一系列GWAS陆续展开。2006年,波士顿大学医学院联合哈佛大学等多个研究报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert等.2006);2007年,Saxena等多个研究组联合报道了与2型糖尿病(T2D)关联的多个位点,Samani等则发表了冠心病GWAS结果(Samani等.2007);2008年,Barrett等通过GWAS发现了30个与克罗恩病(Crohns'disrease)相关的易感位点;2009年,Weiss等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12000多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5个红斑狼疮易感基因,并确定了4个新的易感位点(Han等.2009)。截至2009年10月,已经陆续报道了关于人类身高、体重、血压等主要性状,以及视网膜黄斑、癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果,累计发表了近万篇论文,确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。)标记基因的选择:1)HapMap是展示人类常见遗传变异的一个图谱,第1阶段完成后提供了4个人类种族[Yoruban,NorthernandWesternEuropean,andAsian(ChineseandJapanese)]共269个个体基因组,超过100万个SNP(约1SNP/3kb)及连锁不平衡区域(linkagedisequilibrium,LD)关系的图谱。第二阶段增加了其它的人类种族数据。基于HapMap可以选择到个覆盖全基因组的SNP。2)基因组拷贝数变异(V)是20世纪80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。是指与参考序列相比,基因组中?1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异。与SNP相似,V在不同人群中以不同频率分离并具有显著性差异,并可能影响基因表达和表型改变,V也是一种引起疾病或增加复杂疾病发病风险的重要遗传变异。GWAS采用的研究方式与传统的候选基因病例—对照(case-control)关联分析一致,即如果人群基因组中一些SNP与某种疾病相关联,理论上这些疾病相关SNP等位基因频率在某种疾病患者中应高于未患病对照人群。动物重要经济性状即复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。GWAS的具体研究方法与传统的候选基因法相类似:1)单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP进行基因分型,然后分析每个SNP与目标性状的关联,统计分析关联强度和OR值(计算出的OR值等于1时,则该因素的疾病发生不起任何作用;大于1时,该因素为危险因素;小于1时,该因素为保护因素。)。2)目前GWAS研究主要采用两阶段方法/多阶段方法。

㈢ GWAS研究中样本数量和结果真实有效性之间是怎样的

GWAS原理部分可以参考Fisher's exact test,把链接里的例子中,男人/女人替换成有病/没病,节食替换成SNP/CNV,给出的p值表示SNP与疾病如果是完全独立的,那么由随机分布导致的odd ratio比现在更显著的概率。1e-8的p值可能看起来很显著,但考虑到人类的SNP数量可能在千万级,综合Multiple comparisons problem的校正的话,那么这个p值一点都不显著。这就是一个由数据得出结论的纯统计问题,说不上什么硬伤,花精力啃下多重检验校正和假阳性率的统计资料。人类的GWAS热潮已过了,要说有什么效果的话,就是砸了钱打了不少水漂,得到的结果相对投入来讲,寥寥。农业上GWAS现在很热,原因一方面取样比人简单,性状也容易标准化,且大多只当作一个育种筛选的分子marker,很少再继续研究功能的。要做SNP的话,技术有很多,主要划分是考虑通量与成本。测序做SNP主要是resequencing做新SNP发现这块。二代是主要手段,因为成本。三代的优势在于,当需要考虑phasing信息,即数kb片段内的SNP位点连锁信息时,是唯一的选择。resequencing是resequencing,de novo是de novo,这是两个问题,de novo一律都是选片段长的效果更好,当然考虑成本的话,大家都懂。做复杂的结构变异的话,在不同的尺度上有不同的技术,二代理论上都可以做,但实际上在每个特定尺度下,都不是最好的选择。做拷贝数变异的话,那么最好的技术,是OncoScanHD(芯片)上使用的倒置探针技术,线性范围可以到50倍。简单的串联重复到数kb内的变异,三代优势项目。数十kb到兆b级的,最佳技术是Bionano Irys光学图谱系统,再大的话,手段就更多了。单倍型解析主要依赖的是高质量的SNP数据库程序算法之类的话,考虑性能和通量其实也就那几个可以选。

㈣ 【豆科基因组】大豆适应性位点GWAS分析[转载]

本文利用99085个高质量SNP 通过STRUCTURE,PCA和neighbour-joining tree的群体结构分析将地方品种分为三个亚群,这些亚群表现出地理上的遗传分化。利用纬度相差10°的两个位置(北京、武汉)收集的表型数据,鉴定了17个与开花时间性状相关的SNP(TAS),包括一个稳定的基因位点Chr12:5914898和以前未检测到的在开花基因E1和E2附近的候选基因。利用与地方种收集地点相关的已公布数据,鉴定出与三个生物气候学变量(温度,日长和降水)相关的27个SNP。在12个生物气候TASs的连锁不平衡(LD)区域内检测到一系列候选开花基因。其中9个TASs在开花时间上表现出显著差异。在44个开花和生物气候TASs中,有38个检测到了驯化、地方品种多样化和适应过程中的选择信号。

测序材料 :2368个种质材料,包括112个野生种(选自中韩俄日,代表广泛的生态地理范围),和2256个地方种(可代表核心种质的表型多样性和地理分布的中国主要的地方种)

测序平台: Life Technologies’ Ion Proton Systems

数据量: 0.75T

筛选后的97个野生种和1938个地方品种(地方种据其地理分布及种植季节类型分为7类);414个核心地方种质

开花时间表型鉴定材料: 2256个地方种,分别种于7月武汉(30.5°N, 114.3°E)、6月北京(40.1°N, 116.7°E),各两次重复;414份核心种质种于广西(2009-2011年)的南宁(7月中),北京(2011-2012)的昌平(5月初,春季型)、顺义(6月末,夏季型),三年2~3次重复。

地理和气候变量: 利用已知数据获得不同品种的经纬度及海拔的坐标,利用坐标在生物气候网站BioClim ( http://www.worldclim.org/bioclim,version 1.4)查询其对应的生物气候变量:年温度变化范围(TAR)及年降水量(AP),最大日光长度(MDL)的计量以表型鉴定为准。

群体结构分析方法

群体结构:软件STRUCTURE

Neighbor-joining tree:APE(V3.2)

PCA:PLINK(V1.9)

Qst-Fst比较:Pstat (V1.2)

LD:PLINK (V1.9)

参考基因组:*Glycine max *Wm82.a2.v1

图1 不同基因型种质的地理分布和大豆基因组的特性。

A:7种生态型:东北春季型(NESp),北方春季型(NSp),黄淮春季型(HSp),黄淮夏季型(HSu),南方春季型(SSp),南方夏季型(SSu) )和南方秋季型(SAu)。

B:20条大豆染色体上共获得99085个SNP。最外圈:大豆20条染色体,灰色为染色体杂合区域,黑色为染色体臂。a:基因密度 b:SNP密度 c-f依次为:野生种、SR、HR、NR的遗传多样性。

多态性、群体结构和多样性

对2035个种质材料进行群体结构分析,共鉴定出1类野生型(wild),三类地方种的亚群(北方种NR,黄淮种HR,南方种SR),和一类混合基因组种质(mixed)。对群体分化程度的鉴定表明,虽然地方种比野生种的数量大20倍,但地方种仍比野生种存在更多的LD(图2D), SNPs更少,多样性也更少(表S5)。选择性清除分析(Fst)的比较结果表明HR和SR之间遗传分化程度最大(0.164),其次是NR与SR(0.136),NR与HR之间差异最小(0.077)。

图2群体结构和连锁不平衡分析

A:样本按生态类型和采集地点的纬度排列

B:对1938个地方种和97个野生种的群体结构分析(K=4)

C:根据99085个SNPs对2035个种质的PCA分析

D:LD衰减距离,landrace代表混合地方种

生物气候变量和开花时间的变化

不同地理位置上开花时间与生物气候变量呈现显著的相关性(图S4),两个地方的每个种质的开花时间也显著相关(图S5)。这些结果表明,虽然可以根据环境因素(不同地点)推测其开花时间,但是同一地点的不同品种间开花时间应主要受遗传因素控制。

图s4 北京和武汉不同气候变量与开花时间的相关性比较

图s5 北京和武汉三个大豆地方种群开花时间的变化

开花时间的GWAS分析

利用GWAS鉴定与开花时间相关的基因,共关联到18个相关位点,代表17个TASs,同时在武汉和北京的Chr12:5914898位置关联到同一个位点。对414份核心种质材料在其余三个地点的GWAS分析,进一步验证了该结果。

图3 地方种开花时间性状相关位点(TASs)的鉴定分析

ABEFG:五个地点开花时间的GWAS分析的曼哈顿图,北京、武汉所用材料为1938个地方种,昌平、顺义、南宁三个地点所用材料为414个核心种质。

灰色水平线表示1%阈值线

红色垂直线表示两个克隆的开花时间基因 E1 、 E2 的基因组位置。

CDHIJ:每个地方种携带早开花位点的TASs数量与开花时间的相关性

生物气候因素的GWAS分析

文中利用GWAS分析鉴定了与三个生物气候变量(温度/TAR,日长/MDL,降水/AP)的适应性相关的基因座,共鉴定到29个显著关联位点,对应27个独特的TASs(图S9)。其中两个SNPs(Chr02:6487107和Chr15:23361474)均分别与MDL和TAR相关。

图s9 大豆地方种与生物气候因素相关的GWAS分析

大豆驯化过程中选择信号的检测以及适应过程中地方品种的多样化

研究比较了地方种和野生种之间的Fst和等位基因频率比较,评估了这些生物气候TASs和开花时间的遗传分化间的关系。17个开花时间TASs和27个生物气候TASs的大部分均在驯化过程中存在强选择。在44个TASs中,有11个同时在驯化、地方种多样化和适应性中经历了选择,有3个仅在驯化过程中经历了选择,24个仅在地方种多样化和适应性中经历了选择,有6个没有表现出被选择。这些分析结果说明了自然和人工选择对特定环境适应性的作用及生物气候变量对大豆地方种之间遗传变异模式的影响。

开花候选基因/QTL的鉴定

E1 、 E2 基因是已知影响开花的基因。文中鉴定到的三个TASs(Chr06:19873100,Chr06:20003061和Chr06:20355903)位于Chr06上 E1 基因附近,且对开花时间的影响不同,在不同的地区表现出不同的表型变异,其地理分布也表现出不同的模式。说明在 E1 附近可能存在一个或多个以前未检测到的开花时间相关基因。

在E2基因附近检测到两个强关联位点Chr10:45520960和Chr10:45521328,通过对携带不同基因型的不同亚群之间表型鉴定,检测到开花时间的显著差异,表明 Glyma.10G224500 是开花时间的相关候选基因。

利用北京和武汉两地点的实测开花时间数据,通过GWAS鉴定了第12号染色体上的两个开花时间TASs(Chr12:5470311和Chr12:5914898)。Chr12:5470311位点与拟南芥开花基因同源且与一开花时间相关TAS连锁;Chr12:5914898位于编码Cyclic Nucleotide-gated Ion Channel 15-Related蛋白的基因 Glyma.12G076800 的内含子上;经表型(图4C,D)及Fst和等位基因频率分析鉴定(图4E)表明两位点均参与了开花时间的调控。

图4 开花时间位点Chr12:5470311和Chr12:5914898的鉴定

㈤ 如何使用Python绘制GWAS分析中的曼哈顿图和QQ图

曼哈顿图和QQ图是两个在全基因组关联(GWAS)分析里面最常出现的图形,基本上已经是GWAS的标配,几乎在每篇GWAS的文章都会见到,它们的作用和所要传达出来的信息我也在上一篇关于GWAS的博文中做了些说明,在这里我们就只集中在如何用Python和geneview将其有效地展现出来。
首先,准备一些数据来作为例子。
我这里用来展现的数据是2011年丹麦人所做过的一个关于年轻人过度肥胖的GWAS研究——GOYA,数据也是从他们所发表的结果中获得,总共有5,373个样本,其中超重的个体(case)有2,633个,正常的个体(control)是2,740个,从样本量上看还算可以。为了方便使用,我对其做了相关的处理,包括从PED和MAP文件到GEN文件的生成,并重复了一次case-control的关联性分析,计算出了芯片上所研究的各个SNP位点与肥胖相关的显著性程度(即p-value),最后又将结果数据抽取出来做成数据集——放在这里供下载(15.6Mb,csv格式)。
【注】以上内容虽提及到了一些领域内术语和相关文件格式,但若不懂也请不必纠结,因为后续处理都是基于这个最终的数据集来完成的。
接着,需要将geneview软件包加入到你的Python中,有多种不同的方式,但推荐直接使用pip,以下是安装比较稳定的发布版,直接在终端命令行下(linux or Mac)输入:
pip install geneview
或者,也可以直接从github上安装正在开发的版本
pip install git+git://github.com/ShujiaHuang/geneview.git#egg=geneview

㈥ GWAS-1 简介-翻译

GWAS(genome-wide association study)主要用于研究相关性状的主要效应。其思想是利用覆盖全基因组的高度密度SNP标记,通过对每个SNP标记或SNP单倍型与性状的关联分析,直接找到影响性状的QTN或与数量性状核苷酸(quantitative trait nucleotide,QTN)处于高度连锁不平衡的SNP。
通过一定算法关联SNP与性状的关系,这需要对结果进行度量,其有多种算法。
对于SNP的从编码也有多种,主要的是加性编码,其中SNP的基因型用0、1或2表示,以指示非参考等位基因的数量。其他可能的编码是显性编码,其中纯合指代基因型编码为0,其他基因型编码为1,而隐性编码,其中纯合替代基因型编码为1,其他基因型编码为0

1.1 数量性状通常使用广义线性模型(GLM)方法进行分析,最常见的是方差分析(ANOVA),它类似于带有分类预测变量的线性回归,在这种情况下是基因型类别。使用单个SNP进行ANOVA的假设是,任何基因型组的特征均值之间没有差异。GLM和ANOVA的假设是:1)性状是正态分布的;2)每组内的特征差异相同(各组是同方差的);3)组是独立的。

1.2 通常使用列联表法或逻辑回归分析二分病例/对照特征。列联表检验检查并测量在表型和基因型类别之间没有关联的零假设下预期的独立性偏差。该测试最普遍的形式是流行的卡方检验(以及相关的费舍尔精确检验)。
Logistic回归是线性回归的扩展,其中线性模型的结果使用逻辑函数进行转换,该逻辑函数可根据基因型类别预测案例状态的可能性。Logistic回归通常是首选方法,因为它允许对临床协变量(和其他因素)进行调整,并且可以提供调整后的比值比来。
NP的基因型也可以分为基因型类别或模型,例如显性,隐性,乘性或加性模型。编码的不同,会给研究带来不同的结果。

协变量调整可减少由于研究伪影或研究设计中的偏差而造成的虚假关联,但是调整是以使用可能影响统计功效的额外自由度为代价的。
当用作协变量时,这些得分会针对数据中的微小祖先效应进行调整。

对于不同遗传背景的群体混合在一起是影响WAS分析结果可靠性的主要因素之一。
一般对所有数据进行PCA分析,查看前两个PCs的图。
如果分层,需要校正,目前主要的方法有:基因组控制法(genomic control, GC), 结构关联法(structured assocaiation, SA)和主成分分析法(principal componets).
Q-Q图: 以每个SNP的检验统计量的观察值和在原假设(SNP与性状无关)下的期望值为数据对。
P 值的曼哈顿图都是以-lg(P)表示Y值。

对于每个统计检验,都会生成一个p值,即看到一个检验统计量等于或大于观察到的检验统计量(如果原假设为真)的概率。这实际上意味着较低的p值表示如果没有关联,则看到此结果的机会非常小。

多重检验可导致I型错误扩大和假阳性关联,因而需要对多重检测校正。
那如何对多重检验进行校正是GWA研究所面临的重要问题之一。 目前常用的方法有:Bonferroni校正,递减调整法(step-down adjustment),数据重排法(data permutaton),Benjamini-Hochberg, 和控制错误发现率法(false discovery rate, FDR)等. Bonferroni校正是最保守和严格的一种,但是应用较为普遍,公式:
Ps = γ / N, Ps是每次检测欲达到的显著要求的P值的阈值,γ 是所要求的总的范I性错误的概率, N是实际分析中使用的SNP数

统计检验通常被称为有效检验,如果p值低于预定义的alpha值(几乎始终设置为0.05),则无效假设会被拒绝。这意味着在5%的情况下,原假设实际上是真的,而我们检测到假阳性,则原假设被拒绝。该概率是相对于单个统计检验而言的;就GWAS而言,进行了数十万至数百万次测试,每个测试都有其自己的假阳性概率。因此,在整个GWAS分析中发现一个或多个误报的累积可能性要高得多

修正多重测试的最简单方法之一是Bonferroni修正。Bonferroni校正将alpha值从α= 0.05调整为α=(0.05 / k),其中k是进行的统计检验的次数。对于使用500,000个SNP的典型GWAS,SNP关联的统计显着性应设置为1e-7。此校正是最保守的,因为它假定500,000的每个关联测试均独立于所有其他测试-由于GWAS标记之间的连锁不平衡,这一假设通常是不正确的。

调整误报率(alpha)的另一种方法是确定误发现率(FDR)。错误发现率是对重要结果(通常为alpha = 0.05)中误报所占比例的估计。在GWAS数据集中没有真实关联的零假设下,关联测试的p值将遵循均匀分布(从0到1均匀分布)。FDR程序最初由Benjamini和Hochberg开发,从本质上 纠正 了预期的错误发现数量,从而提供了对那些被称为“重大发现”的真实结果的估计[[33]]。这些技术已广泛应用于GWAS,并以多种方式扩展[[34]]。

置换测试是在GWAS中建立重要性的另一种方法。尽管计算量大,但置换测试是在原假设为真时为给定数据集生成测试统计量的经验分布的直接方法。这是通过将每个个体的表型随机重新分配给数据集中的另一个个体来实现的,从而有效地打破了数据集的基因型与表型之间的关系。数据的每次随机重分配代表在原假设下对个体的一个可能采样,并且此过程重复了预定的次数N以生成分辨率为N的经验分布,因此N为1000的置换过程给出了经验p 1/1000内-VALUE 日 小数点后一位。已经开发了几种软件包来执行GWAS研究的置换测试,包括流行的PLINK软件[[35]],PRESTO [[36]]和PERMORY [[37]]

全基因组关联研究为检查整个基因组的遗传变异之间的相互作用提供了巨大的机会。然而,多场所分析并不像进行单场所测试那样简单,并且提出了许多计算,统计和后勤方面的挑。

因为大多数GWAS基因型介于500,000个和一百万个SNP之间,所以即使对于高效算法,检查SNP的所有成对组合也是一种计算上棘手的方法。解决此问题的一种方法是减少或过滤基因型SNP的集合,从而消除冗余信息。过滤SNP的一种简单而通用的方法是,根据任意重要性阈值从单SNP分析中选择一组结果,并详尽地评估该子集中的相互作用。但是,这可能很危险,因为基于主要效应选择要分析的SNP将阻止检测到某些多位点模型-所谓的“纯上位”模型,其边际效应在统计上是不可检测的。使用这些模型,遗传力的很大一部分都集中在交互而不是主要效果上。换句话说,标记物的特定组合(仅标记物的组合)引起疾病风险的显着变化。这种分析的好处在于,它对所选SNP集合内的相互作用进行了无偏性分析。与分析所有可能的标记组合相比,它在计算和统计上也更容易处理。

另一种策略是将SNP组合的检查限制为属于已建立的生物学环境(例如生化途径或蛋白质家族)中的那些组合。由于这些技术依赖于结构化生物医学知识的电子存储库,因此它们通常将生成SNP-SNP组合的生物信息引擎与评估GWAS数据集中组合的统计方法结合使用。例如,生物过滤器方法使用了各种公共数据源,以及逻辑回归和多因素降维方法[[40]], [41] 。同样,INTERSNP使用逻辑回归,对数线性和列联表方法评估SNP-SNP相互作用模型 [42] 。

简而言之,复制研究的一般策略是尽可能重复进行GWAS的确定和设计,但仅检查在GWAS中发现的显着遗传效应。两项研究中一致的效应可以标记为重复效应。
荟萃分析的基本原理是,所有纳入的研究都检验了相同的假设。因此,每个纳入研究的总体设计应相似,并且研究水平的SNP分析应在所有研究中遵循几乎相同的程序(参见Zeggini和Ioannidis [47] 以获得出色的评价)。确定每个站点包含哪些SNP的质量控制程序以及所有协变量调整均应标准化,并且多个站点之间临床协变量和表型的测量应保持一致。所有研究的样本集都应该是独立的–由于研究人员经常将相同的样本贡献给多个研究,因此应该经常检查这一假设。同样,一个极其重要且有点麻烦的后勤问题是要确保所有研究报告相对于常见基因组构建和参考等位基因的结果。如果一项研究报告了其相对于等位基因的结果,此SNP的荟萃分析结果可能并不重要,因为两项研究的效果相互抵消。
考虑到所有这些因素,很少能找到在所有条件下都完全匹配的多项研究。因此,经常在荟萃分析中对研究异质性进行统计量化,以确定研究之间的差异程度。研究异质性最流行的度量是I2指数I2指数在最近的研究中更受青睐。由荟萃分析得出的系数具有可变性(或误差),并且I指数表示该可变性的近似比例,这可以归因于研究之间的异质性。I2值分为低(<25),中(> 25和<75)和高(> 75)异质性,并且已被提议作为一种识别可能应该从荟萃分析中删除的研究的方法。重要的是要注意,这些统计数据应被用作识别可能与荟萃分析中其他假设不同的基础假设的研究的指导,就像离群分析被用来识别影响力过大的观点一样。但是,与异常值一样,仅在有明显理由基于研究参数进行研究时才应将其排除在外–不仅仅是因为统计数据表明该研究会增加异质性。否则,旨在减少荟萃分析异质性的不可知统计程序将增加错误的发现

google翻译文章:Bush WS, Moore JH. Chapter 11: Genome-wide association studies. PLoS Comput Biol. 2012;8(12):e1002822. doi: 10.1371/journal.pcbi.1002822. Epub 2012 Dec 27. PMID: 23300413; PMCID: PMC3531285.
“Exploration of a diversity of computational and statistical measures of association for genome-wide genetic studies” ( https://doi.org/10.1186/s13040-019-0201-4 )

㈦ GWAS基本概念

文章来自:Concepts and relevance of genome-wide association studies

我觉得读完这篇文章需要认识SNP, Haplotype, alleles, LD这些基本概念。部分内容由于理解不到位,所以没翻译。尽量看原文理解吧,有错的话请见谅!

摘要:全基因组关联分析(GWAS)技术在过去10年中一直是鉴定疾病和其他性状相关基因的主要方法。已经有超过2000份人类GWAS报告。这项技术还在不断改进,研究人员最近可以研究各种动物、植物和模式生物。在这里,我们将概述GWAS的概念:基础生物学,方法的起源,以及GWAS实验的主要组成部分。

Keywords: genome-wide association study, genetics, statistics, gene discovery

最初开发GWAS是为了研究人类基因组。人类基因组是由超过30亿个DNA碱基组成的序列,可以用AGCT四个字母表示。在整个人类中,许多基因组序列是相同的或高度保守的,但每个人的基因组都是独一无二的。一个特定的人的基因组序列可能与标准的人类参考基因组有超过300万个不同的位置。每一代都有新的突变被引入到基因组中,现在在所有人群中广泛观察到许多旧的突变。这些常见的突变(common mutations)通常被称为变异或多态性(variants or polymorphisms)。

最常见的变异类型是单核苷酸多态性(SNP),其描述单个DNA碱基的变化。同一基因在同一位点上含有不同形式的snp,通常称为等位基因(The different forms of the same gene containing variable SNPs within the same site(s) are typically called alleles)。GWAS方法主要关心在每个研究对象中确定与各种snp相关的等位基因,并进行统计比较以识别与特定性状相关的snp或基因(就是用SNP和群体的表型数据进行统计学关联)。如果某种等位基因在患有疾病的人中比其他健康人更常见,这就被解释为这种等位基因或附近的另一种变异可能导致疾病或至少增加疾病风险的证据(一定要注意直接关联的SNP并不一定是致病SNP,与它邻近的可能也是)。

大多数snp是由某个历史突变事件引起的。由于这个祖先,每一个新的等位基因最初都与其所在的特定染色体的其他等位基因相关联。在单个染色体或染色体部分区段上观察到的特定的一组等位基因称为单倍型(说白了,单倍型是某段染色体区域的一串SNP)。在减数分裂过程中,新的单倍体是通过额外的突变或染色体重组(也称为交叉)形成的。单倍型往往是保守的,特别是在最近有共同祖先的个体中(见fig 1)。在GWAS中,单倍型保守性是一个非常重要的因素。导致某一特定性状的遗传变异可能无法在GWAS中直接检测,但通过同一单倍型内发生的snp的关联,其信号可能是明显的(这是GWAS的核心,上面也有提到)fig2。(The nonrandom co‑occurrence of alleles within a chromosome or haplotype is called linkage disequilibrium, or LD. The degree of LD in a population is shaped by selection, recombination rate, mutation rate, consanguinity and other factors)染色体或单倍型内等位基因的非随机共现称为连锁不平衡,或LD。LD在群体中的程度是由选择、重组率、突变率、血缘和其他因素决定的。

The origins of GWAS

使得GWAS成为可能的是21世纪早期的科学进展。人类基因组计划的完成大大提高了我们对人类基因组的认识,为基因变异的研究提供了更好的背景。国际人类基因组单倍型图计划于2005年完成了第一阶段,开展了一项史无前例的SNP发现计划,并首次提供了详细的人类单体型和LD图谱。这些科学成就使人们有可能识别出相对少量的snp,这些snp能够代表人类基因组中大多数常见的变异。GWAS的时代诞生于生物技术公司,包括Affymetrix、Illumina和Perlegen推出了竞争平台,同时对数十万个snp进行基因分型。

2005年,国家人类基因组研究所和欧洲生物信息学研究所进行了对年龄相关性黄斑变性(AMD)的分析。作为第一个GWAS研究,这项研究分析了146名研究对象的约10万个snp,确定cfh基因是AMD的主要风险因子。从此,GWAS每年都会发布数百份报告。近年来发表的人类GWAS研究的数量已经趋于稳定,但研究群体的平均规模继续增长(表1)。目前最大的GWAS研究可能包括超过10万名受试者。(人类GWAS数量是极多的,植物在1000份以上就是超大规模了。动物的样本有时候少的只有几十个)。

GWAS研究可以研究质量或者数量性状位点。在GWAS研究设计中必须考虑几个问题,包括基因分型平台的选择、样本量和样本收集、统计分析计划、统计能力、多重检验的校正和群体结构。

GWAS的基因型数据通常是微阵列检测,该技术可以检测群体内的多态性。基因微阵列涉及三个基本原则:

1.DNA微阵列固定特意等位基因的寡核苷酸探针,这些探针是人工合成DNA的短片段,与目标DNA序列互补;

2.目标物的核酸片段序列,用荧光染料标记;

3.检测和记录杂交信号的系统。

有许多不同的微阵列或“芯片”可用于人类和非人类。一些芯片被设计用来测试尽可能多的snp——目前大约有500万个。有些芯片是专门设计来测试基因编码区域的snp的,这些编码区域约占基因组的2%。其他芯片可能测试相对较少的snp,这些snp是经过精心挑选的,可以有效地代表全世界的单倍型多样性。一些芯片是为特定的种族设计的,或者可能富含与特定疾病相关的基因的snp。在选择基因分型芯片时,重要的是要考虑当前项目的目标,与过去或计划的未来研究数据的兼容性,以及可用的预算。

GWAS研究的下一个目标是收集和记录所需的表型,可以是定量的(整数或实值)或二分的(病例对照)。数量性状可以提供更多的统计力来显示遗传效应,但病例对照研究设计也可以有效地识别与表型相关的多个基因。我们可以在文献中看到例子。

一旦收集到样本并进行基因分型,就可以开始进行全基因组关联的统计分析。这一过程首先进行彻底的质量控制分析,以确认基因型数据的准确性。对每个SNP进行统计假设检验,0假设与表型无关。根据测试的是哪种类型的特质,有许多关联测试可用。数量性状一般采用线性回归方法进行分析,假设性状是正态分布的,各组内方差相同,各组之间是独立的。流行的分析包括方差分析和GLM。二元性状通常使用logistic回归或诸如x2或Fisher精确检验等检验进行分析;logistic回归之所以流行,是因为它允许对其他协变量进行调整。

在GWAS中,统计能力和多重检验校是很重要的问题。在测试大量snp时,假阳性相关性是一个很大的风险,因此必须对相关性的统计证据保持较高的标准。人类GWAS研究中典型的显著性阈值为,P值小于5e - 8,相当于100万独立试验的标准Bonferonni校正。具有较大遗传多样性的种群,例如非洲群体,可能需要更严格的标准来确定测试结果是否具有统计意义。为了达到这样的显著性水平,可能需要非常大的样本量,特别是对于罕见病等位基因和效应值较小的等位基因(Figure 4)。GWAS的统计能力受到许多因素的影响,其中一些因素超出了研究者的控制范围。这些因素包括:表型遗传结构的复杂性,疾病等位基因的频率和效应大小,表型测量的准确性和表型的同质性,以及因果变异和snp之间的LD关系。

标准GWAS检验统计假设分析中的所有样本都是不相关的,并且是从一个统一的随机交配群体中选择的。任何偏离这一假设的行为都可能导致意想不到的结果,尤其是在大型研究群体中(在特定时间段内遭遇特定事件的受试者群体)。例如,如果某一种族的个体在一个实验的对照组中被高估了,由于该种族独特的遗传背景,整个基因组的检测结果的显著性可能会不断膨胀。主成分分析(PCA)可用于基于基因组相似性对研究对象进行分层,常用于评估GWAS中的群体分层(Figure 5).通常,为了解释群体结构会对GWAS的检测方法进行调整。另一种基于pca的校正方法是使用混合线性模型(MLM)回归来解释所有研究对象之间成对等位基因的共享。MLM方法,如EMMAX和 GEMMA有效地解释了人类和农作物中的群体结构。

㈧ gwas和全基因组重测序的区别

基于第二代高通量测序技术,对于有参考序列的物种,针对不同的真菌菌株,可通过全基因组重测序的方法获得全基因组范围内完整的变异信息,讨论群体的遗传结构、影响群体遗传平衡的因素以及物种形成的机制,定位重要性状位点,为后续分子育种打下坚实基础。同时,通过全基因组大样本重测序对真菌重要菌株进行全基因组的基因型鉴定,并与关注的表型数据进行全基因组关联分析(GWAS),找出与关注表型相关的SNP位点,定位性状相关基因。随着测序成本降低和拥有参考基因组序列的物种增多,基因组重测序也成为育种研究中迅速有效的方法之一,在全基因组水平扫描并检测出与重要性状相关的变异位点,具有重大的科研价值和产业价值。
近日,Nature Genetics发表的一篇文章就充分利用了微生物基因组测序与以全基因组重测序为基础的全基因组关联分析结合的方法,揭示了裂殖酵母遗传与表型多样性之间的联系。研究者选取裂殖酵母Schizosaccharomyces pombe作为研究对象,在全球20个国家范围内收集了时间跨度为100年的161个野生株系的S.Pombe,进行了全基因组测序,推测裂殖酵母在公元前340年开始广泛大量出现,祖先种到达美洲的时间为公园1623年。后续研究者又选取223个菌种进行全基因组关联分析,发现至少89个性状表现出一个关联。每个性状最显著的检测到的变异可以解释平均22%的表型差异,且indel的影响比SNP更大。

㈨ GWAS与GS模型介绍与比较

最近看了不少统计基因组方面的资料,以为懂了,其实懵逼。实在是因为统计学基础太菜,似懂非懂,似是而非。记录下自己的理解,求轻喷。

GWAS是表型和基因型之间的相关性分析,然而这个相关性用什么统计方法?

GWAS模型的发展:

实际比例是否符合预期分离比例,若不符合则认为基因与表型相关。计算量大。

首先计算基因和表型之间的相关性(如pearson),再经过r换算为t值,进行t检验。计算量小。

直接将基因型x和表型y做回归拟合,即y=xb+e。

其中y是表型,x是SNP、Q矩阵和总均值的一个综合变量,e是残差。

GLM模型中,如果两个表型差异很大,但群体本身还含有其他的遗传差异(如地域等),则那些与该表型无关的遗传差异也会影响到相关性。MLM模型可以把群体结构的影响设为协方差,把这种位点校正掉。此外,材料间的公共祖先关系也会导致非连锁相关,可加入亲缘关系矩阵作为随机效应来矫正,即y=Xb+Zu+e,Z为亲缘关系矩阵,u为个体育种值,其他同GLM。

GLM是固定效应模型。MLM除了固定效应,还加入了随机效应,即亲缘关系矩阵。所谓的固定效应是有限水平的,易控制的,关心的是水平上的影响;而随机效应有很多水平,关心的是水平背后的群体(如均值,方差等)。

有种只可意会,不可言传的感觉。我网络了下,认为它解释的还可以: 随机效应模型

MLM的矫正过于严格,会把一些真实相关的SNP标记也过滤掉,因此CMLM模型目的是重新检测到那些假阴性SNP标记。

方法是根据个体遗传关系的相似性将其分组,然后将压缩后的组当做协变量,替换原来的个体。组内个体的亲缘关系都是一样的。

问题来了,CMLM应该选择哪些SNP来计算亲缘关系矩阵,答案是使用所有跟表型相关的SNP(且排除了检测到的那个SNP)来构建亲缘关系矩阵的效果最好,这就是 SUPER (Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性亲缘关系解决方案)。
QTN(数量性状SNP),即控制QTL的SNP。

GWAS的瓶颈一是计算速度,二是统计准确性。FarmCPU能提升速度和准确性,首先把随机效应的亲缘关系矩阵(Kinship)转换为固定效应的关联SNP矩阵(S矩阵/QTNs矩阵),使计算速度大大加快;其次利用QTN矩阵当做协变量,重新做关联分析,提升准确率。

SUPER和FarmCPU都是把bin(一段区域,比如10kb)当做SNP单位,而不是单个SNP。

Blink是进阶版GWAS,也是为提高速度和准确率。如下图所示:先用上方的GLM模型获得QTNs,然后用右侧的GLM以QTNs当做协变量进行SNP检测,得到的SNP根据LD信息确定QTNs的信息(根据染色体实际位置来选择对应的bin大小),进而利用左侧的GLM以BIC(Bayesian information criterion)策略进行QTNs准确性检测,排除假设错误的部分,保留真实的QTNs,不断循环这一过程,直到检测到所有关联SNP(即QTNs)。

模型总结:
这里是以张志武老师《统计基因组学》课程整理,所以重点介绍的是他们课题组开发的模型。

GWAS常用软件:

GS模型的发展:

当控制表型的基因数量比较少,同时遗传力比较高的性状,可以用少量标记对表型进行很好的预测。

利用个体亲缘关系构建协变量矩阵,然后根据个体育种值对表型进行预测。

如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵,构建模型,然后对个体进行预测,就是rrBLUP的思路。

也就是把模型y=Xb+Zu+e变为y=Xb+Ms+e:
其中M是SNP构建的矩阵(替换个体亲缘关系矩阵Z),s就是标记(替换个体u)。

rrBLUP假设所有标记效应符合一个正态分布,同时标记效应的方差(σ^2)相等,这可能与基因的实际效应值不相符。

这时引入了贝叶斯的分析方法:预期控制表型的基因数目未知,基因效应值的分布未知。根据预先假定基因的数量和基因效应值分布的不同,建立了不同的贝叶斯模型,如BayesianA,B,C,Cπ,LASSO等。

其差别主要在于:标记效应是否符合相同分布;是否所有标记都有效应值;标记效应方差服从什么分布。

不同贝叶斯模型的假设和分布可参考之前的推文: # 【GS文献】基因组选择技术在农业动物育种中的应用

用图形直观表示不同的贝叶斯方法,下图中π表示没有标记效应的比例。

岭回归的所有标记效应方差都相等;贝叶斯A是所有标记都有效应方差,但不同标记有不同的效应方差;贝叶斯B是部分标记有效应方差,同时具有差异;贝叶斯Cπ是部分标记效应有方差,同时所有方差都相等。

GS常用免费开源R包:

如果GWAS使用的是MLM模型及其进阶版,那么它和GS用的其实是同一模型。

只是GWAS的重点在挖掘显著性位点,关注固定效应Xb,加入随机效应只是为了控制与表型显著相关位点的假阳性;而GS重点在计算育种值,关注随机效应Zu,加入固定效应是为了控制不同个体相同的部分。

两种方法虽然模型一样,但应用方向不同,所以视为不同技术,实际上是一回事儿。我们可以将二者结合起来,比如先用GWAS找出显著位点,再加入GS的固定效应中,可能会使预测的准确性更高。或者是如果标记数目太多,我们不想过滤掉一些无关标记,就可以结合GWAS的结果来过滤。

在GS和GWAS的结合方面,也已经有了一些模型和算法,如SSGBLUP,GS + de novo GWAS,GS + historical GWAS等。

致谢:
感谢张志武老师提供的最新教程以及开发的工具,感谢知乎张帆的课程总结。教程PPT参考: ## Statistical Genomics: 2020

㈩ 欧洲人gwas数据库指的是什么

sqlplus / as sysdba
startup
这些命令在linux下是好用的
但是在windows下只要启动了oracle服务,数据库就已经被启动了,即使你使用shutdown关闭数据库后你要想再重新启动oracle必须先关闭win服务在启动才可以,使用startup是不可以的。

阅读全文

与gwas的数据是从哪里来的相关的资料

热点内容
哈利波特版本 浏览:663
如何从多行列中返回第一列数据 浏览:579
一个t的文件能有多少照片 浏览:174
安卓qq文件在哪个文件夹里 浏览:729
放图片的文件夹什么格式 浏览:213
win10esp精简版 浏览:865
文件名1688quick 浏览:927
del文件是哪个数据库的 浏览:901
java将字符串转换为整型 浏览:175
win7批量修改部分文件名 浏览:873
win8需要升级到win10么 浏览:85
大数据在海关的运用 浏览:38
android使用javamail 浏览:3
win10快速访问共享文件 浏览:259
喜马拉雅电脑文件导出 浏览:615
js取商运算 浏览:719
幼儿编程猫是什么 浏览:347
dnf哪个网站补丁 浏览:646
iphone自动关机能打通 浏览:794
怎么连接服务器数据库 浏览:907

友情链接