A. tcga資料庫firebrowse數據怎麼分析
TCGA由NCI牽頭,作為美國攻克癌計劃的一個大的project,投入巨大的人力和資金,較內早的進行深度測序容,提供Gene expression, DNA methylation, Copy Number Variant, Mutation還有更深度的exon expression外顯子測序結果,其臨床數據整理的相對最完整,指標最多。在TCGA中直接下載數據的方法較為繁瑣,但是有多個網站提供TCGA數據(包括表達和臨床等)完善的整理:GDAC, Cancer Browser和cBioportal是其中整理最為完整和可靠的。GDAC由美國MIT和Harvard共建的Broadinstitute運行,UCSC運行著Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立,提供較為完善的TCGA數據為基礎的各類信息檢索服務。
B. geo和tcga的基因表達數據有重復嗎
geo和tcga的基因表達數據有重復
科學實驗在自然科學中的特殊作用 自然界內的事物和自然現象千姿容百態,變化萬千,既千差萬別,又千絲萬縷的相互聯系著,這就構成錯綜復雜的自然界。因此在探索自然規律時,往往會因為各種因素糾纏在一起而難以分辨。科學實驗特殊作用之一是:它可以人為地控制研究對象,使研究對象達到簡化和純化的作用。例如,在真空中所做的自由落體實驗,羽毛與鐵塊同時落下,其中就排除了空氣阻力的干擾,從而使研究對象大大的簡化丁。 科學實驗可以憑借人類已經掌握的各種技術手段,創造出地球自然條件下不存在的各種極端條件進行實驗,如超高溫、超高壓、超低溫、強磁場、超真空等條件下的實驗。從這些實驗中可以探索物質變化的特殊規律或制備特殊材料,也可以發生特殊的化學反應。
C. 用MATLAB如何在一個大數據文件里檢索出想要的數據的位置
如果你的抄內存夠用的話 比較建議 一次讀取所有的數值
即使是一千*5萬 也才5千萬個數,內存應該是沒有問題的
然後在將每行數列轉換成一個cell 這個不需要循環,
如下例:
% read all files into one string
filetext = fileread([fpth,filenames]);
% give the expression of the enter space
expr = '[^\n]*[^\n]*';
% find the enter space for each lines and then change the data to cell matrix
lines = regexp(filetext, expr, 'match');
這樣可以轉換成cell格式
然後再用regexp(lines,'GAGT ')
D. 已知DNA某片斷一條鏈鹼基順序為5』-CCATTCGAGT-3』,求其互補鏈的鹼基順序並指明方向
互補鏈為GGTAAGCTCA,方向是從3『到5』
或者寫成:
5『-ACTCGAATGG-3』
E. tcga clinical數據怎麼整合
tcga工作組發的文章。The Cancer Genome Atlas (TCGA, 資料庫。TCGA數據源大部分都是公開的。目前來能夠從TCGA資料庫中回提取數答據的處理工具有cBioPortal ),ICGC( 和GenePattern(
F. 如何快速掌握TCGA資料庫
tcga工作組發的文章。
The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)資料庫。TCGA數據源大部分都是公開的。
目前來能夠從TCGA資料庫中提取數據的處理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/cancer/software/genepattern/download/index)。
G. 第一次做生物信息學,求助
(1)在公共DNA資料庫(比如GenBank)中有多少玉米相關的條目(entries)?在數據版庫權中與玉米相關數據中有多少Waxy (granule-bound starch synthase)基因序列?
(2)SSH實驗得到了一個未知序列,請在公共資料庫中找到最佳匹配(hit)(其實就是做比對,blast),然後預測潛在的功能。(結構相似性與功能相似性)
(3)用動態演算法(指定了這個演算法:Needleman-Wunsch algorithm)對以下序列進行全局比對,打分系統用BLOSUM50空位罰分8。(需要你去了解這個演算法,然後用程序實現應用到比對中,最後得出最佳的匹案得到結果)
(4) 在竹子的基因組片段中找基因
(5) 在植物抗病基因中找一致性序列(domains/motifs)(這個你可以用尋找motif的工具,如MEME)
(6) 構建植物抗病基因的系統發生樹
(7) 寫一篇近兩年關於穀物類基因或者人類基因組相關的綜述。
P.S. LZ你這個是課程結束作業么,工作量不小啊
H. 生物信息學方向是不是不好
你是學研究生嗎?這么說,生物信息學的發展前景是非常廣闊的,這得益於生物內數據的級數增長容,生物數據分析是醫學、生物信息學非常重要的,如果做好統計,是生物信息研究的主要課題,當前GEO、TCGA兩大資料庫分析的論文都非常多,可以學,可以做的事情非常多。
那麼說說就業,生信畢業,進入生物公司非常容易,華大基因,瑞博這些大公司,這要你有料,工資都很高,當然學生物信息學,需要學習編程,PERL、R是兩門基礎語言,需要掌握。
很多癌症、臨床相關專業畢業,都會用到生物信息學,醫學的高級醫生想發論文,也需要用到生物信息學,而這些人不是非常專業,利用自己的專業,可以得到很多資源。
I. TCGA的數據用什麼工具分析
未至科技魔方是一款大數據模型平台,是一款基於服務匯流排與分布式雲計算兩大技版術架構的一款數據分析、權挖掘的工具平台,其採用分布式文件系統對數據進行存儲,支持海量數據的處理。採用多種的數據採集技術,支持結構化數據及非結構化數據的採集。通過圖形化的模型搭建工具,支持流程化的模型配置。通過第三方插件技術,很容易將其他工具及服務集成到平台中去。數據分析研判平台就是海量信息的採集,數據模型的搭建,數據的挖掘、分析最後形成知識服務於實戰、服務於決策的過程,平台主要包括數據採集部分,模型配置部分,模型執行部分及成果展示部分等。
J. 如何看待大數據基因的問題
21世紀初,人類基因組計劃(HGP)發布了第一張人類基因草圖,人的基因組約有30億個鹼基對,意味著每一個人的基因組有3Gb以上的數據。該計劃曾與上世紀的曼哈頓計劃(原子彈製造)、阿波羅登月計劃並稱為三大科學計劃,為本世紀的一個里程碑式的科學工程。
15年過去了,基因組測序技術發展之快已經超乎人們的想像。十年前,這項技術還只是實驗室中一個「迷人」但又昂貴的研究工具。現在,它卻已經漸漸步入醫療界,成為一種略顯「尖端」的診斷技術。該技術也引領生物醫學領域進入大數據時代。
早前,曾有人預言,當個人基因組測序費用下降到1000美元時,就標志著我們的醫學將進入個體化醫療(Personalized Medicine)的時代。現在,這個目標已基本達到,隨著這項技術的迅猛發展和成本的扁平化,它已經開始給我們帶來了龐大的數據,包括基因組、蛋白組等各類組學(omics)的出現,也帶來了不少數據。
1. 海量數據的產生
剛過去的七八年間,我們儲存的個人基因組數據量已達到106規模,這個數量如此驚人,且這只是剛剛開始。每年Illumina公司的HiSeq X 10測序儀已經可以完成超過18000人的基因組測序工作,該測序系統已分布在全球頂尖測序中心,每天產生大量的數據。英國2014年也啟動了「十萬人基因組計劃」,美國和中國則宣布要完成多達一百萬人的基因組數據收集工作。
基因測序數據正在以更快的速度翻倍。2015年以後,以歷史累積的測序數據來看,每7個月就能翻一番, Illumina儀器測序所得的數據,每12個月就能翻一番;如果僅以摩爾定律來看,每18個月數據量就能翻一番。這種情況將帶來一個巨大的「數據黑洞」。圖片來自nature.com
以上所提及的,只是大數據時代下的一個縮影,現在面臨的還有其他數據。比如,伴隨基因組計劃的發展,人類蛋白組計劃和基因測序結果在醫療界的應用等也被逐步提出,它們也正在給大數據「添磚加瓦」。所謂人類蛋白組計劃,主要目的在於研究所有人類基因編碼產生的蛋白質。關於這個,我們來看一個研究者的故事。
美國斯坦福大學邁克爾?斯奈德(Michael Snyder)。
邁克爾·斯奈德(Michael Snyder)是美國斯坦福大學的一名分子遺傳學家。當他抱著好奇的心態測了自己的基因組後,得到了一些「驚喜」。他發現,自己是一名II型糖尿病易感基因的攜帶者,盡管在這之前,他並沒在自己身上發現任何此類疾病的風險因素,包括肥胖、家族病史等等。在接下來的14個月,斯奈德持續監控了自己體內相應RNA的活性和蛋白表達情況。在一次感染呼吸道病毒後,他發現自己體內的蛋白表達發生了變化,並且有相應的生物學通路被激活。接著,他被診斷出了糖尿病。看起來,這場病就是由這次病毒感染所觸發的。此後,他還在患上萊姆關節炎時,也監控了自己體內的蛋白表達變化。這時,他的研究已經產生了多達50Gb的數據,這還僅僅只是關於他個人的研究數據。當他將這項研究擴展至100個人時,並將研究目標擴展至13類「組學」(包括蛋白組、腸道菌群的轉錄組等等),而實際上,按照他的計劃,要想真正做到預測疾病,還需要將研究對象增加至上百萬個病人。如此這樣,它將會帶來多大的數據量?
各種電子設備的普及以及健康數據記錄App的出現,給這個時代帶來了海量的數據,也給醫學界帶來了可觀的研究對象。過去的幾十年間,醫生如果要觀察病人的心血管健康情況,往往會給他們做這么一個小測試:讓他們在一段平緩、穩固的路上行走6分鍾,並記錄他們的行走距離。這個測試不僅可用於預測肺移植者的存活率,還可用於檢測肌肉萎縮的病程發展,甚至可以評估心血管患者的健康狀況。這種小測試已被運用於多項醫療研究中,但在過去,最大規模的醫療研究項目中,這種參與者也很少能達到一千人。
智能手機中健康類App的出現,從而能讓研究者獲取大量人群的數據。圖片來自nature.com
不過,這個情況近年來發生了很大的變化。在2015年3月進行的一項心血管研究中,研究者尤安·阿什利(Euan Ashley)在兩周時間內就拿到了6000個人的測試結果,這就得益於現在有數百萬計的人擁有智能手機和健身追蹤器。到了6月份,參與到這項研究中的人數達到了40000人,這僅僅依靠的是一款叫做「我的心臟計數」(My Health Counts,見上圖)的蘋果應用。有了這個應用軟體,阿什利甚至可以招募來自全球的參與者,獲取他們的測試結果。那樣的話,他得到的數據又將是多少?面對這個現狀,不少研究者表示,這些海量數據可能會淹沒現有的分析渠道,並對數據存儲提出前所未有的「高」要求。
2. 「大數據」時代下的挑戰
在群體基因組研究的浪潮下,雖然更多的人關注的僅僅只是整個基因組中的外顯子部分,即基因組中可編碼產生蛋白的部分,它佔到了整個基因組的1-5%,這能夠將需要分析的數據量減少到原來的1%。但即使在這種情況下,每年產出的數據量仍可達4000萬Gb。這就帶來了第一個難題,如何存儲這么大的數據量?
盡管這還只是這個領域最基本的問題,仍需要巨大的資源來解決。這就是近年來網路上最常出現的一個詞——雲(Cloud)出現的契機所在。這么大的數據量,必然無法僅僅保存在固定的設備上,需要藉助互聯網來實現,也即是所謂的「雲存儲」。此外,這些數據帶來的處理危機也是巨大的,電腦處理能力也將局限著它們的應用。這個問題的初步解決依然要依靠「雲」,也就是現在所謂的「雲計算」。
即使處理好了海量數據的存儲問題,我們還將迎來另一個更讓人頭痛的問題——這些數據說明了什麼?現在關於基因組學的臨床研究,往往聚焦於識別個人基因組中可擾亂基因功能的「小錯誤」,即所謂單核苷酸突變(single-nucleotide variants, SNPs),即使這些突變往往存在於僅占基因組1%的外顯子區域,平均下來,依然有近13000個之多,而其中的2%已被預知可影響相應蛋白的變化,但要從中找出某類疾病的具體致病基因,仍是一個巨大的挑戰。
自奧巴馬提出了「精準醫學」的概念,這個方向就一路紅火。即使現在已經有了測序技術和分析工具這些手段,有了電子健康記錄這位「好幫手」,這種醫療方法的理想和現實之間仍然有著巨大的鴻溝。在這個領域,仍然存在多種障礙。比如,即使在電子健康記錄普及和新療法研發成功的前提下,想要依靠臨床醫生來實現這些療法,往往還需要對他們進行不間斷的培訓,以幫助他們在做醫學決定前了解足夠多的細節信息。
此外,電子健康記錄的不可共享性(即涉及到病人隱私的問題),為精準醫療的實現設置了不小的障礙。很多時候,治療患者個體病例的特異性信息往往被患者個人和治療機構所把持,到不了研究者手裡,那麼就無法據此信息來改進一些治療方法,因此也就沒辦法實現對個人的「個體化醫療」。這些問題往往反映生物醫學領域需要信息處理專家的介入和幫助。遺憾的是,生物信息學家在學術領域也僅僅只佔很少的席位,更別提在醫學領域,還需要給他們提供更多的職位和機會。
3. 「大數據」帶來的機遇
有挑戰也必然會帶來機遇,這個機遇可以體現在生物醫學領域的多個方面,比如醫療界的診斷方法更新、疾病分型更新、醫葯界葯物開發新方向、醫學界疾病治療新方法,甚至生物學科基礎研究領域的新工具等等。
2013年,安吉麗娜·朱莉的故事轟動全球,為減少患上乳腺癌的風險,她進行了預防性的雙乳腺切除術,而這個決定是在她檢測到自身攜帶一種風險基因——BRCA基因後才做出的。這類基因能帶來顯著的致病風險,約有55-65%的乳腺癌患者攜帶有害的BRCA1基因突變,45%的攜帶BRCA2突變。對朱莉來說,雖然她攜帶的僅僅是前一個基因,已足以讓她做出預防性手術的決定。這個故事給出了一個鮮活的例子,就是如何把個體測序得到的數據與臨床診斷聯系在一起,這就好像人類正在從自己的基因組中找到這些失落的寶藏,從而幫助自己預防一些惡性疾病,但這只是這個時代所帶來的一個福利而已,並且只佔到很少的一部分。
以糖尿病為例,不精確的疾病分型,對於前期的預防和後期的治療都十分不利。之前,醫學界已經知道,有多達百餘種途徑可能導致糖尿病的發生,涉及到胰腺、肝臟、肌肉、大腦甚至脂肪的不同變化。現代通過基因的研究發現,對不同類型糖尿病而言,其致病基因十分多樣。這時,如果將這些不同亞型的糖尿病混為一談,就會讓人很難弄明白,為什麼攜帶同樣的基因突變,病人在面對同一治療方案時,會出現完全不同的治療效果。
正如生物化學家阿蘭·阿蒂(Alan Attie)所說的那樣,「從致病基因到體重、血糖水平等表型的出現這一過程,往往有許多步,其中每一步都可能發生基因突變,這最終會削弱基因和表型之間的聯系」。因此,只看錶型(即臨床症狀)和只看突變基因,得到的都只會是片面的結果。只有將兩者有機結合起來,才能更加深我們對疾病的了解,做到更精確地進行疾病分型,以便更容易「對症下葯」。
美國國立衛生研究院(NIH)曾發起一項大型項目,構建了癌症基因組資料庫(the Cancer Genome Altas,簡稱TCGA),將所有癌症相關基因突變分類保存,共保存有250萬Gb的數據,這大大改進了研究者對各種類型癌症的認識。但僅僅這樣,對於提供了組織樣本的患者來說,並沒給他們的臨床經歷帶來太多改變。
與癌症治療相關的另一方面,是個人電子健康記錄及其病例的特異性信息。對很多研究者來說,如果能從醫院或個人手中得到這部分信息,就能夠卓有成效地進行癌症治療方案的改進。總體而言,只有在拿到測序大數據的基礎上,同時掌握病人的干預記錄(來自個人的電子健康記錄)和臨床特徵(來自醫療機構的臨床病理記錄),才能最終做到「升級」腫瘤的臨床治療方案。
醫葯研發也能從大數據獲益良多,這無可厚非。在醫葯研發的世界裡,基因技術公司更傾向於進行長期的生物學研究,並將其聯繫到臨床數據上,以使得葯物能夠「對症下葯」到每個人身上,甚至會幫助制葯公司做出更「大膽」的研發決定,進行個性化定製免疫療法的研究。
以微生物菌群研究為例。現在就有人提出這樣的想法:什麼時候我們會想要研發出能改變體內微生物菌群的葯物呢?這些存在於我們腸道、皮膚表面和環境中的數以十億計的微生物,不僅影響我們是否患病,還會影響到葯物對疾病所產生的葯效。現在大部分對於微生物菌群研究得到的數據還只是針對小部分人群,但這是否也意味著一個不錯的研究方向?畢竟我們現在還缺乏一些穩定的測試手段,能讓我們以一種持續性的方法來改變微生物菌群,並對疾病發展產生有意義的影響。
對免疫學研究來說,大數據會帶來什麼?首先,有以下「組學」都可以對免疫學研究產生有利影響,包括:基因組、微生物組、表觀基因組、轉錄組、代謝組、通路組、細胞組和蛋白組。具體來說,比如對特定B細胞或T細胞所有抗體抗原分子的分析,這些分析結果(尤其是與能識別對應抗體的抗原決定簇的技術相結合),可將臨床診斷、抗體葯物研發、疫苗研發上升到一個新高度,並能為自身抗原肽結合抗體提供新見解。
伴隨著荊棘的引路,往往也會引來好歌喉的夜鶯。大數據給我們帶來挑戰的同時,也帶來了機遇,尤其是對於一些惡性疾病(比如癌症)的治療。一種單一類型的腫瘤,往往就會伴隨著多樣化的基因突變,但隨著投入更多的時間和金錢,會得到更多的治療靶點。當大數據分析的精度越來越高時,對於整個疾病發生過程的了解也會越來越深入,有了「大數據分析」這項利器,更多的精準治療方案將會產生,幫助人們做出更好的選擇。