瀚海基因賀建奎:大數(shù)據存儲和分析依舊是基因測序的難題
stark 2016.07.09 22:34 大數(shù)據概念股
6月16日,“魔方大數(shù)據之——基因大數(shù)據產業(yè)應用發(fā)展高層思享會”在上海貝殼社成功舉辦。超過70位國內基因領域頂級專家及國內外基因行業(yè)領袖企業(yè)代表共聚一堂,就基因大數(shù)據產業(yè)鏈各環(huán)節(jié)所面臨的機遇與挑戰(zhàn)進行了深度探討。
本次活動由上海大數(shù)據聯(lián)盟、數(shù)據猿主辦,貝殼社、上海市生物醫(yī)藥科技產業(yè)促進中心、上海超級計算中心聯(lián)合主辦;得到上海市科技創(chuàng)業(yè)中心、上海市浦東新區(qū)科學委員會、上海眾創(chuàng)空間聯(lián)盟的大力支持。
以下是數(shù)據猿現(xiàn)場整理的“瀚海基因董事長賀建奎”的精彩分享:
賀建奎:非常感謝,也非常抱歉,由于飛機的原因,來的比較晚。我代表瀚?;颍瑏斫o大家介紹一下我們公司過去幾年的發(fā)展情況。
市場上第一個出現(xiàn)的,不一定是最后成功的
瀚海基因,2002年創(chuàng)辦,到現(xiàn)在已經有幾年,我們主要從事基因測序儀的研發(fā)、生產和銷售。在國內,這并不算是主流業(yè)務,因為測序儀屬于整個行業(yè)的上游。就我個人來看,現(xiàn)在做儀表面臨的挑戰(zhàn)主要有兩點,其中我們比較關注的是高通量測序技術,另一個是大數(shù)據的存儲和分析。
高通量的測序技術已經發(fā)展了很長時間。1987年左右,自動化測序技術出現(xiàn),產生第一代測序儀。2000年到2003年,二代測序儀推出。最先發(fā)明測序儀的人叫沃森寶,一個著名化學家。“第一個出現(xiàn)的不一定是市場上最后成功的”。后面的公司實施收購后吸取了第一家公司的經驗,然后就在二代測序儀市場上占有了一定地位。
剛入行的人,你問他們用什么測序儀,他們可能只知道Illumina(第一代測序儀)。第三代測序是單分子測序,首先提出這個測序原理的是斯蒂文,他的公司2007年在美國納斯達克上市,但是到2008年還沒有開始銷售就遇到金融危機,哪怕上市也融不到錢,后來賣了十幾臺試用機,一臺150萬美元,最后在金融危機下公司做空,直接做到50美分就“掛了”。美國有一個規(guī)矩,一項技術原理發(fā)布到某一公司,公司產生上百項專利,一項專利孵化一家公司。為什么現(xiàn)在市面上的測序儀公司,美國就那么幾家,因為只有這幾條技術路線被開發(fā)出來。然后說說我們公司,是怎么來的呢?當時我們在美國很難再做的更好,大家聊了很多,覺得失敗是大環(huán)境引起的,但前景還是好的,所以我們決定回國做測序。
2014年剛開始的時候,大家都不相信我們能做出來,尤其是我們這么年輕的人,如果國家找?guī)讉€院士來做可能靠譜一點。但幸運的是,有好的技術,就有好的成功方式,拿過來抄一下,這是過去十年來在中國比較成功的方法。當然,我們不是從美國拿回來技術直接用,而是重新開發(fā),并得到了美國的支持。當時,大概有20個顧問,每月的顧問費都要幾十萬,所以我們覺得必須要從源頭上拿到專利和人才。在深圳、上海,資本比較活躍,我們招來了最優(yōu)秀的人才,有十幾個博士,幾個海歸。
100美元做測序,這就是未來
測序儀這個行業(yè),跟大數(shù)據不一樣,大數(shù)據是瞬間爆發(fā)的,但做測序儀,通常是要五年才能做起來。做藥品要十年,做創(chuàng)新的醫(yī)療器械是五年,從開始研發(fā)到最后全面占領市場,大概又五年時間。我們做這個事情的出發(fā)點在哪里呢?我們都知道測序儀便宜,越來越便宜。早在2003年測序儀就已經形成了市場,市場價是30億美元,后來美國非常有前瞻性的提出了一個理念,他們要實現(xiàn)1000美元做測序,于是資助了很多公司做技術做開發(fā),現(xiàn)在確實也接近1000美元了。
接下來,業(yè)界都在想,能不能100美元實現(xiàn)一個基因組測序?這是什么概念?1000美金,大部分的研究項目都可以測了,做研究嘛,不計較成本。任何一項新技術,首先都要在科研里面廣泛使用,然后三四年后進入臨床,在臨床爆發(fā)應用。但在臨床1000美元的價格也還是太高,那么什么價格合適呢?最好是100美元。這樣每個人都可以做,普通人也能接受得了這價格。1000美元,一萬人或幾萬人做可能沒問題,但做到100美元,才屬于普通人、上億人都能做的測序。當然,這不是現(xiàn)在能實現(xiàn)的,五年之后才能實現(xiàn)。100美元測序,將成為每個人都可以做的事,這就是未來。
第一代測序價格是30億美元,第二代是1000美元,一周時間可以測,第三代我們還沒有實現(xiàn)。為什么第三代100美元就可以,而二代再怎么做都很難達到這一水平呢?這是因為云建設。如果PCR是上百萬條,就需要大量的酶和試劑,耗材成本降下不去。第三代是單分子測序,可以從根本上降低成本。我們的任務是再過三五年,微量測序就是100美元的水平,這個目標只有第三代測序能實現(xiàn)?;氐轿覀兊漠a品,單分子測序平臺,我們叫GenoCare,Care是關照的意思,現(xiàn)在已經逐漸從科研領域轉向臨床。在座的可以看到,三四年前是測基因組最黃金的時代,現(xiàn)在做一萬個才有可能發(fā)現(xiàn)一個。這個基因測序的技術,跟所有的技術一樣,在科研領域的應用是四五年以后,之后是臨床應用,也是未來市場爆發(fā)的階段。斯蒂文我很熟。2013年以前,他公司的市值是200億美金,大家覺得他太牛了,但是后來發(fā)現(xiàn),他的產品并沒有在臨床上應用。不能走到臨床,就無法獲得價值,這就是為什么被收購的原因?二代測序,或者三代測序,開始做的時候都有憂慮,但現(xiàn)在考慮這些是多余的,因為它確實可以用于臨床,第三代是有持久發(fā)展前景的,會帶來一段時間的繁榮。
這是我們做的測序儀,因為商業(yè)原因,展示的不是最后的產品,最終的設計10月才會公布,是我們在上一代基礎上進一步設計的。三代測序儀拿過來就可以測,這是我們提供的解決方案,可以直接拿報告。去年10月,我們第一次做出樣機,今年4月,做了第二批產品,還辦了一個鑒定會,專門刊發(fā)兩頁文章報道這事。我們一直堅信只有最好的科學,才能有最好的公司,最好的產品。
這項技術到底有什么特點呢?可以做定位靶向測序。我們生產的測序儀上帶有十個基因探針,測出的結果是一步式靶向測序;我們用的化學體系和Illumina完全不同,測序全程只用2種酶,而Illumina需6種酶。二代測序時間非常長,而三代測序第二天可以拿到結果,不僅時間短,還不需要PCR,解決了實驗室建庫成本高且使用者操作難度大的問題。PCR污染一直是臨床試驗一個非常頭痛的問題,為了杜絕PCR污染,我們做了很多努力,現(xiàn)在它可以廣泛的應用在很多地方。這是陳潤生院士。我們做出來的產品跟專家們講,他們都很高興。
數(shù)據不標準,很難被再次挖掘
實際上我們正緊鑼密鼓準備做云計算平臺,這是什么意思?首先,現(xiàn)在產生的大量數(shù)據專注在基因組方面,我相信未來基因組領域里的數(shù)據量比現(xiàn)在想象的規(guī)模還要大很多。不知道大家有沒有看過美國NCBI(美國國立生物技術信息中心)數(shù)據,化學類文章發(fā)表之后,通常會上傳到文庫,所以那上面收集了海量的基因組數(shù)據,一直是以指數(shù)級增長。那么為什么已經有這么多數(shù)據,還會有那么多公司自己收集數(shù)據呢?
一個基本的觀點是,這些數(shù)據雖然多但不能用。做數(shù)據分析的有一個認知,“垃圾放進去,出來的也還是垃圾”,你要做一個好的分析,但數(shù)據來源是垃圾的話,出來的東西肯定也是垃圾。大數(shù)據是全世界各個國家提交的,零散、碎片化、沒有標準,但是有量。如果不是統(tǒng)一的方法做出來,要進一步分析基本不可能。雖然數(shù)據多,但能用的真的非常少。沒有標準的數(shù)據,不具備挖掘可能性,也可以說很難再被挖掘。再來看數(shù)據的統(tǒng)計或分析,數(shù)據越來越多,那又是什么限制了目前行業(yè)的發(fā)展?網速、帶寬。無論你在哪里測,都要把數(shù)據寄回來?,F(xiàn)在各地都可以買測序儀,每家醫(yī)院都想買一臺,測序儀已經進入了平民化時代,跟早年高大上的“形象”不一樣了。幾百萬的測序儀,對很多醫(yī)院來說,不是特別大的儀器。不過,很多地方想買測序儀,面臨的困難是不僅需要有專人管理,還有再買一個服務器,除了要收集信息,數(shù)據處理方面也要有諸多投入。所以,云計算是未來趨勢。未來的測序不只是化學的,還是生物學的,只有這樣才能產生更深遠的影響,影響這個社會,影響健康產業(yè)。
大家花一百萬買個機器,又要買服務器,還要有人照顧,價格估計就要翻一番。該怎么辦呢? 這就是我們想解決的事。測序儀做出來之后,五年之內全國所有三甲醫(yī)院,CPC總數(shù)達到上千臺,每一臺都可以直接插網線,無論是在北京、上海、武漢、云南、深圳還是其它地方,測序過程中把所有數(shù)據自動上傳到我們的Space上,意味著醫(yī)院無需再花幾十萬做這件事。一天幾千臺測序儀同步上傳,這是一個很大的數(shù)據存量。
那么分析該怎么做?我們提供的解決方案是,數(shù)據全部上傳后,我們自己或者與他人合作開發(fā)APP,測試的時候點一下,自動化分析報告就能出來,包括標準化的400個分析,有PGS的,也有常見疾病的。我舉的例子很少,因為我們只做了幾個,但我覺得可以做幾百個,我們希望通過合作把這個事情做起來。從用戶的角度來看,不需要買服務器,不需要有專門的人做這事,只要完成這個測試,用非常簡單的方式得到結果。其實醫(yī)生并不想知道生物學的一些事情,他們只想知道數(shù)據的分析結果是什么,究竟這個病人到底有沒有病。
大數(shù)據概念股:東方國信、易華錄、拓爾思、銀之杰、東方網力、天璣科技、科華恒盛、宜通世紀、榮之聯(lián)、紫光股份、海蘭信、創(chuàng)意信息。
大數(shù)據概念股
那么問題來了:最值得配置的大數(shù)據概念股是哪只?即刻申請進入國內首個免費的非公開主題投資交流社區(qū)概念股論壇參與討論!
申明:本文為作者投稿或轉載,在概念股網 http://www.guangshenggb.com/ 上發(fā)表,為其獨立觀點。不代表本網立場,不代表本網贊同其觀點,亦不對其真實性負責,投資決策請建立在獨立思考之上。