亞洲健康互聯
優化產業的推手,生醫商機的GPS!

首頁產業資訊精準醫療精準醫療基於大數據分析法的精準醫療前景

基於大數據分析法的精準醫療前景

來源 : 中國醫療設備 2017年第8期
update : 2017/10/19
引言
 
精准醫療,也稱為個性化的、預測性的、預防性的、參與式的4P醫療方式,也是一種新型的個性化醫療實踐方法。根據個體差異實施不同的預防和治療策略並不新鮮血型分類用於指導輸血已經應用了一個多世紀,目前國際社會廣泛認可的血型細分為35種。同樣,增加對性別、種族、缺血時間和血清類型等因素的考慮,減少了器官移植排異的風險。然而,精準醫療概念應用于患者臨床大數據面臨一些挑戰,由於資料量巨大而且結構複雜,醫務人員無法直接從中獲取有用的資訊。
 
大數據分析為精准醫療提供了有力的技術支援,實現了電腦 - 醫療跨界協同發展。生物大數據由患者病歷、診斷資訊、生活習慣等多維度生物學資料組成,資料量大、異構性強、價值高是生物大數據的特點。精準醫療是基于大規模人群的基因資料、生物樣本(蛋白質、細胞數量、代謝物、DNA和RNA以及全基因組測序)、日常生活資訊等資料的整合而發展起來的,大量的資料集合在一起,需要工具發掘其中的有利價值。大數據分析方法能對生物信息大數據進行有效的分析和挖掘,有利於對疾病的發病機制進行深入的研究,推動預防和治療方法的發展。
 
在本文中,我們提出了可用的方法分析多樣的生物醫學大數據,介紹資料集成的概念和分類,並且詳細說明了大數據分析方法在精準醫學的成果以及局限性。
 
1 基因測序的發展
 
2015年1月30日,美國總統歐巴馬在國情咨文演講中宣佈將啟動“精準醫療計畫”,“精準醫療”開始逐漸步入了大眾的視野。由於成本大幅下降,而且測序時間也大幅縮短,基因測序在醫療中逐漸佔據了一席之地。第二代測序技術在近幾年取得了重大突破,原本測定一個人基因資料的需要上億美元的成本,現在下降到了1000美元左右,測序所需時間也縮短至3d。在測序技術的驅動下,針對一些疾病已經開始應用基因測序技術開展治療,從而拉開了精準醫療的序幕。預計到2020年,第三代測序技術大規模應用後,完成一次測序的成本可能降至10美元,測序時間有望縮短為10~15min。
 
精准醫療發展的最終目標是精準醫療產業鏈,環節包括上游的醫療儀器(設備)研發生產、醫用耗材製造、生物樣本資料庫建立與維護、前沿醫療技術和相關技術研發;中游的生物樣本資料的檢測、測量和分析診斷;下游的精準醫療和健康管理。
 
2 生物醫學大數據
 
2.1 子類型化和生物標誌物
 
同患者分類一樣,子類型化的任務是識別亞型的患者,同一類疾病的亞型患者存在相似的潛在疾病相關機制,從而指導特定個體適用的治療流程,同時也能預測治療效果。儘管有不同的定義,子類型化在分類任務和機器學習研究領域中佔據越來越重要的地位。例如癌症、自閉症、自身免疫性疾病、心血管疾病、帕金森病等疾病,都透過子類型化的方法進行了研究。
 
根據美國食品及藥物管理局定義,生物標誌物是指任何可測量的診斷指標,用於評估風險或檢測疾病。生物標志物主要應用在發現患者的特點,區分患者的亞型,這樣就能透過生物標誌物來決定他/她是否屬於一個特定患者的亞型。目前,生物標誌物被認為是提升精準醫療和降低醫療成本的關鍵。
 
2.2 樣本的持續增長
 
隨著資訊化的持續發展,生物醫學資料正在迅速的增加。例如,人類可用的基因組與外顯子組的數量在過去10年幾乎按指數級增長。2012年,已經確認的人類基因組已經達到了1092個。2003年,第一個外顯子組被發現,目前,人類已經發現了60706個獨立的人類基因外顯子。最近英國政府宣佈,到2017年,繪製100000個人類基因組專案,同時,美國也計畫繪製100萬個人類基因組用於精準醫療。在數量持續增長的同時,也需要保證和提升基因組資料的採集品質,基因組資料的品質取決於短序列長度總和占目標基因序列的長度比例。在實際情況中,我們透過不同的組織樣本,可以從中獲取更多的基因組資料。此外,隨著技術的發展,樣本可以更長時間保持其有效性,我們甚至可以評估隨著時間推移,藥物效果與基因組的關聯性。
 
2.3 基因資料的異質性
 
各種不同生物實體(染色體、蛋白質、代謝產物等)中可收集的資料在持續增加,資料總量變得越來越大,這對存儲和管理資料提出了新的要求。2011年,美國已經收集了1018位元組的醫療資料,預計到不久的將來,資料量將會迅速提升到1024位元組。這些醫療資料具有高度異構的特性,就算是同一個資料元,透過不同的技術手段獲取,也存在範圍、精度、時間等差異。此外,由於缺乏統一的標準,許多廠商和研究機構都按照自己的方式存儲收集到的資料集,造成了大數據提取面臨的一系列問題。
 
3 大數據分析方法
 
醫療大數據具有大規模、多樣性、複雜性等特性,因此需要高效的演算法對醫療大數據進行分類和挖掘。機器語言或基於網路的電腦技術開始應用於大數據的分析與統計,這些方法已經在大數據與精准醫療之間展現出了巨大的潛力,且仍有很大的改進空間。基於機器語言方法在分析大規模、多樣化、異構性的生物醫學資料類型具有明顯的優勢,而這是精準醫療和生物資訊學之前面臨最大的問題。因此,下面我們將介紹處理大數據的方法。
 
3.1 疾病子類型化技術
 
疾病子類型化是指根據基因組與臨床資料將病人分成具有一定共性的子組。子類型化的主要目標是實現對患者更加精準的治療方案,也可以對治療效果進行更加準確的預測。目前有許多疾病的治療方案得益於子類型化的實施,比如帕金森、心血管疾病、自身免疫綜合征、癌症等。
 
癌症是子類型化研究最多的疾病之一,癌症的誘因是一個疾病基因畸變的積累,最終導致細胞系統的失調。就算是同一部位的癌症,也會因為基因組的差異而表現出不同的臨床行為。許多癌症的類型已經被大數據集分組技術細分出來,包括結腸癌、直腸癌、乳腺癌和卵巢癌。
 
無監督的機器學習方法,例如層次聚類演算法,K-means聚類演算法,非負矩陣分解等,可以應用于基因表達資料。透過比較不同基因對疾病的影響,從而劃分出有意義的基因表達子組。最近有研究人員透過對腫瘤組織樣本基因表達差異性的對比,將患者劃分為不同的子類型,進行針對型的治療方案。基於所選擇基因組表達的差異,差異越大的基因組在資料中的距離越遠,從而對其進行聚類,達到分組的目的,K-means方法下的基因分組,見圖1。


 
3.2 個性化治療方案
 
目前我們能夠透過各種管道和方法整合不同資料類型的資訊,如藥理、化學、遺傳和臨床資料。同時,由於許多疾病存在許多性質不同的子類,同種藥物對於它們不一定有同樣的治療效果。因此,精准準療的整體目標是考慮疾病與患者資訊多樣性與關聯性,有針對性的將藥物分類用於每個患者,而大數據分析提供了解決這個問題的方法。
 
首先,從多個不同的藥物和疾病採集資料來源,用於分別計算它們之間的相似性,分別構造成不同的疾病資料集與藥物資料集,疾病資料集與藥物資料集,見圖2。


 
然後,分別選取相似性較高的疾病資料集A與藥物數據集B,構建一個疾病 - 藥物整體對應集,構成新的資料集C,構造方法,見圖3。


 
最後,基於疾病 - 藥物對應集中疾病 - 藥物元素的相似性,可以透過邏輯回歸訓練樣本加以分類,得到預期的結果。在大量資料樣本的支援下,經過多次訓練,可以提升疾病 - 藥物組的有效性。通常疾病 - 藥物對應集中的元素存在一對多甚至多對多的關係,因此在分組和樣本訓練其實要複雜得多,圖3只是列舉了其中一種情況。此外,這種方法實用性較強,可以用於未來的個性化藥物治療,透過整合患者的基因組資料和疾病資訊做出相似性和關聯性分析。
 
4 應用現狀

 
在現有的研究中,透過對醫療大數據的分析與利用,可以逐步實施個性化醫療方案。比較著名的是德國默克公司正與Regenstrief研究院一起實施的個性化醫療項目,透過研究對特定疾病的易感性、遺傳變異和對特殊藥物的反應這3者之間的聯繫,使得在藥物的研發和使用中,充分考慮到基因和遺傳變異的因素。透過醫療大數據的支持,針對不同特質的患者可以採取相對優化的治療方案,甚至可以使用更加合理的藥物劑量,達到提升治療效果,減少副作用的目的。就目前來說,個性化醫療主要是透過個人基因測序、基於基因的新藥研發、個人健康資訊管理這3個方面實施的。
 
復旦大學的智慧資訊處理實驗室開發了一種多協作矩陣分解方法(Many-Sided Coordinate Matrix Factorization,MSCMF)的框架用於藥物預測。在這個框架中,代表藥物相互作用的矩陣作為輸入值,那麼多個矩陣就代表不同類型的相似藥物,共同構成了一個資料庫。MSCMF項目中,藥物和靶標矩陣在一個共同的低維特徵空間分解成兩個低維矩陣,分別表示藥物和靶標的低維特徵向量,低維矩陣中藥物和靶標值的計算透過半監督學習的方式完成。這種情況下,兩種藥物或者靶標之間的相似性是近似對應了它們特徵向量的內積。作者在數學上制定分解條件約束在同一目標函數,它們透過應用交替最小二乘演算法最小化。收斂之後,從獲得的低維矩陣重建藥物 - 靶標矩陣,以前的記錄則代表預測藥物 - 靶標的相互作用。MSCMF表現出比以前更好的執行藥物 - 靶標預測方法,此外,MSCMF很大的優勢是,它可以集成來自多個資料來源中相同的藥物 - 靶標組,評估其對藥物 - 靶標預測的品質。
 
在基於基因的新藥研發過程中,大部分藥品都是與其目標蛋白質相互作用並調節蛋白質生物功能的小化合物。因此,分析蛋白質與小化合物之間的相互作用機制是新藥研發的關鍵步驟。這使得分子大數據庫能夠説明人們分析大量複合蛋白相互作用的資訊,加快新藥研發的效率。研究人員提出了多種計算方法為藥物再利用,可以根據不同的標準將藥物分類。從資料出發的觀點中,Dudley提出了基於藥品和疾病的分類方法。第一組使用一些效果相似或者副作用相似的藥物(如化學相似性,藥物引起的相似基因運算式),並利用一種新穎的候選藥物組與其他藥物執行相同的動作。將相似藥物作用到目標蛋白質中,根據靶向性相似,即蛋白質序列相似,或3D結構相似推斷出新的藥物,也可以同時使用上述3種計算相似性的方法用於分類。他們通常使用機器學習或者神經網路來推斷藥物分類的過程。
 
透過分析某種疾病患者人群的組學資料,能夠迅速識別疾病發生和疾病治癒的生物標誌物。在藥物研發方面,大數據促進人們對病因和疾病發生機制的理解更加深入,從而有助於識別生物靶點和研發藥物。同時,充分利用海量組學資料、已有藥物的研究資料和高通量藥物篩選,能加速藥物篩選過程。
 
5 發展前景
 

目前,醫療資料集中的許多資料類型包括基因組資料尚未分析,同時,基因組資料與其它資料集的關聯性也值得我們進一步研究。我們可以將人口資料、個人和家庭病史、疫苗接種記錄、檢驗結果和檢查結果系統地收集和存儲在電子健康檔案(Electronic Health Record,EHR)中。EHR在傳統醫療病歷的基礎上,結合先進的電腦技術、資訊技術升級而成。電子健康檔案由電子病歷發展過來,是一種能夠綜合記錄居民健康資料的電子檔案。除了能夠詳細記錄患者的醫療過程之外,還能記錄居民的基因組資料、過敏原、體質、性格等資訊,透過電子健康檔案數據和基因組資料能夠更好的發掘疾病發病機制和治療效果。此外,基於電子健康檔案的整合,我們還可以分析傳染病、自然災害、慢性疾病等衛生資料與基因組資料的關聯性,從而提出更加經濟、有效的預防與治療方案。電子健康檔案還將極大地促進公共衛生的研究,大型電子健康檔案數據庫可以使研究人員進行全面的觀察性研究,這其中涵蓋了數百萬來自不同地區患者的臨床治療記錄和健康資訊。研究人員可以使用這些豐富的資料來研究疾病進展,健康差異,臨床結果,治療效果和公共衛生政策干預的效果,他們的發現分析結果將會對臨床醫療產生深遠的影響,將會進一步促進精準醫療的發展。
 
6 挑戰與展望
 
基於基因檢測技術的發展,疾病診斷的準確率在逐步提升,致病機理的認識也逐漸深入,即使在這種情況下,想要短期內研究出針對性的精准治療方法仍然比較困難,在實際的醫療環境中,藥物的臨床副作用仍然不可忽視,需要進行大量的臨床試驗。此外,由基因組突變、缺失引發的罕見病,由於發病率低,長期的治療費用極高,且許多患者支付能力較低,無法為相應的治療方法提供經濟的市場回報,導致基於基因測序的精准醫療僅僅停留在研究階段,無法吸引醫藥公司投入參與。
 
最後,精准醫療大數據的複雜度遠高於傳統互聯網大數據,醫療資料的收集和處理也是一大難題,並且由於數據格式並未完全統一,收集的資料可用性並不高。腫瘤臨床資料需要採集的類型不僅包括傳統的生化指標、影像報告、傳統病理和治療資訊,還有透過新的臨床檢測手段產生的基因組資訊。對基因突變的正確解析、標記做出臨床意義的注釋,不僅涉及數百個套裝軟體的開發和運用,還依賴於生命科學、臨床醫學、臨床藥理和生物資訊學的科學理解和解讀。