本文摘要:下面是兩篇計(jì)算機(jī)工程類論文范文,第一篇論文介紹了增強(qiáng)現(xiàn)實(shí)技術(shù)發(fā)展分析及預(yù)測(cè),在現(xiàn)實(shí)生活應(yīng)用虛擬顯示技術(shù),增強(qiáng)真實(shí)性,在很多領(lǐng)域都有運(yùn)用。第二篇論文介紹了健康大數(shù)據(jù)挖掘方法研究,從健康大數(shù)據(jù)的概念及特點(diǎn)入手,針對(duì)其數(shù)據(jù)挖掘問題進(jìn)行了研究。
下面是兩篇計(jì)算機(jī)工程類論文范文,第一篇論文介紹了增強(qiáng)現(xiàn)實(shí)技術(shù)發(fā)展分析及預(yù)測(cè),在現(xiàn)實(shí)生活應(yīng)用虛擬顯示技術(shù),增強(qiáng)真實(shí)性,在很多領(lǐng)域都有運(yùn)用。第二篇論文介紹了健康大數(shù)據(jù)挖掘方法研究,從健康大數(shù)據(jù)的概念及特點(diǎn)入手,針對(duì)其數(shù)據(jù)挖掘問題進(jìn)行了研究。
《增強(qiáng)現(xiàn)實(shí)技術(shù)發(fā)展分析及預(yù)測(cè)》
摘要:虛擬現(xiàn)實(shí)是指通過一系列技術(shù)手段使人們置身于虛擬世界中,而增強(qiáng)現(xiàn)實(shí)是指將虛擬的物體在真實(shí)世界中展現(xiàn)出來,所以增強(qiáng)現(xiàn)實(shí)更加真實(shí)也更加貼近生活,在現(xiàn)實(shí)生活中應(yīng)用廣泛。增強(qiáng)現(xiàn)實(shí)在工業(yè)領(lǐng)域最先提出,后來相繼在醫(yī)療、軍事、娛樂游戲、教育領(lǐng)域出現(xiàn),可用于化學(xué)實(shí)驗(yàn)、建筑模擬、教學(xué)指導(dǎo)等。闡述了國(guó)內(nèi)外增強(qiáng)現(xiàn)實(shí)的發(fā)展歷程,對(duì)增強(qiáng)現(xiàn)實(shí)未來領(lǐng)域進(jìn)行了展望。
關(guān)鍵詞:增強(qiáng)現(xiàn)實(shí);虛擬現(xiàn)實(shí);發(fā)展領(lǐng)域
隨著技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實(shí)在越來越多的領(lǐng)域嶄露頭角。增強(qiáng)現(xiàn)實(shí)一詞自1990年提出到現(xiàn)在歷經(jīng)27年,定義相對(duì)明了。Milgram P和Takemura H[1]在1994年通過廣義和狹義兩個(gè)維度定義了“增強(qiáng)現(xiàn)實(shí)”:廣義上是指“增強(qiáng)自然反饋的操作與仿真的線索”;狹義上注重技術(shù)方面,認(rèn)為增強(qiáng)現(xiàn)實(shí)是“虛擬現(xiàn)實(shí)的一種形式,其中參與者的頭盔式顯示器是透明的,能清楚地看到現(xiàn)實(shí)世界”。
增強(qiáng)現(xiàn)實(shí)來源于虛擬現(xiàn)實(shí),其通過一些技術(shù)手段讓現(xiàn)實(shí)中的場(chǎng)景和真實(shí)世界相結(jié)合,從而增強(qiáng)用戶體驗(yàn)。增強(qiáng)現(xiàn)實(shí)相對(duì)于虛擬現(xiàn)實(shí)來說,是對(duì)真實(shí)世界的延伸,是在真實(shí)事物上對(duì)虛擬事物的疊加,更加真實(shí)也更加貼近生活;從技術(shù)手段來說,增強(qiáng)現(xiàn)實(shí)技術(shù)比虛擬現(xiàn)實(shí)技術(shù)要困難一些,需要對(duì)現(xiàn)實(shí)事物進(jìn)行識(shí)別并在真實(shí)背景上導(dǎo)入虛擬事物,識(shí)別的準(zhǔn)確性及背景事物的復(fù)雜性對(duì)技術(shù)要求相對(duì)高一些;從應(yīng)用領(lǐng)域來說,增強(qiáng)現(xiàn)實(shí)應(yīng)用的領(lǐng)域比虛擬現(xiàn)實(shí)更廣,因?yàn)樘摂M現(xiàn)實(shí)創(chuàng)建場(chǎng)景工作量巨大,而增強(qiáng)現(xiàn)實(shí)不存在這種問題,只需要將虛擬事物制作出來,相對(duì)簡(jiǎn)單且成本低,受設(shè)備限制少,因此可以應(yīng)用在更多領(lǐng)域。
1增強(qiáng)現(xiàn)實(shí)發(fā)展分析
1.1增強(qiáng)現(xiàn)實(shí)國(guó)內(nèi)發(fā)展分析
國(guó)內(nèi)最早提及增強(qiáng)現(xiàn)實(shí)一詞是在1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議上,由楊斌等[2]提出“虛擬環(huán)境中有3種技術(shù):虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和臨場(chǎng)感”,并給出了立體視覺技術(shù)相應(yīng)的計(jì)算公式。2000年劉渭濱等[3]提出了“AVR(From actua reality to virtua reality,即由真實(shí)現(xiàn)實(shí)到虛擬現(xiàn)實(shí)的轉(zhuǎn)換)理論”,這個(gè)理論的提出,使真實(shí)事物在虛擬建模時(shí)更加精確,并且減少了建模工作量,對(duì)增強(qiáng)現(xiàn)實(shí)技術(shù)有著重要意義。
2004年,計(jì)算機(jī)在國(guó)內(nèi)大面積普及,有關(guān)計(jì)算機(jī)的各項(xiàng)學(xué)術(shù)活動(dòng)創(chuàng)出新高,增強(qiáng)現(xiàn)實(shí)也得到了大力發(fā)展。在第三屆全國(guó)數(shù)字成像技術(shù)及相關(guān)材料發(fā)展與應(yīng)用學(xué)術(shù)研討會(huì)中,劉越等[4]首次提出了一個(gè)相對(duì)比較完整的理論體系。同時(shí),也首次提出將增強(qiáng)現(xiàn)實(shí)技術(shù)應(yīng)用在教育及工業(yè)儀器設(shè)備制造中,擴(kuò)展了增強(qiáng)現(xiàn)實(shí)的應(yīng)用領(lǐng)域。
2008年,陳靖等[5]首次提出將增強(qiáng)現(xiàn)實(shí)技術(shù)應(yīng)用到旅游產(chǎn)業(yè)中,“基于關(guān)鍵幀匹配的增強(qiáng)現(xiàn)實(shí)跟蹤注冊(cè)算法,實(shí)現(xiàn)圓明園大水法遺址的數(shù)字重現(xiàn)”,讓人們可以看到全盛時(shí)期圓明園的宏偉景觀。在隨后的幾年中,增強(qiáng)現(xiàn)實(shí)主要應(yīng)用在地理地圖或三維實(shí)時(shí)導(dǎo)航上,一般在校園或博物館3D漫游中的應(yīng)用比較多。
直到2010年,增強(qiáng)現(xiàn)實(shí)首次明確出現(xiàn)在教學(xué)中。余明媚等 [6]從中小學(xué)教育、特殊教育、職業(yè)教育等方面,對(duì)增強(qiáng)現(xiàn)實(shí)在教育中的應(yīng)用作了一個(gè)完整的綜述,為增強(qiáng)現(xiàn)實(shí)未來幾年在教育方面的發(fā)展奠定了基礎(chǔ),同時(shí)也為研究指明了方向。
隨著2016年虛擬現(xiàn)實(shí)元年的到來,虛擬現(xiàn)實(shí)的發(fā)展帶動(dòng)了增強(qiáng)現(xiàn)實(shí)技術(shù)的提高,應(yīng)用領(lǐng)域也擴(kuò)展到了軍事模擬、網(wǎng)絡(luò)購(gòu)物、教育游戲等領(lǐng)域。娛樂領(lǐng)域是增強(qiáng)現(xiàn)實(shí)一個(gè)很重要的應(yīng)用領(lǐng)域。2016年騰訊QQ推出的AR火炬?zhèn)鬟f,引起了增強(qiáng)現(xiàn)實(shí)應(yīng)用的火熱浪潮。騰訊QQ跟隨《神偷奶爸3》上映的腳步,推出營(yíng)救小黃人“掃香蕉”的活動(dòng)中,用戶使用手機(jī)攝像頭掃描一根香蕉,手機(jī)屏幕上就會(huì)出現(xiàn)不同的小黃人造型,引起廣泛關(guān)注。增強(qiáng)現(xiàn)實(shí)的應(yīng)用除了創(chuàng)意與藝術(shù)表現(xiàn)外,技術(shù)上的不斷鉆研進(jìn)步更令人驚喜。
1.2增強(qiáng)現(xiàn)實(shí)國(guó)外發(fā)展分析
國(guó)外增強(qiáng)現(xiàn)實(shí)的字眼在1993年的ACM(國(guó)際計(jì)算機(jī)組織)中就出現(xiàn)了,比國(guó)內(nèi)早了整整6年,Steven Feine[7]寫到,增強(qiáng)現(xiàn)實(shí) “發(fā)展了計(jì)算機(jī)視野,使用目標(biāo)識(shí)別技術(shù),利用技術(shù)創(chuàng)造一個(gè)新的復(fù)雜的增強(qiáng)現(xiàn)實(shí)應(yīng)用,呈現(xiàn)一種人類接觸自然的新方式”,而Wendy Mackay[8]則認(rèn)為增強(qiáng)現(xiàn)實(shí)“能夠在紙上擴(kuò)展計(jì)算的規(guī)模”。
1994年Greenleaf W J[9]更加詳細(xì)說明了增強(qiáng)現(xiàn)實(shí)的功能,“可將真實(shí)世界分為3種空間:視覺、聽覺和觸覺”,首次提出“將一些增強(qiáng)現(xiàn)實(shí)的技術(shù)應(yīng)用到殘疾人的日常生活中”,從而開發(fā)了增強(qiáng)現(xiàn)實(shí)的第一個(gè)應(yīng)用領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的發(fā)展,增強(qiáng)現(xiàn)實(shí)逐漸出現(xiàn)在大眾視野內(nèi),應(yīng)用領(lǐng)域也從醫(yī)學(xué)領(lǐng)域的外科轉(zhuǎn)向了內(nèi)科,并且提出了用增強(qiáng)現(xiàn)實(shí)技術(shù)注解現(xiàn)實(shí)世界的事物,這才是增強(qiáng)現(xiàn)實(shí)最基本的功能。某些醫(yī)院推出了游戲打針,通過增強(qiáng)現(xiàn)實(shí)技術(shù),使用增強(qiáng)現(xiàn)實(shí)設(shè)備,小孩便可同虛擬視野里面的小人進(jìn)行交流,獲得小孩的信任之后,虛擬的小人指導(dǎo)小孩通過完成游戲中任務(wù)的形式來完成打針,從而減輕小孩打針時(shí)的恐懼感和疼痛感,打針成功的小孩還會(huì)獲得一枚勛章。從此,小孩打針不再是家長(zhǎng)頭疼的一件事情,相反還變成了小孩引以為傲的事情。
1996年,首次提出了利用增強(qiáng)現(xiàn)實(shí)工具進(jìn)行3D解剖,同時(shí)又提出另外一個(gè)領(lǐng)域的應(yīng)用,就是運(yùn)動(dòng)分析。現(xiàn)今運(yùn)動(dòng)分析非常流行,很好地迎合了熱愛健康熱愛運(yùn)動(dòng)這一類人群的需求。比如騎自行車減肥,減肥本是一件痛苦的事情,還要通過單調(diào)的騎自行車來完成,豈不是更無聊?如果用戶可以在完全沉浸式的環(huán)境中,比如在一個(gè)鳥語(yǔ)花香的大自然中,或者更刺激更有挑戰(zhàn)的大峽谷中完成自行車的騎行里程,這樣的減肥方式有誰不愿意嘗試呢?
1999年,首次提出將增強(qiáng)現(xiàn)實(shí)應(yīng)用于工業(yè)、標(biāo)簽追蹤等領(lǐng)域。在此后的幾年中,增強(qiáng)現(xiàn)實(shí)依然主要應(yīng)用于醫(yī)學(xué)領(lǐng)域。2001年增強(qiáng)現(xiàn)實(shí)則首次應(yīng)用于城市規(guī)劃中,Jie Shen等[10]提出增強(qiáng)現(xiàn)實(shí)“利用這種基于影像的思想,不僅節(jié)省了更多時(shí)間,而且比傳統(tǒng)的基于制圖法的虛擬現(xiàn)實(shí)更加真實(shí)和客觀”。Sygic最近推出針對(duì)Android手機(jī)和平板電腦的GPS導(dǎo)航應(yīng)用程序的AR功能——Real View Navigation,該新功能可以讓手機(jī)攝像頭掃描行駛路線和周邊情況,將模擬的路況附加在真實(shí)路面上,用戶在汽車行駛過程中只需要觀察路面就可以了解導(dǎo)航情況,不需要看導(dǎo)航,同時(shí)該軟件還可提供路邊的信息,比如加油站、周邊景點(diǎn)、酒店旅館等信息,這些信息不會(huì)影響到駕駛員的視線。
2010年迎來了增強(qiáng)現(xiàn)實(shí)的春天。這年,增強(qiáng)現(xiàn)實(shí)的應(yīng)用擴(kuò)展到了很多領(lǐng)域,尤其是教育領(lǐng)域。在教學(xué)環(huán)境中采用一種新的教學(xué)方式,用現(xiàn)有的課程加上一些符合教學(xué)規(guī)律的活動(dòng),組成一個(gè)化學(xué)虛擬現(xiàn)實(shí)學(xué)習(xí)系統(tǒng)(CARLS)[11]。歷經(jīng)幾年的探索,從剛開始建立一個(gè)全新的學(xué)習(xí)系統(tǒng),到現(xiàn)在借助之前存在的系統(tǒng)加以修改補(bǔ)充,變成即便沒有受過專業(yè)訓(xùn)練的教師也可以簡(jiǎn)單完成的系統(tǒng),節(jié)省了教師學(xué)習(xí)、熟悉、制作新系統(tǒng)的時(shí)間及成本。
隨著移動(dòng)學(xué)習(xí)和深度學(xué)習(xí)的成熟,增強(qiáng)現(xiàn)實(shí)也加入到移動(dòng)學(xué)習(xí)的大家族中,隨時(shí)隨地使用增強(qiáng)現(xiàn)實(shí)已經(jīng)實(shí)現(xiàn),各種各樣的增強(qiáng)現(xiàn)實(shí)型游戲、甚至是電子書,還有越來越多的應(yīng)用程序軟件都攜帶增強(qiáng)現(xiàn)實(shí)功能,增強(qiáng)現(xiàn)實(shí)技術(shù)得到了空前的發(fā)展。
增強(qiáng)現(xiàn)實(shí)從剛開始的一個(gè)設(shè)想,到有了簡(jiǎn)單的理論支撐,理論指導(dǎo)實(shí)踐,又有了增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)技術(shù),實(shí)踐充實(shí)理論,有了完整的理論支撐,從而發(fā)展成一個(gè)研究領(lǐng)域。這中間經(jīng)歷了無數(shù)次的嘗試,無數(shù)前輩為之奉獻(xiàn),才有了今天所看到的增強(qiáng)現(xiàn)實(shí)這么多的應(yīng)用領(lǐng)域。
2增強(qiáng)現(xiàn)實(shí)技術(shù)未來展望
在未來,增強(qiáng)現(xiàn)實(shí)的應(yīng)用如同WiFi一樣實(shí)現(xiàn)全面覆蓋。在一堂課上,教師應(yīng)用增強(qiáng)現(xiàn)實(shí)技術(shù)給學(xué)生展示一些晦澀難懂的知識(shí),比如天體的運(yùn)轉(zhuǎn)、生物分子結(jié)構(gòu)等,學(xué)生可佩戴相關(guān)設(shè)備(簡(jiǎn)單輕便,可隨身攜帶)觀看教師的展示。如果有學(xué)生生病或其它原因缺席,這位學(xué)生可在家或病房觀看教師的演示,整個(gè)過程這位學(xué)生一樣可全程參與,如同現(xiàn)在的遠(yuǎn)程教育。
增強(qiáng)現(xiàn)實(shí)在醫(yī)療方面尤其在手術(shù)中的應(yīng)用變得越來越重要?梢酝ㄟ^拍攝CT或者掃描得到的人體內(nèi)部結(jié)構(gòu),構(gòu)建出增強(qiáng)現(xiàn)實(shí)的立體畫面,不論主治醫(yī)生還是實(shí)習(xí)醫(yī)生都能看清病人的具體情況,從而給出最完美的解決方案,同時(shí)也可通過增強(qiáng)現(xiàn)實(shí)手段實(shí)施院外甚至是省外專家的實(shí)時(shí)會(huì)診。這些珍貴的資料都可保存下來,為醫(yī)學(xué)院學(xué)生提供更好的學(xué)習(xí)機(jī)會(huì)。
增強(qiáng)現(xiàn)實(shí)在職業(yè)教育方面的應(yīng)用也有很大的提升空間。在未來的職業(yè)教育中,學(xué)生可通過增強(qiáng)現(xiàn)實(shí)技術(shù)安裝虛擬電機(jī),如果中途或最后的測(cè)試階段出現(xiàn)錯(cuò)誤導(dǎo)致虛擬電機(jī)無法正常運(yùn)轉(zhuǎn),學(xué)生可遠(yuǎn)程連線校外有經(jīng)驗(yàn)的工程師。工程師可看到學(xué)生安裝虛擬設(shè)備的情況,不僅可通過語(yǔ)言指導(dǎo),還能在虛擬環(huán)境中通過增強(qiáng)現(xiàn)實(shí)設(shè)備動(dòng)手演示,解決學(xué)生的問題,這是另外一種形式的工學(xué)結(jié)合。
現(xiàn)今只要是稍具規(guī)模的購(gòu)物商場(chǎng),都會(huì)出現(xiàn)一個(gè)VR體驗(yàn)店,很受年輕人歡迎,相信在不久的將來,增強(qiáng)現(xiàn)實(shí)會(huì)很快研發(fā)出各種觸手可得的娛樂項(xiàng)目,推出AR體驗(yàn)店。
參考文獻(xiàn)參考文獻(xiàn):
[1]MIGRAM,TAKEMURA,UTSUMI,et al.Augmentedreality:a class of displays on the realityvirtuality continuum[J].Spie,1994,2351(34):282292.
[2]楊斌,葉榛,王家廞.虛擬環(huán)境中立體視覺的技術(shù)與應(yīng)用[C].1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議,1998.
[3]劉渭濱,張超,袁保宗.AVR虛擬環(huán)境建模理論與實(shí)踐[C].中國(guó)體視學(xué)學(xué)會(huì)圖像分析專業(yè)、中國(guó)體視學(xué)學(xué)會(huì)仿真與虛擬現(xiàn)實(shí)專業(yè)、中國(guó)航空學(xué)會(huì)信號(hào)與信息處理專業(yè)第一屆聯(lián)合學(xué)術(shù)會(huì)議,2000.
========================================================================================================================================================================
《健康大數(shù)據(jù)挖掘方法研究》
摘要:為了應(yīng)對(duì)當(dāng)今社會(huì)健康數(shù)據(jù)持續(xù)性爆炸增長(zhǎng)的態(tài)勢(shì),從健康大數(shù)據(jù)的概念及特點(diǎn)入手,針對(duì)其數(shù)據(jù)挖掘問題進(jìn)行了研究,明晰了健康大數(shù)據(jù)挖掘的基本流程,重點(diǎn)分析比對(duì)了傳統(tǒng)與新興數(shù)據(jù)挖掘算法的異同及其應(yīng)用范圍,并對(duì)健康大數(shù)據(jù)挖掘的意義及面臨的挑戰(zhàn)進(jìn)行了闡述。最后得到結(jié)論,只有將現(xiàn)有的挖掘算法與新興技術(shù)結(jié)合起來,才是未來健康大數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。
關(guān)鍵詞關(guān)鍵詞:健康大數(shù)據(jù);數(shù)據(jù)挖掘;健康醫(yī)療
0引言
隨著現(xiàn)代科技的進(jìn)步,尤其是信息技術(shù)的高速發(fā)展,傳統(tǒng)數(shù)據(jù)模式已不足以滿足人們的需求,因此大數(shù)據(jù)引起了人們的廣泛關(guān)注。人工智能和數(shù)據(jù)挖掘技術(shù)的成熟也為健康大數(shù)據(jù)的發(fā)展帶來契機(jī),人們身邊無時(shí)無刻不在流動(dòng)著大量有關(guān)健康方面的信息,但是這些數(shù)據(jù)分散在不同的醫(yī)院、健康公司甚至個(gè)人醫(yī)療系統(tǒng)中,而這些系統(tǒng)由不同軟件公司開發(fā),它們之間缺乏聯(lián)系,數(shù)據(jù)結(jié)構(gòu)也不盡相同,從而形成“信息孤島”。因此,需要對(duì)這些潛藏于大數(shù)據(jù)中有價(jià)值的健康信息進(jìn)行分析與挖掘,以使其為健康醫(yī)療服務(wù)。
1健康大數(shù)據(jù)概念及特點(diǎn)
實(shí)際上,目前對(duì)健康大數(shù)據(jù)的定義尚未形成共識(shí),不同學(xué)者對(duì)健康大數(shù)據(jù)的理解不同。本文采用黎建民教授[1]的說法,即健康大數(shù)據(jù)是指所有與醫(yī)療和生命健康相關(guān)的,包括患者在受到照護(hù)期間產(chǎn)生的所有數(shù)據(jù)的總合。
舍恩伯格[2]曾經(jīng)在《大數(shù)據(jù)時(shí)代》一書中講到大數(shù)據(jù)具有4V 特點(diǎn):Volume(海量)、Velocity(快速)、Variety(多樣)、Value(價(jià)值)。健康大數(shù)據(jù)除了完全符合這4個(gè)特點(diǎn)外(見圖1),還具有健康領(lǐng)域特有的一些特征[3],如:①多態(tài)性,健康數(shù)據(jù)包括純數(shù)據(jù)、信號(hào)、圖像、文字等多種形態(tài);②時(shí)序性,患者的就診、疾病發(fā)病過程在時(shí)間上有一個(gè)進(jìn)度;③隱私性,健康大數(shù)據(jù)的隱私性極高,如若泄漏將對(duì)患者造成嚴(yán)重后果;④冗余性,大批相同或相似的健康信息被記錄下來,如與病理特征無關(guān)的檢查信息或?qū)σ恍┏R娂膊〉拿枋鲂畔⒌取?/p>
2健康大數(shù)據(jù)挖掘流程
一個(gè)完整的數(shù)據(jù)挖掘流程包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘與結(jié)果理解4 個(gè)主要組成部分[4](見圖2),健康大數(shù)據(jù)的挖掘也不例外,只是在具體環(huán)節(jié)上采用的算法有所不同。
(1)數(shù)據(jù)收集:針對(duì)所選擇的目標(biāo)進(jìn)行數(shù)據(jù)挖掘,分析與其相關(guān)的所有數(shù)據(jù),也包括目標(biāo)外部的數(shù)據(jù)信息(如天氣、空氣、環(huán)境等外部信息會(huì)對(duì)某些醫(yī)療行為產(chǎn)生影響),并選出適應(yīng)于該挖掘目標(biāo)的數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理:通過收集得到的數(shù)據(jù)中通常存在噪聲、不完整和不一致的數(shù)據(jù),這是數(shù)據(jù)倉(cāng)庫(kù)與大型數(shù)據(jù)庫(kù)的共同特點(diǎn)[5]。因此,需要在挖掘之前對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,以提高其質(zhì)量和分析能力。具體步驟有:數(shù)據(jù)清洗與加工(通過各種方式對(duì)所收集數(shù)據(jù)的準(zhǔn)確性、合法性、完整性、一致性、時(shí)效性等各方面進(jìn)行檢查,對(duì)質(zhì)量差的數(shù)據(jù)進(jìn)行修正甚至刪除)、數(shù)據(jù)標(biāo)準(zhǔn)化(為收集的數(shù)據(jù)建立數(shù)據(jù)集標(biāo)準(zhǔn),并按該標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換、采集)、屬性選擇(采用相應(yīng)算法對(duì)數(shù)據(jù)屬性值進(jìn)行評(píng)估,選取與結(jié)果相關(guān)性高的屬性)。數(shù)據(jù)預(yù)處理過程十分繁瑣,往往占用整個(gè)工作流程一半甚至60%左右的時(shí)間。
(3)數(shù)據(jù)挖掘:又稱為建立模型,需要確定模型的算法和評(píng)價(jià)方法。對(duì)于健康大數(shù)據(jù)的挖掘主要有2種思路:一是根據(jù)之前的經(jīng)驗(yàn)人為建立數(shù)學(xué)模型分析數(shù)據(jù),即傳統(tǒng)算法;二是通過近年來興起的人工智能系統(tǒng),利用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器代替人工獲得從數(shù)據(jù)中提取知識(shí)的能力,即新興算法。模型構(gòu)建之后需要對(duì)模型進(jìn)行評(píng)估和優(yōu)化,若有必要還需返回上一流程進(jìn)行參數(shù)調(diào)整。
(4)結(jié)果分析:即對(duì)模型的解釋,實(shí)際應(yīng)用效果要反饋給建立的模型,而且要根據(jù)應(yīng)用效果進(jìn)行模型的相應(yīng)調(diào)整。
3健康大數(shù)據(jù)挖掘算法
在健康大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),挖掘是關(guān)鍵,數(shù)據(jù)挖掘是健康大數(shù)據(jù)研究中最關(guān)鍵且最有價(jià)值的工作。傳統(tǒng)的挖掘算法有分類、聚類、預(yù)測(cè)、關(guān)聯(lián)規(guī)則等。這些算法在分析健康大數(shù)據(jù)時(shí)依然可以使用,但是由于大數(shù)據(jù)的超大規(guī)模性和快速增長(zhǎng)性,傳統(tǒng)挖掘算法的效率有時(shí)跟不上用戶預(yù)期,而且在處理非結(jié)構(gòu)和半結(jié)構(gòu)化復(fù)雜數(shù)據(jù)時(shí)面臨一定困難。而新興的算法如網(wǎng)絡(luò)爬蟲、云計(jì)算等挖掘方式效率更高,應(yīng)用范圍也更廣,處理實(shí)時(shí)且快速。
3.1傳統(tǒng)算法
3.1.1算法分類
通過找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)即分類標(biāo)號(hào),然后根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性構(gòu)建模型,對(duì)現(xiàn)有數(shù)據(jù)及新數(shù)據(jù)進(jìn)行分類 [6]。具體分類算法有決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯分類等。
其中在健康醫(yī)療領(lǐng)域應(yīng)用比較廣泛的有決策樹算法,決策樹是一種典型的分類算法,其在醫(yī)藥大數(shù)據(jù)的處理中十分常見。決策樹是一種類似于流程圖的樹結(jié)構(gòu),決策樹算法是通過測(cè)試每個(gè)屬性的信息增益,選擇具有最大信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性,并自上而下對(duì)屬性進(jìn)行遞歸劃分從而構(gòu)建樹的算法。它可以提高處理多維且數(shù)量巨大的醫(yī)藥數(shù)據(jù)的速度,因此為數(shù)據(jù)量巨大的醫(yī)療大數(shù)據(jù)處理帶來了便利。 而且,此方法也可以用于一些需要長(zhǎng)期觀察的慢性病研究,分析疾病的變化趨勢(shì),對(duì)疾病作出預(yù)測(cè)。決策樹算法的最大優(yōu)點(diǎn)是它可以自學(xué)習(xí),在學(xué)習(xí)過程中,并不需要使用者了解很多背景知識(shí),只要訓(xùn)練事例能夠用屬性-值的方式表達(dá)出來,就能使用該算法進(jìn)行學(xué)習(xí)。此外,決策樹算法的健壯性較好,還能夠處理非線性關(guān)系。但是它也存在著缺乏伸縮性的缺點(diǎn),即由于進(jìn)行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難以處理大訓(xùn)練集。
3.1.2聚類
聚類類似于分類,但與分類的目的不同。聚類是把不同的對(duì)象集合分成若干個(gè)不同類別的模型,每個(gè)模型具有相似的對(duì)象,有著基本相似的特征,又與其它類別中的對(duì)象不同[7]。聚類算法又分為劃分法(如K-MEANS、K-MEDOIDS算法)、層次法(如BRICH算法)與基于密度的方法(如DBSCAN算法)。通過聚類方法可以對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行分類處理,找出與其它病癥不同或類似的病癥,從而能夠分析出同一病種的微小差異, 做到精準(zhǔn)治療。如Hastie等[8]通過對(duì)疼痛反應(yīng)結(jié)果的聚類分析,完成了對(duì)熱性疼痛、壓力性疼痛、缺血性疼痛的誘因分析。聚類分析在醫(yī)療健康記錄的關(guān)鍵詞分類、生理信號(hào)分析中也發(fā)揮著重要作用。但是也要注意到目前的許多聚類算法都只是理論上的,經(jīng)常處于某種假設(shè)之下,比如聚類能很好地被分離,沒有突出的孤立點(diǎn)等,但現(xiàn)實(shí)中的數(shù)據(jù)尤其是醫(yī)療數(shù)據(jù)通常很復(fù)雜,噪聲也很大。因此,如何有效地消除噪聲影響,提高處理現(xiàn)實(shí)數(shù)據(jù)的能力還有待進(jìn)一步研究。
3.1.3預(yù)測(cè)
預(yù)測(cè)是指基于歷史數(shù)據(jù)建立模型,運(yùn)用數(shù)據(jù)對(duì)未來發(fā)展趨勢(shì)進(jìn)行測(cè)算,以預(yù)先了解事情發(fā)展的結(jié)果。具體預(yù)測(cè)方法有回歸分析(簡(jiǎn)單線性回歸、多元線性回歸、非線性回歸)和時(shí)間序列(時(shí)序平均數(shù)法、移動(dòng)平均法等)。
其中,回歸分析方法在健康領(lǐng)域應(yīng)用較多。回歸分析方法反映的是數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,其主要研究包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列預(yù)測(cè)以及數(shù)據(jù)間的關(guān)系等問題。例如對(duì)醫(yī)院信息系統(tǒng)中醫(yī)療風(fēng)險(xiǎn)因素的回歸分析,即分析各個(gè)影響因素與醫(yī)療風(fēng)險(xiǎn)之間的聯(lián)系及引起風(fēng)險(xiǎn)的概率變化,用于指導(dǎo)醫(yī)院的風(fēng)險(xiǎn)管理。但有時(shí)在回歸分析中,選用何種因子和該因子采用何種表達(dá)式只是一種推測(cè),從而影響了因子的多樣性,使回歸分析在某些情況下受到限制。
3.1.4關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的某種潛在關(guān)系的規(guī)則,也即可以從一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)推導(dǎo)出另一些項(xiàng)在同一事務(wù)中也將出現(xiàn)。該方法能夠發(fā)現(xiàn)醫(yī)療信息數(shù)據(jù)庫(kù)中滿足目的的最小支持度和最小可信度的所有關(guān)聯(lián)規(guī)則,從而揭示隱藏在健康大數(shù)據(jù)中的關(guān)聯(lián)關(guān)系[9]。在一些存在大量用戶醫(yī)療信息的數(shù)據(jù)庫(kù)中,比如個(gè)人健康信息、臨床治療信息、臨床診斷信息等,可以通過這一方法進(jìn)行數(shù)據(jù)的挖掘處理,實(shí)現(xiàn)疾病的臨床決策和特殊疾病診斷[10]。關(guān)聯(lián)規(guī)則算法對(duì)患者所表現(xiàn)出的疾病特點(diǎn)及診療過程研究十分有效,但其也存在著在每一步產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生組合過多的缺點(diǎn),且沒有排除不應(yīng)該參與組合的元素,從而產(chǎn)生過多的候選項(xiàng)目集,導(dǎo)致I/O負(fù)載大。
3.2新興算法
3.2.1云計(jì)算
云計(jì)算作為一種高擴(kuò)展、高彈性、虛擬化的計(jì)算模式,為健康大數(shù)據(jù)挖掘存儲(chǔ)能力及處理速度提升提供了動(dòng)力支撐;谠朴(jì)算的數(shù)據(jù)挖掘是分布式并行數(shù)據(jù)挖掘與服務(wù)模式,一方面對(duì)于同一算法可以分布于多個(gè)節(jié)點(diǎn)上,另一方面多個(gè)算法之間是并行的,多個(gè)節(jié)點(diǎn)的計(jì)算資源可以按需分配;谠朴(jì)算的數(shù)據(jù)挖掘可以將傳統(tǒng)算法,如關(guān)聯(lián)分析、決策樹、神經(jīng)網(wǎng)絡(luò)等算法結(jié)合使用。其主要有以下優(yōu)點(diǎn):①減少費(fèi)用。醫(yī)院或醫(yī)療機(jī)構(gòu)之間不需要單獨(dú)建立一個(gè)計(jì)算中心,只需要在云平臺(tái)上購(gòu)買所需的服務(wù),從而節(jié)省了大量費(fèi)用;②高可靠性。云計(jì)算使用數(shù)據(jù)多副本容錯(cuò)、計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施,從而保障了服務(wù)的高可靠性,使用云計(jì)算比使用本地計(jì)算機(jī)更加可靠;③移動(dòng)化。相比于傳統(tǒng)基于本地的服務(wù),云計(jì)算可以使人們隨時(shí)隨地進(jìn)行移動(dòng)辦公。目前,基于云計(jì)算的大數(shù)據(jù)挖掘在健康領(lǐng)域主要應(yīng)用在醫(yī)學(xué)圖像診斷、臨床決策支持等方面[9]。
3.2.2網(wǎng)絡(luò)爬蟲
運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)打破數(shù)據(jù)壁壘,對(duì)健康大數(shù)據(jù)進(jìn)行整理融合,對(duì)數(shù)據(jù)挖掘具有十分重要的意義。而且先進(jìn)的健康數(shù)據(jù)大都存在于網(wǎng)頁(yè)之中,而運(yùn)用網(wǎng)絡(luò)爬蟲(Web crawler)技術(shù)可以快速、準(zhǔn)確地獲取大量網(wǎng)頁(yè)信息,并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)更新[11]。
網(wǎng)絡(luò)爬蟲的核心原理為: 通過統(tǒng)一資源定位符(URL)地址,利用超文本傳輸協(xié)議 (HTTP) 模擬瀏覽器請(qǐng)求訪問網(wǎng)站服務(wù)器的方式,封裝必要的請(qǐng)求參數(shù),獲取網(wǎng)站服務(wù)器端的許可,返回原始頁(yè)面并解析數(shù)據(jù),其一般工作流程如圖3所示。
卞偉瑋、王永超等[12]利用網(wǎng)絡(luò)爬蟲技術(shù)快速、準(zhǔn)確地獲得公共衛(wèi)生服務(wù)系統(tǒng)的醫(yī)療數(shù)據(jù),并進(jìn)行數(shù)據(jù)整理,為建立人群健康風(fēng)險(xiǎn)評(píng)估模型提供數(shù)據(jù)基礎(chǔ)。然而目前基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)挖掘算法在健康領(lǐng)域的應(yīng)用還不太廣泛,有待進(jìn)一步研究。
4健康大數(shù)據(jù)挖掘面臨的挑戰(zhàn)
目前健康醫(yī)療大數(shù)據(jù)技術(shù)還處于早期發(fā)展階段,許多專業(yè)醫(yī)療機(jī)構(gòu)、研究機(jī)構(gòu)、企業(yè)都參與其中,推出各種特色的應(yīng)用方案,以期挖掘健康醫(yī)療大數(shù)據(jù)的價(jià)值, 促進(jìn)健康醫(yī)療行業(yè)發(fā)展。因此,健康醫(yī)療大數(shù)據(jù)將在醫(yī)療行業(yè)發(fā)揮越來越重要的作用。盡管如此,在實(shí)際應(yīng)用中還存在許多問題和挑戰(zhàn):
(1)數(shù)據(jù)共享困難。“信息孤島”普遍存在,來自不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)結(jié)構(gòu)差異性大,比如各個(gè)醫(yī)院的電子病歷格式都不相同。在這種情況下進(jìn)行挖掘,會(huì)延長(zhǎng)挖掘周期,從而大大限制健康醫(yī)療數(shù)據(jù)的應(yīng)用范圍。
(2)數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。各醫(yī)療機(jī)構(gòu)通常有自己的信息化系統(tǒng),且不同廠商的設(shè)備標(biāo)準(zhǔn)也不一樣,導(dǎo)致挖掘健康大數(shù)據(jù)時(shí)采用的原始數(shù)據(jù)質(zhì)量較差。
(3)隱私保護(hù)堪憂。這主要是由于健康大數(shù)據(jù)的高度隱私性決定的,不同于其它大數(shù)據(jù),健康大數(shù)據(jù)一旦發(fā)生泄漏,將損害患者的人格和尊嚴(yán),特別是基因數(shù)據(jù)。由于每個(gè)人的基因數(shù)據(jù)都不相同,所以一旦泄漏后果不堪設(shè)想。如何在數(shù)據(jù)挖掘和分析過程中保護(hù)好患者隱私,是一項(xiàng)巨大的挑戰(zhàn)。
(4)復(fù)合型人才不足。醫(yī)療行業(yè)缺乏既精通醫(yī)療業(yè)務(wù)又擅長(zhǎng)信息技術(shù)的新型健康管理人才,這已成為阻礙健康大數(shù)據(jù)挖掘技術(shù)應(yīng)用的一大難題。
5結(jié)語(yǔ)
醫(yī)療健康與人類生活息息相關(guān),如今正處在健康醫(yī)療行業(yè)大數(shù)據(jù)分析的一個(gè)重要轉(zhuǎn)折點(diǎn),如何更好地利用身邊的大數(shù)據(jù),促進(jìn)人們生活水平的提高,是一個(gè)亟待解決的問題。健康大數(shù)據(jù)的應(yīng)用,不僅可以為人們帶來更好的醫(yī)療健康服務(wù),更重要的是在應(yīng)用中,利用大數(shù)據(jù)挖掘算法可以不斷發(fā)現(xiàn)新的知識(shí)內(nèi)容,從而促進(jìn)醫(yī)學(xué)技術(shù)進(jìn)步。而每一種數(shù)據(jù)挖掘算法都有其優(yōu)缺點(diǎn),適用范圍也不相同,因此在以后的研究中需要比較每種算法的優(yōu)缺點(diǎn),并將它們與新興技術(shù)結(jié)合起來,這將是未來健康大數(shù)據(jù)研究的重點(diǎn)。
參考文獻(xiàn)參考文獻(xiàn):
[1]黎健民.大數(shù)據(jù)時(shí)代下的醫(yī)療康復(fù)與健康[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2016,13(33):178181.
[2]邁爾舍·恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[3]許培海,黃匡時(shí).我國(guó)健康醫(yī)療大數(shù)據(jù)的現(xiàn)狀、問題及對(duì)策[J].中國(guó)數(shù)字醫(yī)學(xué),2017,12(5):2426.
[4]李雨童,姚登舉,李哲,等.基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究[J].哈爾濱理工大學(xué)學(xué)報(bào),2016,21(2):3843.
推薦閱讀:《大眾硬件》是由大眾軟件雜志社主辦,于2003年1月創(chuàng)刊的一本以電腦硬件為主要內(nèi)容的雜志,目前為月刊。以馬列主義、毛澤東思想、鄧小平理論和“三個(gè)代表”重要思想為指導(dǎo)。
轉(zhuǎn)載請(qǐng)注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/16226.html