怎樣跨歷史數(shù)據(jù)和實時數(shù)據(jù)進行實時分析

所屬分類：經(jīng)濟論文閱讀次時間：2019-12-09 17:03

本文摘要：當今的分析需求給現(xiàn)有數(shù)據(jù)基礎設施帶來了前所未有的壓力。能否跨操作和存儲數(shù)據(jù)執(zhí)行實時分析對業(yè)務成功來說非常重要，但實現(xiàn)起來總是充滿挑戰(zhàn)。有一家航空公司，他們希望收集并分析其噴氣發(fā)動機的連續(xù)數(shù)據(jù)流，以實現(xiàn)預測性維護，更快地解決問題。每臺發(fā)動機

　　當今的分析需求給現(xiàn)有數(shù)據(jù)基礎設施帶來了前所未有的壓力‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。能否跨操作和存儲數(shù)據(jù)執(zhí)行實時分析對業(yè)務成功來說非常重要，但實現(xiàn)起來總是充滿挑戰(zhàn)‍‌‍‍‌‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‌‍‍‍‌‍‍‍‍‌‍‌‍‌‍‌‍‍‌‍‍‍‍‍‍‍‍‍‌‍‍‌‍‍‌‍‌‍‌‍。

大數(shù)據(jù)

　　有一家航空公司，他們希望收集并分析其噴氣發(fā)動機的連續(xù)數(shù)據(jù)流，以實現(xiàn)預測性維護，更快地解決問題。每臺發(fā)動機都有數(shù)百個傳感器，用于監(jiān)測溫度、速度和振動等參數(shù)，并將這些信息不斷地發(fā)送到物聯(lián)網(wǎng)(IoT)平臺。物聯(lián)網(wǎng)平臺接收、處理和分析數(shù)據(jù)后，將其存儲在數(shù)據(jù)湖(也稱為操作數(shù)據(jù)存儲)中，只有最新的數(shù)據(jù)保留在操作數(shù)據(jù)庫中。

　　現(xiàn)在，只要實時數(shù)據(jù)中的異常讀數(shù)觸發(fā)某一引擎的警報，航空公司就需要對該引擎的實時操作數(shù)據(jù)和存儲的歷史數(shù)據(jù)同時進行實時分析。然而，航空公司可能會發(fā)現(xiàn)，利用其現(xiàn)有基礎設施不可能進行實時分析。

　　如今，開發(fā)大數(shù)據(jù)計劃的企業(yè)通常使用Hadoop將其操作數(shù)據(jù)的副本存儲在數(shù)據(jù)湖中，數(shù)據(jù)科學家可以訪問其中的數(shù)據(jù)，進行各種分析。當實際應用需要對輸入的操作數(shù)據(jù)以及存儲在數(shù)據(jù)湖中的數(shù)據(jù)子集進行實時分析時，傳統(tǒng)的基礎設施就成了絆腳石。訪問存儲在數(shù)據(jù)湖中的數(shù)據(jù)時存在固有的延遲，跨數(shù)據(jù)湖和操作數(shù)據(jù)運行聯(lián)合查詢也會遇到挑戰(zhàn)。

　　內(nèi)存計算解決方案具有實時性能、極強的可擴展性，并且能與流行的數(shù)據(jù)平臺進行內(nèi)置集成，從而解決了跨數(shù)據(jù)湖和操作數(shù)據(jù)進行實時分析的難題。這些功能使混合業(yè)務/分析處理(HTAP)功能能夠跨數(shù)據(jù)湖和操作數(shù)據(jù)集進行實時聯(lián)合查詢。

　　內(nèi)存計算平臺功能

　　內(nèi)存計算平臺支持對操作數(shù)據(jù)的接收、處理和分析，對于以下部分或者全部項目還支持實時性能和PB級擴展：內(nèi)存數(shù)據(jù)網(wǎng)格和內(nèi)存數(shù)據(jù)庫。內(nèi)存數(shù)據(jù)網(wǎng)格和內(nèi)存數(shù)據(jù)庫匯集了服務器集群的可用內(nèi)存和計算能力，允許在內(nèi)存中處理數(shù)據(jù)，并消除了在處理前等待從磁盤檢索數(shù)據(jù)的延時。內(nèi)存中的數(shù)據(jù)網(wǎng)格部署在現(xiàn)有數(shù)據(jù)庫之上，并保持與底層數(shù)據(jù)庫的同步，而內(nèi)存中的數(shù)據(jù)庫則在內(nèi)存中維持完整的數(shù)據(jù)集，周期性地將數(shù)據(jù)寫入硬盤，僅用于備份和恢復目的。內(nèi)存中的數(shù)據(jù)網(wǎng)格和內(nèi)存中的數(shù)據(jù)庫可以部署在本地、公有云或者私有云中，也可以部署在混合環(huán)境中。

　　·流數(shù)據(jù)處理。內(nèi)存計算平臺可以從流行的流媒體平臺(例如，ApacheKafka)實時獲取、處理和分析大批量的數(shù)據(jù)流。

　　·機器學習和深度學習。結(jié)合了機器學習庫的內(nèi)存計算平臺支持使用操作數(shù)據(jù)對機器學習模型進行實時訓練。內(nèi)存計算平臺可與TensorFlow等深度學習平臺進行本機集成，能夠顯著降低準備數(shù)據(jù)并將數(shù)據(jù)傳輸?shù)竭@些深度學習訓練平臺的成本和復雜性。

　　·聯(lián)合查詢。一些內(nèi)存計算平臺利用與流行的流數(shù)據(jù)平臺(包括ApacheKafka和ApacheSpark)的內(nèi)置集成特性，實現(xiàn)跨數(shù)據(jù)湖和操作數(shù)據(jù)集的聯(lián)合查詢。

　　ApacheKafka用于構(gòu)建實時數(shù)據(jù)流水線和流式應用程序，為輸入數(shù)據(jù)的實時處理提供數(shù)據(jù)。ApacheSark是一個統(tǒng)一的分析引擎，可以執(zhí)行大規(guī)模的數(shù)據(jù)處理，包括跨Hadoop數(shù)據(jù)湖和操作數(shù)據(jù)庫，對數(shù)據(jù)進行聯(lián)合查詢。

　　·混合業(yè)務/分析處理(HTAP)或者混合操作/分析處理(HOAP)。采用HTAP、HOAP或者業(yè)務分析，企業(yè)能夠維護一個單一的數(shù)據(jù)集，在該數(shù)據(jù)集上他們可以同時執(zhí)行業(yè)務和分析處理，從而消除了把數(shù)據(jù)從專用業(yè)務數(shù)據(jù)庫移動到獨立的專用分析數(shù)據(jù)庫所需的昂貴而又緩慢的提取、轉(zhuǎn)換和加載(ETL)過程。

　　從ApacheKafka到ApacheSpark再到實時深度分析

　　本例中的航空公司采用與Kafka、Spark和Hadoop集成后的內(nèi)存計算平臺，能夠針對某一引擎，同時對其實時操作數(shù)據(jù)和歷史數(shù)據(jù)運行實時分析。ApacheKafka向內(nèi)存計算平臺提供實時流數(shù)據(jù)。內(nèi)存計算平臺在內(nèi)存中維護操作和溫度數(shù)據(jù)，并跨數(shù)據(jù)集運行實時查詢。Spark從數(shù)據(jù)湖中檢索歷史數(shù)據(jù)，從內(nèi)存計算平臺中檢索溫度操作數(shù)據(jù)，通過跨數(shù)據(jù)孤島運行查詢來實現(xiàn)更深入的深度分析。有了這種架構(gòu)后，航空公司就能夠即時深度分析產(chǎn)生異常讀數(shù)的原因。

　　現(xiàn)代數(shù)據(jù)基礎架構(gòu)最受歡迎的一些優(yōu)點包括：預測性維護和更快地解決問題，從而讓客戶更加滿意，提高資產(chǎn)利用率，獲得更高的投資回報率……等等。使用內(nèi)存計算平臺對操作數(shù)據(jù)和數(shù)據(jù)湖數(shù)據(jù)子集運行實時分析，可以使這些以及其他新的實時物聯(lián)網(wǎng)服務成為現(xiàn)實。NikitaIvanov是GridGain系統(tǒng)公司的聯(lián)合創(chuàng)始人和首席技術(shù)官，負責領導開發(fā)先進和分布式內(nèi)存數(shù)據(jù)處理技術(shù)。他在軟件應用程序開發(fā)、構(gòu)建HPC和中間件平臺方面有20多年的經(jīng)驗，并為Adaptec，Visa和BEA系統(tǒng)等公司的工作做出了貢獻。

　　數(shù)據(jù)分析師評職知識：大數(shù)據(jù)論文發(fā)表容易投稿嗎

　　大數(shù)據(jù)如今應用是比較廣泛的，這方面可以寫作的關(guān)聯(lián)熱詞有很多，比如數(shù)據(jù)分析，云計算，數(shù)據(jù)挖掘等，這樣的論文也是很容易投稿的。大家可以發(fā)表一些熱門的選題論文，選題要新穎，這樣投稿成功率是比較高的。