產(chǎn)品推薦

海瑞思Preciset機(jī)房空調(diào)
海瑞思Precise系列專為中小型機(jī)房設(shè)計(jì)的機(jī)房專用空調(diào)Precise...【詳細(xì)】
MPS 10-100 kVA UPS
MPS系列UPS設(shè)備確保任何類型的負(fù)載,最大限度的保護(hù)和電能質(zhì)...【詳細(xì)】

聯(lián)系我們

服務(wù)熱線
010-62104284

地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com

首頁 > 新聞中心 > 云數(shù)據(jù)倉庫是什么樣子的?

云數(shù)據(jù)倉庫是什么樣子的?

雙擊自動(dòng)滾屏 發(fā)布者:精密空調(diào) 發(fā)布時(shí)間:2019-07-16 09:13:39 閱讀:次【字體:

當(dāng)數(shù)據(jù)倉庫可以處理非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)湖可以運(yùn)行分析時(shí),組織如何決定使用哪種方法?這取決于其需要采用數(shù)據(jù)回答新問題的頻率。

傳統(tǒng)上,數(shù)據(jù)倉庫收集來自組織業(yè)務(wù)的所有結(jié)構(gòu)化數(shù)據(jù),因此組織可以將其集成到單個(gè)數(shù)據(jù)模型中,運(yùn)行分析并獲取商業(yè)智能,無論是用于開發(fā)新產(chǎn)品還是向客戶營銷現(xiàn)有服務(wù)。這曾經(jīng)被稱為"大數(shù)據(jù)",但現(xiàn)在所有組織都擁有來自電子商務(wù)網(wǎng)站、物聯(lián)網(wǎng)設(shè)備和傳感器等來源的大量數(shù)據(jù),因此現(xiàn)代數(shù)據(jù)倉庫需要處理結(jié)構(gòu)化、非結(jié)構(gòu)化和流媒體數(shù)據(jù),并提供實(shí)時(shí)數(shù)據(jù)分析以及商業(yè)智能和報(bào)告。

越來越多的組織在云中實(shí)現(xiàn)這一目標(biāo),以實(shí)現(xiàn)更高的速度和更低的成本。微軟Azure公司副總裁Julia White指出,越來越多的數(shù)據(jù)可能已經(jīng)存在于云中,以及組織想要使用這些數(shù)據(jù)的服務(wù)。White說,"隨著數(shù)據(jù)越來越多地遷移到云端,無論是來自SaaS應(yīng)用程序還是只遷移到云端的應(yīng)用程序;運(yùn)營數(shù)據(jù)就在云端,客戶在詢問'為什么我要將運(yùn)營數(shù)據(jù)從云端遷回到內(nèi)部部署數(shù)據(jù)中心進(jìn)行分析?它沒有意義。'"他指出,盡管組織內(nèi)部仍然有大量的數(shù)據(jù),而且隨著邊緣計(jì)算的發(fā)展,還會(huì)有更多的數(shù)據(jù),但許多客戶還是會(huì)將部分或全部數(shù)據(jù)轉(zhuǎn)移到云平臺(tái)上,這取決于法規(guī)遵從性問題。

White指出,"每個(gè)企業(yè)都在研究人工智能。他們很快意識(shí)到分析是其基礎(chǔ),他們開始問'我的分析和我的數(shù)據(jù)倉庫的狀態(tài)是什么?',而且往往不夠好。" Power BI的普及也推動(dòng)了更多的微軟客戶進(jìn)行云計(jì)算分析。White說,"當(dāng)他們有了這些強(qiáng)大的數(shù)據(jù)可視化功能后,他們開始質(zhì)疑自己的分析能力——'我想知道數(shù)據(jù)可視化背后發(fā)生了什么:我喜歡Power BI,我希望我的分析更有趣。"

更復(fù)雜的客戶希望分析他們自己的Office Graph數(shù)據(jù)(組織可以使用Azure Data Factory將其復(fù)制到Azure Data Lake)或利用Microsoft、Adobe和SAP(基于Azure Data構(gòu)建的)之間的開放數(shù)據(jù)計(jì)劃(ODI)數(shù)據(jù)湖并將最終整合來自更多軟件供應(yīng)商的數(shù)據(jù)。White說,"Azure Data Lake與Azure數(shù)據(jù)倉庫緊密結(jié)合,客戶正在使用Azure數(shù)據(jù)倉庫獲取更多見解,并在其上構(gòu)建現(xiàn)代數(shù)據(jù)倉庫。"

采用哪種數(shù)據(jù)服務(wù)? 微軟公司擁有一系列看起來有點(diǎn)像數(shù)據(jù)倉庫的云計(jì)算服務(wù),最明顯的是Azure SQL數(shù)據(jù)倉庫或微軟經(jīng)常稱之為的"DW",但也有Azure數(shù)據(jù)工廠、Azure數(shù)據(jù)湖、Azure數(shù)據(jù)庫、Power BI和Azure機(jī)器學(xué)習(xí),以及更多打包服務(wù),如Dynamics 365中的人工智能銷售工具。

理解它們的方法不僅僅是關(guān)注它們提供的工具,還要關(guān)注它們所服務(wù)的用戶以及它們?nèi)绾螀f(xié)同工作。這是因?yàn)槠髽I(yè)通常擁有的數(shù)據(jù)在多個(gè)數(shù)據(jù)存儲(chǔ)中分散,創(chuàng)建現(xiàn)代數(shù)據(jù)倉庫的第一步是整合所有這些孤島。微軟Azure上的這些不同數(shù)據(jù)存儲(chǔ)越多,連接就越容易——這也是微軟Azure提供如此多不同數(shù)據(jù)服務(wù)的原因之一。White表示,"另一方面,客戶并不是在尋找可以做任何事情的單一工具,有一系列細(xì)微差別的選擇,如果真的要挑選,并優(yōu)化自己的場(chǎng)景使用的工具。" Azure DW適用于處理策劃數(shù)據(jù)的數(shù)據(jù)工程師。這可能是來自SQL Server數(shù)據(jù)庫的數(shù)據(jù),但它也可能是來自這些數(shù)據(jù)工程師使用Databricks或Spark和.NET從Azure HDInsight等源準(zhǔn)備數(shù)據(jù)的管道構(gòu)建的數(shù)據(jù)。

Azure數(shù)據(jù)工廠是數(shù)據(jù)工程師進(jìn)行數(shù)據(jù)ETL(提取、轉(zhuǎn)換、加載)的另一項(xiàng)服務(wù)。組織可以將其視為云計(jì)算層級(jí)ETL工具,組織可以通過拖放界面(實(shí)際上是Logic Apps)或使用Python、Java或.NET SDK(如果組織更喜歡編寫代碼來執(zhí)行)來使用數(shù)據(jù)轉(zhuǎn)換和管理數(shù)據(jù)管道的不同步驟,通過Databricks或HDInsight、Azure Data Lake或Power BI。

Power BI還可以使用Dataflows(也是免代碼)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,但這是為業(yè)務(wù)分析師提供的自助服務(wù)功能。數(shù)據(jù)工程師或全職商業(yè)智能分析師可能會(huì)使業(yè)務(wù)用戶使用這些語義模型,而微軟公司正在將更多與Azure DW的集成添加到Power BI中。

Power BI用戶可以在其可視化和報(bào)告中添加人工智能。其中一些可能是使用微軟公司預(yù)先構(gòu)建的認(rèn)知服務(wù)來進(jìn)行圖像識(shí)別和情感分析。但他們也可能正在使用數(shù)據(jù)工程師在Azure機(jī)器學(xué)習(xí)服務(wù)中為他們構(gòu)建的自定義人工智能模型,并使用所有企業(yè)數(shù)據(jù)。

現(xiàn)代數(shù)據(jù)倉庫匯集了任何規(guī)模的數(shù)據(jù),通過分析儀表板、運(yùn)營報(bào)告或高級(jí)分析提供洞察力。

數(shù)據(jù)湖附近的倉庫 這些場(chǎng)景的復(fù)雜性就是數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的界限開始在云中看起來有些混亂的原因。傳統(tǒng)的數(shù)據(jù)倉庫允許企業(yè)從多個(gè)來源獲取數(shù)據(jù),并使用ETL轉(zhuǎn)換將該數(shù)據(jù)放入單個(gè)模式和單個(gè)數(shù)據(jù)模型中,該軟件旨在回答組織計(jì)劃一遍又一遍地提出的問題。

這些來源不必是結(jié)構(gòu)化的關(guān)系數(shù)據(jù):SQL Server和Azure DW中的PolyBase和JSON支持意味著組織可以連接來自非關(guān)系存儲(chǔ)的數(shù)據(jù),如HDFS、Cosmos DB、MySQL、MongoDB以及Oracle、Teradata、PostgreSQL。這意味著數(shù)據(jù)倉庫(甚至SQL Server)看起來更像數(shù)據(jù)湖。

通過數(shù)據(jù)湖,組織可以獲取多個(gè)數(shù)據(jù)存儲(chǔ),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),并以其本機(jī)格式或接近該格式的方式存儲(chǔ)它們,因此組織可以擁有多個(gè)數(shù)據(jù)模型和多個(gè)數(shù)據(jù)模式,并且能夠靈活地從同一數(shù)據(jù)中問出新問題(用于Azure Data Lake查詢的SQL變體稱為U-SQL,不僅僅因?yàn)樗荰-SQL之后的下一個(gè)版本,而且因?yàn)榻M織可能需要一個(gè)U-boat進(jìn)入數(shù)據(jù)湖,并找出隱藏在黑暗深處的東西。) 如果組織有問題需要反復(fù)詢問(例如銷售分析或監(jiān)控儀表板的交付時(shí)間),組織可以從數(shù)據(jù)的相關(guān)部分創(chuàng)建數(shù)據(jù)倉庫。但如果問題隨著時(shí)間的推移而發(fā)生變化,或者組織需要提出新問題,可以返回?cái)?shù)據(jù)湖,在那里保存原始數(shù)據(jù),并創(chuàng)建另一個(gè)數(shù)據(jù)倉庫來回答這些問題。

這兩者的結(jié)合是微軟公司通過現(xiàn)代數(shù)據(jù)倉庫基礎(chǔ)設(shè)施的意義。組織可以從不同的地方獲取各種數(shù)據(jù),在數(shù)據(jù)湖中使用它來進(jìn)行實(shí)時(shí)分析,或者使用機(jī)器學(xué)習(xí)來發(fā)現(xiàn)模式,告訴組織可以從數(shù)據(jù)中獲得哪些見解,并將其與熟悉的數(shù)據(jù)相結(jié)合數(shù)據(jù)倉庫工具有效地回答這些問題。

微軟公司沒有為所有這些服務(wù)提供單一服務(wù)。組織可以使用各種Azure服務(wù)執(zhí)行不同的部分,這意味著組織可以選擇所需的部分,但這也意味著組織需要擁有數(shù)據(jù)專業(yè)知識(shí)來構(gòu)建自己的特定系統(tǒng)。

來源:精密空調(diào) http://mygoldentreasures.com

?
在線咨詢 電話咨詢