在過(guò)去的幾年里,人們從知道大數據的概念,發(fā)展到一些組織能夠真正實(shí)施一些大數據項目。然而,在一些組織的數據中心團隊負責實(shí)施這些業(yè)務(wù)驅動(dòng)的舉措之后,現在才開(kāi)始認識到實(shí)現真正大數據集成的復雜性和深度。
大數據通過(guò)人們生活,工作平臺,應用程序,以及設備提供了多種格式的大量的數據。大量的結構化和非結構化的內容往往使用戶(hù)非常難以訪(fǎng)問(wèn)和分析所需的信息。
現代數據中心往往是一個(gè)復雜的系統,相互連接的服務(wù)器和設備存儲,處理和分發(fā)各種來(lái)源的大量信息。但智能大數據整合,在改造傳統的信息系統,可以緩解從地理位置分散的網(wǎng)站,甚至其他數據中心的聚集和分析信息的斗爭。
如果一個(gè)數據中心是一個(gè)組織的大腦,那么可以認為其數據源就是反饋給神經(jīng)和細胞的信息。智能大數據集成意味著(zhù)該組織的“神經(jīng)系統”,為整個(gè)企業(yè)快速傳達信息,為現代商業(yè)生態(tài)系統起著(zhù)至關(guān)重要的作用。但這也意味著(zhù)數據中心的管理人員將獲得他們尋求的準確和高效的數據處理的安全性,質(zhì)量,控制和管理。
從哪里開(kāi)始
任何大數據項目的目的是為了獲得更好的結果,其中包括直接進(jìn)行實(shí)時(shí)洞察和基于循環(huán)模式的長(cháng)期觀(guān)點(diǎn),但首先你必須克服早期的集成挑戰。所以要問(wèn)你自己:
· 你所有的關(guān)鍵數據來(lái)自哪里?
· 你的組織如何聚合并快速移動(dòng)所有的數據?
· 如何分析可用的數據是否有價(jià)值?
· 通過(guò)在技術(shù)和基礎設施方面的投資,你的企業(yè)如何才能最大限度地發(fā)揮價(jià)值?
最終,大數據整合攝入,準備和提供的數據,不管是什么來(lái)源。這包括利用在企業(yè)每一類(lèi)型的數據,包括復雜的,往往是非結構化的機器產(chǎn)生的數據,這通常需要一個(gè)更加融合的數據中心的基礎設施。
因此,第一步驟,可以說(shuō)是最重要的一步,是整合所有可用的數據。以下是確定你的大數據集成項目有效實(shí)施的三個(gè)關(guān)鍵領(lǐng)域。
(1)可靠的數據流
攝入大數據到一個(gè)平臺,像ApacheHadoop這樣的平臺是不夠智能的,不足以啟動(dòng)一個(gè)Hadoop集群,輸入所有類(lèi)型的數據,并得出具有突破性的新見(jiàn)解,展現自己。大數據行業(yè)廠(chǎng)商似乎每一個(gè)星期都在發(fā)布新的工具和升級版本,甚至將某一技術(shù)引入到你的堆棧,雖然功能并不強大,但卻可以使你的整個(gè)平臺過(guò)時(shí)。
這是常見(jiàn)的企業(yè)應用程序和集群之間的經(jīng)驗數據流和數據退化問(wèn)題。因此,大多數反應涉及手工編碼正在嘗試努力工作,并拋棄一些其他類(lèi)型的技術(shù)。通常情況下,這是一個(gè)解決方案。但這不是最終的解決辦法。
采用一個(gè)安全的,敏捷的集成平臺,專(zhuān)注于調動(dòng)實(shí)際的數據流進(jìn)出數據中心的管道,確保在越來(lái)越復雜的工作場(chǎng)所的生態(tài)系統進(jìn)行可靠的信息交換。
(2)可擴展性
目前存在一些主要的整合,治理和安全問(wèn)題,需要針對不同層次的大數據采取不同的舉措,特別是在數據中心。我們今天正在經(jīng)營(yíng)業(yè)務(wù)在其規模和信息方面日益龐大,這使得數據成為“大數據”。而人們需要跨越地域和傳統的數據中心來(lái)管理大數據,那些過(guò)時(shí)陳舊的工具已經(jīng)嚴重低估了現代需求。
隨著(zhù)企業(yè)的發(fā)展和新的數據源開(kāi)始發(fā)揮作用,需要增加不同的技術(shù),你的系統將無(wú)一例外地必須適應。如果你將現在的問(wèn)題通過(guò)手工編碼解決,當你試圖擴展之后,會(huì )不會(huì )在擁有它以后拋棄它?
簡(jiǎn)單地增加更多的工作人員或代碼的問(wèn)題并不是一個(gè)可擴展的策略,也不會(huì )解決復雜的大數據傳輸問(wèn)題。需要有一個(gè)堅實(shí)的數據集成和管理平臺下的商業(yè)智能工具,可以輕松地擴展,采用眾多的大數據工具,并且其來(lái)源而不中斷。
(3)數據質(zhì)量,分類(lèi),治理
而從結構化數據出來(lái)的CRM和ERP應用程序通常很好地進(jìn)行企業(yè)的分析,但它是非結構化的數據,更加難以管理。企業(yè)必須以某種方式治理信息混亂,因為即使是最小的數據質(zhì)量的問(wèn)題也會(huì )產(chǎn)生巨大的錯誤。成功的公司在元數據級別上做到這一點(diǎn)。
通過(guò)元數據定義信息是至關(guān)重要的,因為它提供了來(lái)自大數據的結構,幫助進(jìn)行分類(lèi)和整理這些信息以后可以輕松找到。當信息流動(dòng)到你的數據湖,必須進(jìn)行某種分類(lèi),因此你正在做分析的數據實(shí)際上是準確的。
企業(yè)在錯誤的數據方面浪費了一些技術(shù)周期,特別是昂貴的今天。所有這些質(zhì)量和分類(lèi)必須在某一點(diǎn)上進(jìn)行,但它應該在早期的水平,即使在集成周期。企業(yè)認為在數據質(zhì)量的早期可以得到更好的,更有價(jià)值的分析。
總結:
每一個(gè)組織都會(huì )成為一個(gè)數據組織,或是被甩在后面。是什么使一個(gè)公司可以獨有他們的數據,并更好地使用數據。因此,一個(gè)成功的大數據項目最終取決于一個(gè)組織的捉捕其數據的能力。
快速攝入和處理的大數據,需要一個(gè)可靠的集成基礎設施,可以很容易地擴展以容納大量的數據量,驅動(dòng)實(shí)時(shí)訪(fǎng)問(wèn),并支持每一個(gè)請求分析。利用信息,以獲得競爭優(yōu)勢,這聽(tīng)起來(lái)很偉大,但只有可靠準確地集成了所有的數據源之后,才能建立一個(gè)可用的數據湖。
當正確的信息傳遞給正確的人,所以可以理解并采取行動(dòng)最大限度地提高大數據整合的價(jià)值。但是,只有當企業(yè)支持提供了大數據下的投資和可靠的集成平臺,他們將獲得每個(gè)企業(yè)都在尋求大數據的最佳回報。