574-87125682~574-87285796

軟件開(kāi)發|系統開(kāi)發|信息化建設|物聯網開(kāi)發

KNOWLEDGE/知(zhī)識

分享你(nǐ)我軟件開(kāi)發、系統開(kāi)發方面的感悟

大(dà)數據

發表時(shí)間:2022-08-19 08:39:05

文(wén)章作(zuò)者:小(xiǎo)編

浏覽次數:

對(duì)于“大(dà)數據”(Big data)研究機構Gartner給出了(le)這(zhè)樣的定義。“大(dà)數據”是需要新處理(lǐ)模式才能(néng)具有更強的決策力、洞察發現(xiàn)力和(hé)流程優化能(néng)力來(lái)适應海量、高(gāo)增長率和(hé)多樣化的信息資産。

麥肯錫全球研究所給出的定義是:一種規模大(dà)到(dào)在獲取、存儲、管理(lǐ)、分析方面大(dà)大(dà)超出了(le)傳統數據庫軟件工(gōng)具能(néng)力範圍的數據集合,具有海量的數據規模、快(kuài)速的數據流轉、多樣的數據類型和(hé)價值密度低(dī)四大(dà)特征。[3] 
大(dà)數據技術的戰略意義不在于掌握龐大(dà)的數據信息,而在于對(duì)這(zhè)些(xiē)含有意義的數據進行專業化處理(lǐ)。換而言之,如果把大(dà)數據比作(zuò)一種産業,那麽這(zhè)種産業實現(xiàn)盈利的關鍵,在于提高(gāo)對(duì)數據的“加工(gōng)能(néng)力”,通過“加工(gōng)”實現(xiàn)數據的“增值”。[4] 
從(cóng)技術上(shàng)看(kàn),大(dà)數據與雲計(jì)算(suàn)的關系就像一枚硬币的正反面一樣密不可分。大(dà)數據必然無法用(yòng)單台的計(jì)算(suàn)機進行處理(lǐ),必須采用(yòng)分布式架構。它的特色在于對(duì)海量數據進行分布式數據挖掘。但(dàn)它必須依托雲計(jì)算(suàn)的分布式處理(lǐ)、分布式數據庫和(hé)雲存儲、虛拟化技術。[1] 
随着雲時(shí)代的來(lái)臨,大(dà)數據(Big data)也(yě)吸引了(le)越來(lái)越多的關注。分析師團隊認爲,大(dà)數據(Big data)通常用(yòng)來(lái)形容一個公司創造的大(dà)量非結構化數據和(hé)半結構化數據,這(zhè)些(xiē)數據在下(xià)載到(dào)關系型數據庫用(yòng)于分析時(shí)會(huì)花(huā)費過多時(shí)間和(hé)金(jīn)錢(qián)。大(dà)數據分析常和(hé)雲計(jì)算(suàn)聯系到(dào)一起,因爲實時(shí)的大(dà)型數據集分析需要像MapReduce一樣的框架來(lái)向數十、數百或甚至數千的電腦(nǎo)分配工(gōng)作(zuò)。
大(dà)數據需要特殊的技術,以有效地處理(lǐ)大(dà)量的容忍經過時(shí)間内的數據。适用(yòng)于大(dà)數據的技術,包括大(dà)規模并行處理(lǐ)(MPP)數據庫、數據挖掘、分布式文(wén)件系統分布式數據庫、雲計(jì)算(suàn)平台、互聯網和(hé)可擴展的存儲系統。
最小(xiǎo)的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來(lái)計(jì)算(suàn):
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
容量(Volume):數據的大(dà)小(xiǎo)決定所考慮的數據的價值和(hé)潛在的信息;[5] 
種類(Variety):數據類型的多樣性;[5] 
速度(Velocity):指獲得數據的速度;[5] 
可變性(Variability):妨礙了(le)處理(lǐ)和(hé)有效地管理(lǐ)數據的過程。[5] 
真實性(Veracity):數據的質量。[5] 
複雜(zá)性(Complexity):數據量巨大(dà),來(lái)源多渠道(dào)。[5] 
價值(value):合理(lǐ)運用(yòng)大(dà)數據,以低(dī)成本創造高(gāo)價值。
大(dà)數據包括結構化、半結構化和(hé)非結構化數據,非結構化數據越來(lái)越成爲數據的主要部分。據IDC的調查報(bào)告顯示:企業中80%的數據都是非結構化數據,這(zhè)些(xiē)數據每年都按指數增長60%。[6] 大(dà)數據就是互聯網發展到(dào)現(xiàn)今階段的一種表象或特征而已,沒有必要神話(huà)它或對(duì)它保持敬畏之心,在以雲計(jì)算(suàn)爲代表的技術創新大(dà)幕的襯托下(xià),這(zhè)些(xiē)原本看(kàn)起來(lái)很(hěn)難收集和(hé)使用(yòng)的數據開(kāi)始容易被利用(yòng)起來(lái)了(le),通過各行各業的不斷創新,大(dà)數據會(huì)逐步爲人類創造更多的價值。[7] 
其次,想要系統的認知(zhī)大(dà)數據,必須要全面而細緻的分解它,着手從(cóng)三個層面來(lái)展開(kāi):
第一層面是理(lǐ)論,理(lǐ)論是認知(zhī)的必經途徑,也(yě)是被廣泛認同和(hé)傳播的基線。在這(zhè)裏從(cóng)大(dà)數據的特征定義理(lǐ)解行業對(duì)大(dà)數據的整體描繪和(hé)定性;從(cóng)對(duì)大(dà)數據價值的探讨來(lái)深入解析大(dà)數據的珍貴所在;洞悉大(dà)數據的發展趨勢;從(cóng)大(dà)數據隐私這(zhè)個特别而重要的視(shì)角審視(shì)人和(hé)數據之間的長久博弈。
第二層面是技術,技術是大(dà)數據價值體現(xiàn)的手段和(hé)前進的基石。在這(zhè)裏分别從(cóng)雲計(jì)算(suàn)、分布式處理(lǐ)技術、存儲技術和(hé)感知(zhī)技術的發展來(lái)說明(míng)大(dà)數據從(cóng)采集、處理(lǐ)、存儲到(dào)形成結果的整個過程。
第三層面是實踐,實踐是大(dà)數據的最終價值體現(xiàn)。在這(zhè)裏分别從(cóng)互聯網的大(dà)數據,政府的大(dà)數據,企業的大(dà)數據和(hé)個人的大(dà)數據四個方面來(lái)描繪大(dà)數據已經展現(xiàn)的美(měi)好(hǎo)景象及即将實現(xiàn)的藍圖。[7] 

應用(yòng)

編輯播報(bào)
洛杉矶警察局和(hé)加利福尼亞大(dà)學合作(zuò)利用(yòng)大(dà)數據預測犯罪的發生。
Google流感趨勢(Google Flu Trends)利用(yòng)搜索關鍵詞預測禽流感的散布。
統計(jì)學家内特·西爾弗(Nate Silver)利用(yòng)大(dà)數據預測2012美(měi)國選舉結果。
麻省理(lǐ)工(gōng)學院利用(yòng)手機定位數據和(hé)交通數據建立城(chéng)市規劃。
梅西百貨的實時(shí)定價機制。根據需求和(hé)庫存的情況,該公司基于SAS的系統對(duì)多達7300萬種貨品進行實時(shí)調價。[8] 
醫(yī)療行業早就遇到(dào)了(le)海量數據和(hé)非結構化數據的挑戰,而近年來(lái)很(hěn)多國家都在積極推進醫(yī)療信息化發展,這(zhè)使得很(hěn)多醫(yī)療機構有資金(jīn)來(lái)做大(dà)數據分析。[9] 
現(xiàn)在的社會(huì)是一個高(gāo)速發展的社會(huì),科技發達,信息流通,人們之間的交流越來(lái)越密切,生活也(yě)越來(lái)越方便,大(dà)數據就是這(zhè)個高(gāo)科技時(shí)代的産物。[10] 阿裏巴巴創辦人馬雲來(lái)台演講中就提到(dào),未來(lái)的時(shí)代将不是IT時(shí)代,而是DT的時(shí)代,DT就是Data Technology數據科技,顯示大(dà)數據對(duì)于阿裏巴巴集團來(lái)說舉足輕重。[11] 
有人把數據比喻爲蘊藏能(néng)量的煤礦。煤炭按照性質有焦煤、無煙(yān)煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大(dà)數據并不在“大(dà)”,而在于“有用(yòng)”。價值含量、挖掘成本比數量更爲重要。對(duì)于很(hěn)多行業而言,如何利用(yòng)這(zhè)些(xiē)大(dà)規模數據是赢得競争的關鍵。[12] 
大(dà)數據的價值體現(xiàn)在以下(xià)幾個方面:
(1)對(duì)大(dà)量消費者提供産品或服務的企業可以利用(yòng)大(dà)數據進行精準營銷;
(2)做小(xiǎo)而美(měi)模式的中小(xiǎo)微企業可以利用(yòng)大(dà)數據做服務轉型;
(3)面臨互聯網壓力之下(xià)必須轉型的傳統企業需要與時(shí)俱進充分利用(yòng)大(dà)數據的價值。
不過,“大(dà)數據”在經濟發展中的巨大(dà)意義并不代表其能(néng)取代一切對(duì)于社會(huì)問題的理(lǐ)性思考,科學發展的邏輯不能(néng)被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很(hěn)多人忙碌于資料之無益累積,以緻對(duì)問題之說明(míng)與解決,喪失了(le)其對(duì)特殊的經濟意義的了(le)解。”這(zhè)确實是需要警惕的。
在這(zhè)個快(kuài)速發展的智能(néng)硬件時(shí)代,困擾應用(yòng)開(kāi)發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和(hé)成本之間找到(dào)那個微妙的平衡點。企業組織利用(yòng)相關數據和(hé)分析可以幫助它們降低(dī)成本、提高(gāo)效率、開(kāi)發新産品、做出更明(míng)智的業務決策等等。例如,通過結合大(dà)數據和(hé)高(gāo)性能(néng)的分析,下(xià)面這(zhè)些(xiē)對(duì)企業有益的情況都可能(néng)會(huì)發生:
(1)及時(shí)解析故障、問題和(hé)缺陷的根源,每年可能(néng)爲企業節省數十億美(měi)元。
(2)爲成千上(shàng)萬的快(kuài)遞車輛規劃實時(shí)交通路線,躲避擁堵。
(3)分析所有SKU,以利潤最大(dà)化爲目标來(lái)定價和(hé)清理(lǐ)庫存。
(4)根據客戶的購買習慣,爲其推送他(tā)可能(néng)感興趣的優惠信息。
(5)從(cóng)大(dà)量客戶中快(kuài)速識别出金(jīn)牌客戶。
(6)使用(yòng)點擊流分析和(hé)數據挖掘來(lái)規避欺詐行爲。[13] 
趨勢一:數據的資源化
何爲資源化,是指大(dà)數據成爲企業和(hé)社會(huì)關注的重要戰略資源,并已成爲大(dà)家争相搶奪的新焦點。因而,企業必須要提前制定大(dà)數據營銷戰略計(jì)劃,搶占市場先機。
趨勢二:與雲計(jì)算(suàn)的深度結合
大(dà)數據離不開(kāi)雲處理(lǐ),雲處理(lǐ)爲大(dà)數據提供了(le)彈性可拓展的基礎設備,是産生大(dà)數據的平台之一。自(zì)2013年開(kāi)始,大(dà)數據技術已開(kāi)始和(hé)雲計(jì)算(suàn)技術緊密結合,預計(jì)未來(lái)兩者關系将更爲密切。除此之外(wài),物聯網、移動互聯網等新興計(jì)算(suàn)形态,也(yě)将一齊助力大(dà)數據革命,讓大(dà)數據營銷發揮出更大(dà)的影響力。
趨勢三:科學理(lǐ)論的突破
随着大(dà)數據的快(kuài)速發展,就像計(jì)算(suàn)機和(hé)互聯網一樣,大(dà)數據很(hěn)有可能(néng)是新一輪的技術革命。随之興起的數據挖掘、機器學習和(hé)人工(gōng)智能(néng)等相關技術,可能(néng)會(huì)改變數據世界裏的很(hěn)多算(suàn)法和(hé)基礎理(lǐ)論,實現(xiàn)科學技術上(shàng)的突破。
趨勢四:數據科學和(hé)數據聯盟的成立
未來(lái),數據科學将成爲一門(mén)專門(mén)的學科,被越來(lái)越多的人所認知(zhī)。各大(dà)高(gāo)校将設立專門(mén)的數據科學類專業,也(yě)會(huì)催生一批與之相關的新的就業崗位。與此同時(shí),基于數據這(zhè)個基礎平台,也(yě)将建立起跨領域的數據共享平台,之後,數據共享将擴展到(dào)企業層面,并且成爲未來(lái)産業的核心一環。
趨勢五:數據洩露泛濫
未來(lái)幾年數據洩露事(shì)件的增長率也(yě)許會(huì)達到(dào)100%,除非數據在其源頭就能(néng)夠得到(dào)安全保障。可以說,在未來(lái),每個财富500強企業都會(huì)面臨數據攻擊,無論他(tā)們是否已經做好(hǎo)安全防範。而所有企業,無論規模大(dà)小(xiǎo),都需要重新審視(shì)今天的安全定義。在财富500強企業中,超過50%将會(huì)設置首席信息安全官這(zhè)一職位。企業需要從(cóng)新的角度來(lái)确保自(zì)身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而并非在數據保存的最後一個環節,僅僅加強後者的安全措施已被證明(míng)于事(shì)無補。
趨勢六:數據管理(lǐ)成爲核心競争力
數據管理(lǐ)成爲核心競争力,直接影響财務表現(xiàn)。當“數據資産是企業核心資産”的概念深入人心之後,企業對(duì)于數據管理(lǐ)便有了(le)更清晰的界定,将數據管理(lǐ)作(zuò)爲企業核心競争力,持續發展,戰略性規劃與運用(yòng)數據資産,成爲企業數據管理(lǐ)的核心。數據資産管理(lǐ)效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外(wài),對(duì)于具有互聯網思維的企業而言,數據資産競争力所占比重爲36.8%,數據資産的管理(lǐ)效果将直接影響企業的财務表現(xiàn)。
趨勢七:數據質量是BI(商業智能(néng))成功的關鍵
采用(yòng)自(zì)助式商業智能(néng)工(gōng)具進行大(dà)數據處理(lǐ)的企業将會(huì)脫穎而出。其中要面臨的一個挑戰是,很(hěn)多數據源會(huì)帶來(lái)大(dà)量低(dī)質量數據。想要成功,企業需要理(lǐ)解原始數據與數據分析之間的差距,從(cóng)而消除低(dī)質量數據并通過BI獲得更佳決策。
趨勢八:數據生态系統複合化程度加強
大(dà)數據的世界不隻是一個單一的、巨大(dà)的計(jì)算(suàn)機網絡,而是一個由大(dà)量活動構件與多元參與者元素所構成的生态系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能(néng)者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生态系統。而今,這(zhè)樣一套數據生态系統的基本雛形已然形成,接下(xià)來(lái)的發展将趨向于系統内部角色的細分,也(yě)就是市場的細分;系統機制的調整,也(yě)就是商業模式的創新;系統結構的調整,也(yě)就是競争環境的調整等等,從(cóng)而使得數據生态系統複合化程度逐漸增強。[14] 

IT分析工(gōng)具

編輯播報(bào)
大(dà)數據概念應用(yòng)到(dào)IT操作(zuò)工(gōng)具産生的數據中,大(dà)數據可以使IT管理(lǐ)軟件供應商解決大(dà)廣泛的業務決策。IT系統、應用(yòng)和(hé)技術基礎設施每天每秒都在産生數據。大(dà)數據非結構化或者結構數據都代表了(le)“所有用(yòng)戶的行爲、服務級别、安全、風(fēng)險、欺詐行爲等更多操作(zuò)”的絕對(duì)記錄。
大(dà)數據分析的産生旨在于IT管理(lǐ),企業可以将實時(shí)數據流分析和(hé)曆史相關數據相結合,然後大(dà)數據分析并發現(xiàn)它們所需的模型。反過來(lái),幫助預測和(hé)預防未來(lái)運行中斷和(hé)性能(néng)問題。進一步來(lái)講,他(tā)們可以利用(yòng)大(dà)數據了(le)解使用(yòng)模型以及地理(lǐ)趨勢,進而加深大(dà)數據對(duì)重要用(yòng)戶的洞察力。他(tā)們也(yě)可以追蹤和(hé)記錄網絡行爲,大(dà)數據輕松地識别業務影響;随着對(duì)服務利用(yòng)的深刻理(lǐ)解加快(kuài)利潤增長;同時(shí)跨多系統收集數據發展IT服務目錄。
大(dà)數據分析的想法,尤其在IT操作(zuò)方面,大(dà)數據對(duì)于我們發明(míng)并沒有什(shén)麽作(zuò)用(yòng),但(dàn)是我們一直在其中。Gartner已經關注這(zhè)個話(huà)題很(hěn)多年了(le),基本上(shàng)他(tā)們已經強調,如果IT正在引進新鮮靈感,他(tā)們将會(huì)扔掉大(dà)數據老(lǎo)式方法開(kāi)發一個新的IT操作(zuò)分析平台。[15] 

促進發展

編輯播報(bào)
經李克強總理(lǐ)簽批,2015年9月,國務院印發《促進大(dà)數據發展行動綱要》(以下(xià)簡稱《綱要》),系統部署大(dà)數據發展工(gōng)作(zuò)。
《綱要》明(míng)确,推動大(dà)數據發展和(hé)應用(yòng),在未來(lái)5至10年打造精準治理(lǐ)、多方協作(zuò)的社會(huì)治理(lǐ)新模式,建立運行平穩、安全高(gāo)效的經濟運行新機制,構建以人爲本、惠及全民的民生服務新體系,開(kāi)啓大(dà)衆創業、萬衆創新的創新驅動新格局,培育高(gāo)端智能(néng)、新興繁榮的産業發展新生态。
《綱要》部署三方面主要任務。一要加快(kuài)政府數據開(kāi)放(fàng)共享,推動資源整合,提升治理(lǐ)能(néng)力。大(dà)力推動政府部門(mén)數據共享,穩步推動公共數據資源開(kāi)放(fàng),統籌規劃大(dà)數據基礎設施建設,支持宏觀調控科學化,推動政府治理(lǐ)精準化,推進商事(shì)服務便捷化,促進安全保障高(gāo)效化,加快(kuài)民生服務普惠化。二要推動産業創新發展,培育新興業态,助力經濟轉型。發展大(dà)數據在工(gōng)業、新興産業、農(nóng)業農(nóng)村等行業領域應用(yòng),推動大(dà)數據發展與科研創新有機結合,推進基礎研究和(hé)核心技術攻關,形成大(dà)數據産品體系,完善大(dà)數據産業鏈。三要強化安全保障,提高(gāo)管理(lǐ)水(shuǐ)平,促進健康發展。健全大(dà)數據安全保障體系,強化安全支撐。[16] 
2015年9月18日貴州省啓動我國首個大(dà)數據綜合試驗區(qū)的建設工(gōng)作(zuò),力争通過3至5年的努力,将貴州大(dà)數據綜合試驗區(qū)建設成爲全國數據彙聚應用(yòng)新高(gāo)地、綜合治理(lǐ)示範區(qū)、産業發展聚集區(qū)、創業創新首選地、政策創新先行區(qū)。
圍繞這(zhè)一目标,貴州省将重點構建“三大(dà)體系”,重點打造“七大(dà)平台”,實施“十大(dà)工(gōng)程”。
“三大(dà)體系”是指構建先行先試的政策法規體系、跨界融合的産業生态體系、防控一體的安全保障體系;“七大(dà)平台”則是指打造大(dà)數據示範平台、大(dà)數據集聚平台、大(dà)數據應用(yòng)平台、大(dà)數據交易平台、大(dà)數據金(jīn)融服務平台、大(dà)數據交流合作(zuò)平台和(hé)大(dà)數據創業創新平台;“十大(dà)工(gōng)程”即實施數據資源彙聚工(gōng)程、政府數據共享開(kāi)放(fàng)工(gōng)程、綜合治理(lǐ)示範提升工(gōng)程、大(dà)數據便民惠民工(gōng)程、大(dà)數據三大(dà)業态培育工(gōng)程、傳統産業改造升級工(gōng)程、信息基礎設施提升工(gōng)程、人才培養引進工(gōng)程、大(dà)數據安全保障工(gōng)程和(hé)大(dà)數據區(qū)域試點統籌發展工(gōng)程。
此外(wài),貴州省将計(jì)劃通過綜合試驗區(qū)建設,探索大(dà)數據應用(yòng)的創新模式,培育大(dà)數據交易新的做法,開(kāi)展數據交易的市場試點,鼓勵産業鏈上(shàng)下(xià)遊之間的數據交換,規範數據資源的交易行爲,促進形成新的業态。
國家發展改革委有關專家表示,大(dà)數據綜合試驗區(qū)建設不是簡單的建産業園、建數據中心、建雲平台等,而是要充分依托已有的設施資源,把現(xiàn)有的利用(yòng)好(hǎo),把新建的規劃好(hǎo),避免造成空(kōng)間資源的浪費和(hé)損失。探索大(dà)數據應用(yòng)新的模式,圍繞有數據、用(yòng)數據、管數據,開(kāi)展先行先試,更好(hǎo)地服務國家大(dà)數據發展戰略。[17] 

2016年3月17日,《中華人民共和(hé)國國民經濟和(hé)社會(huì)發展第十三個五年規劃綱要》發布,其中第二十七章“實施國家大(dà)數據戰略”提出:把大(dà)數據作(zuò)爲基礎性戰略資源,全面實施促進大(dà)數據發展行動,加快(kuài)推動數據資源共享開(kāi)放(fàng)和(hé)開(kāi)發應用(yòng),助力産業轉型升級和(hé)社會(huì)治理(lǐ)創新;具體包括:加快(kuài)政府數據開(kāi)放(fàng)共享、促進大(dà)數據産業健康發展。 [1


相關案例查看(kàn)更多