『壹』 什麼是大數據時代
在大數據與深度學習中蝶化的人工智慧。當代人工智慧離不開大數據和深度學習演算法。我們先來了解什麼是大數據,大數據的本質是什麼,在大數據時代我們應該如何應對?
當我們談論數據的時候我們在談什麼?在大部分人的日常印象中,數據代表的可能是每月水電煤賬單上的數字,股票k線圖上的紅綠指數,還有可能是電腦文件里那一堆看不懂的源代碼。
人工智慧眼中的數據遠比這些廣泛。數據的存在形式隨著人類文明的發展不斷改變,從最初的聲音,文字,圖畫,數字,到電子時代的每一張圖片,每一段語音,每一個視頻,再到如今互聯網時代人類每一次的滑鼠點擊,用手機時每一次的手指滑動,乃至每一下心跳和呼吸,甚至經濟生產中的一切人機動作,軌跡,都已融入數據流。今天的人類已經能夠將各種或大或小的事物轉化為數據記錄,變成我們生活的一部分。數據已經浸染我們生活的每一個細節,就如生物學家所說人體組織的一半是由微生物組成,在數字時代,我們生活的一半已然是數據。在日常生活中,數據的概念對於我們即親近又陌生。親近它是因為我們從小就會接觸加減乘除這些最基本的數據和演算法。步入社會後也在與各種文件報表賬單打交道。與此同時,當面對高科技產品中各種關於內存,解析度等時髦又復雜的數據是,我們又覺得不了解它們甚至沒意識到它們的存在。隨著大數據,機器演算法和人工智慧的理念相繼到來,這種陌生感會越發加深。
那麼數據生活距離我們遙遠嗎?正相反,數據與我們日常生活的聯系從未如此緊密過,從沒有像今天如此活躍,具體的記錄著人類與世界。從最初的計算機,攝像頭到家用計算機,智能手機,再到大數據和人工智慧,我們不斷升級採集和利用數據的方式。而現在,從一輛車的每日碳排放量統計到全球氣溫的檢測,從預測個人在網上喜好分析到總統選舉時投票趨勢的預測,我們都可以做到。數據將人與人,人與世界連接起來,構成一張繁密的網路,每個人都在影響世界,又在被他人影響著。傳統的統計方法已經無法處理這種相互影響的數據,這么辦?答案是讓機器自己來處理數據,從數據中習得知識。這便是當代人工智慧的本質。與傳統的數據記錄定義不同,這種數據是有「生命」的。它更像是我們身體的一種自然延伸:聆聽我們的聲音,拓寬我們的視野,加深我們的記憶,甚至組成一個以數據形式存在的「我」。
自工業革命以來,數據經歷過一次又一次的爆發,何以近年來才出現大數據的概念?什麼是大數據?
大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。從概念中可以得知大數據技術的關鍵 不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。從技術上看,大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。大數據必須具有幾大特徵:
一,大數據的「大」。與傳統數據的儲存方式相比是幾何量級的差距。
二,多維度。表示大數據可以對一個事物進行多方位的描述,從而更准確。
三,處理非結構數據的能力。未來10年新生數據總量的90%為非結構化數據。大數據通過圖像識別,語音識別,自然語言分析等技術計算,分析大量非結構化數據,大大提升數據維度。
四,大數據是生生不息的「流」,具有時間性。一是因為數據量巨大,無法全部儲存。另一方面是大數據和人類生生不息的行動相關,瞬息萬變。
五,最重要的是,大數據的大表現為無盡的重復。量變促成質變,在機器智能領域,數據量的大小和處理速度的快慢可以直接決定智力水平的高低。
希望對您有所幫助!~
『貳』 大數據時代的產生背景
一、大數據時代城市管理的機遇:
首先,有利於數字化城市建設。城市化過程中出現的管理問題,傳統的城市管理方式早已對我國出現的城市問題束手無策,在大數據時代到來的背景下,數字化城市建設就呼之欲出。
其次,有利於電子政務建設。長期以來,我國政府在處理公共事務時都基本採用了傳統的處理方式,紙質化的模式占據了主要地位。隨著信息技術的不斷更新以及大數據時代的到來,電子政務也隨之應運而生。由於大數據時代的特點以及不斷更新發展,電子政務的形式也不斷得到更新。
最後,有利於智慧城市建設。智慧城市建設則是在大數據技術上產生的城市建設和管理方案。可見,大數據時代的到來更加有利於我國的智慧城市建設,為智慧城市的最終建成提供真實可靠的信息基礎。會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
二、大數據時代城市管理的挑戰 :
大數據時代,機遇存在的同時也不可避免會遇到許多挑戰,數據開放不足、數據共享不足、數據質量不優等等都面臨著嚴峻的挑戰。
首先,數據開放不足。數據是信息的重要載體,信息的公開在一定意義上就是數據的公開。在所有的數據公開中,政府相關數據公開尤為引人矚目。國外早就對數據公開確立了「公開為原則,不公開為例外」的原則,我國也有類似規定,但是真實執行情況令人堪憂。
其次,數據共享不足。就目前來看,誰掌握了大量真實可靠的信息,誰就掌握了主動權,信息在一定程度上就是權威的象徵,權力和利益的象徵。再者,政府各部門大部分存在利己傾向, 信息就會在一定程度上難以實現真正共享。另外,因為信息化很不平衡,各地各部門使用的信息技術標准很難統一,最後導致數據孤島的現象也並非個例。
然後,數據質量不優。數據質量問題直接影響依靠數據獲得的信息的真實有效性,最終影響整體決策的有效性。數據質量主要包括數據的真實性、完整性和有效性。數據在收集、整合、存儲和使用四個階段當中,每個階段都極有可能出現數據質量問題。在我國城市管理中,各級各部門每天都會面對大量繁瑣的數據,數據收集渠道主要有下級單位上報數據、調查統計、普查等等,每一個渠道也同樣會有很多因素影響數據質量。
『叄』 大數據時代是什麼意思大數據是在什麼背景下提出的
大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據產生背景:
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。
它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。

(3)雲計算與大數據時代的量化投資擴展閱讀
大數據時代的特徵
1、數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
2、類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
3、價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
參考資料來源:網路-大數據時代
『肆』 大數據專業好嗎、
大數據、雲計算、人工智慧都是目前互聯網行業的香餑餑。發展潛力大,人才需求多,薪資待遇高。
①JavaSE核心技術;
②Hadoop平台核心技術、Hive開發、HBase開發;
③Spark相關技術、Scala基本編程;
④掌握Python基本使用、核心庫的使用、Python爬蟲、簡單數據分析;理解Python機器學習;
⑤大數據項目開發實戰,大數據系統管理優化等。
你可以考察對比一下南京課工場、北大青鳥、中博軟體學院等開設有大數據專業的學校。祝你學有所成,望採納。

課工場爆滿的大數據班級
『伍』 大數據時代,如何做好企業信息化建設
1、信息化體系要落實並匹配業務戰略。
信息化落實業務戰略往往容易成為一句口號。信息化作為一種投資,必然追求回報,因此信息化戰略規劃必須上升到如何落實企業戰略的高度上來,需要對企業戰略解碼與深度解讀是工作的前提。分析戰略落實的主要舉措、關注點,形成戰略主題集,並對每個主題分析其關鍵成功要素、衡量標准、依賴條件,基本實現路徑的梳理和分析,在此基礎上突出信息化的應用重點,並詳細分析實現的路徑,依賴條件,管理及業務變革要求,最終整合到整體信息化架構中進行通盤考慮
2、信息化建設模式由需求驅動向規劃驅動轉變。
業界仍然普遍存在信息化建設工作的驅動模式由分散的、獨立的業務部門需求進行驅動的建設模式,典型的後果是各個領域各自為戰,局部可能最優,但極難保證整體最優,後期在系統集成、數據整合等方面帶來大量問題,系統架構混亂,維護成本高,集成難度大,系統越做越「沉」,成為企業業務變革、經營管理模式調整不可突破的障礙,成為管理變革和創新的包袱。
「規劃驅動、架構約束」是解決當前信息化工作普遍存在問題的必然選擇。信息化的具體工作不應由獨立需求驅動,而應是在整體規劃的情況下,由規劃驅動,確保整體最優,整體一盤棋,得到良好的整合和統籌。具體到單獨每一個項目或者系統推進時,在技術和實現方案層面通過完整的架構進行規范和約束,按照統一的架構進行子系統實現方案的准備和落實,確保整體架構的一致性、穩定性、靈活性。
3、雲計算、大數據、移動互聯網的應用
新技術的應用是不斷試錯和嘗試的過程,企業信息化部門不僅僅是建設者,同時也是新技術應用的研究者,導入者,對於新技術的應用建議先導入前期的研究規劃的工作,選定應用重點和模式,不斷進行試點推進。
『陸』 量化投資 用python好 還是c++
Python是非常適合做quant類工作的語言,本身就是科學計算方面的統治級語言,現在加入了IPython,pandas等重量級神器,為Quant類工作量身定做,而且仍在飛速發展中,以後會越來越重要。
關於其他語言,首先介紹一下我自己最喜歡的一個比較小眾的組合,Mathematica+Java/Scala。 Mathematica的優點在於:本身提供函數式的編程語言,表達能力非常強大,比如Map/Rece是標配,很多時候不需要去做煩人的for循環或下標控制,排版經常可以直接照數學公式原樣輸入,即直觀又不容易寫錯;代碼和輸出混排的排版方式使得建模時的演算和推理過程非常流暢,甚至還可以直接生成動畫,對於找直觀理解非常有幫助(這幾點分別被IPython和R偷師了一部分)。Mathematica的缺點在於對金融類的時間序列數據沒有很好的內建支持,使得存儲和計算都會比較低效,因此需要用內嵌Java的方式來補足,對於數據格式或性能敏感的操作都可以用Java/Scala實現。這個組合在我心目中無出其右,不論是快速建模,還是建模轉生產,都遠遠領先於其他選擇。但Mathematica的商用授權很貴,如果公司本身不認可的話很難得到支持,這是最致命的缺陷。另外隨著Python系的逐漸成熟,領先優勢在逐漸縮小,長遠看Python的勢頭更好一些。
其他答案里也列舉了不少其他語言,我自己既做Quant的工作,也做軟體開發的工作,這里想從一個軟體工程師的角度,說說我的理解。平時工作中會和一些偏Quant背景的人合作,很容易發現建模能力好的人往往在計算機方面基礎比較薄弱(因為以前的訓練重點不在這里)。他們也可以快速學習掌握一種像C++,Java這樣的語言,實現很多必要的功能。但是一方面這些語言陡峭的學習曲線和繁瑣的開發步驟會給他們真正要做的工作增加不必要的負擔,另一方面一旦涉及到性能敏感的情景,他們對計算機體系結構缺乏理解的缺點就容易暴露,比如說很可能他們沒有計算復雜度,內存碎片,cache miss,甚至多線程等概念,導致寫出的程序存在相當大的隱患。
即使是計算機功底扎實,如果每天的工作需要在C++,Python,R/Matlab,甚至一眾腳本語言之前來回切換,思維負擔也會非常重,人的精力是有限的,很難同時兼顧數學建模和底層代碼調試這種差距巨大的工作。長期發展下去最可能的結果就是要麼遠離建模,專心做生產環境開發,要麼遠離生產環境,專心建模。這種局面顯然不論對個人還是團隊都是有很大弊端的。
如果深入思考這個問題,相信不難得出結論,對於Quant來說,C++這種相當面向機器的語言肯定不是最佳選擇。的確在歷史上,它比更面向機器的C已經友好了很多,但是在計算機技術飛速發展的今天,如果還需要Quant大量使用C++做建模類的工作顯然是很遺憾的事情。設想一下你拿到一份股票數據,不論你是想分析價格走勢,成交量分布,還是波動性,第一件要做的事一定是畫出圖來看看,有一個直觀認識。如果你的工具是C++,肯定有很多時間花在編譯,調試,再編譯的過程上,好容易能解析文件了,接下來怎麼算移動平均?怎麼算波動性?全都要自己寫代碼。再然後怎麼畫圖?這整個工作流簡直慘不忍睹,這些問題浪費掉你大部分精力,而他們全部和你真正感興趣的工作毫無關系。所以如果你是一個數理金融等背景的新人打算開始Quant生涯,在決定是否要投資到這項重量級技術上時需要慎重,即便它目前的市場定價可能仍在峰值。相比之下我認為Python會是更理想的選擇,即能很好的完成建模工作,也可以訓練一定的編程技巧,使你在必要時也能勝任一些簡單的C++工作。
最後同意 @袁浩瀚,不要拘泥於語言,不論學習那一種,對其他的語言還是要抱有開放的心態。另外世界變化很快,你會發現單一的語言分類方式其實是沒有意義的,每一門語言在發展過程中都會逐漸吸收其他語言的特性,比如Python本身就既有C/C++/Java那樣命令式的特點,也有函數式的特點,像pandas甚至還提供類似SQL的使用方式,在其他語言或系統里也都或多或少包含了不同的特點,可以在學習過程里慢慢體會。
『柒』 都說現在是大數據時代,是什麼意思
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。
大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。

(7)雲計算與大數據時代的量化投資擴展閱讀:
最早提出大數據時代到來的是全球知名咨詢公司麥肯錫, 大數據在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
大數據作為雲計算、互聯網之後又IT行業又一大顛覆性的技術革命。雲計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營信息、互聯網世界中的商品物流信息,互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。
如何盤活這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。
『捌』 如何利用大數據平台提升稅收治理
一、用「互聯網+」大數據強化稅源控管
「互聯網+」大數據條件下,稅務部門在積累了納稅人大量有價值數據基礎上,通過與工商、銀行、海關、技監、住建、房產、規劃、社保、審計等部門聯網,在雲計算數據綜合分析判研的驅動下,從海量數據中挖掘有價值的經濟稅收數據,從所有經濟稅收數據信息中掃描、控管全部的經濟稅源。如地稅部門要建立個人財產收入信息大數據平台,通過對個人的房產租賃、存款利息、有價證券溢價、財產增值、股權轉讓、投資收益等財產收入的海量數據進行綜合的邏輯判研和嚴密的數理分析,使個人財產的稅源在「互聯網+」大數據的透視下一覽無遺。基於雲計算、大數據的運用,通過對稅收彈性分析、稅負分析、稅收關聯分析等方法,對經濟形勢作科學研判,對稅收收入作精準預測,就能對動態的經濟稅源進行有效嚴密控管。一言蔽之,稅收數據挖掘有多深,雲計算數據就有多精,稅源控管就有多准。「以票控稅」時代將終結,「人海戰術」被「雲海戰術」所取代,以專業、精準的大數據分析,可以牢牢控管住所有的經濟稅源。
二、用「互聯網+」大數據應對新生業態的稅收征管
在「互聯網+」大數據的作用下,網路銷售平台、互聯網金融等新興經濟業態以其虛擬、無址、跨域、高效、隱蔽等特點,使經營地點、稅源歸屬、征管許可權、稅收分配等發生重大變化,極大地挑戰了傳統的稅收征管模式。為加強對新生業態稅收征管,稅務部門要通過「互聯網+」大數據,從「管事制」向「管數制」轉變,實施「數據管稅」:將納稅人稅收、財務、經營等信息鏈條完全打通,實現涉稅信息電子化,稅務機關、納稅人、消費者和第三方部門的信息數據,完全取代紙質申報和發票等實物載體,構建以信息數據為核心要素展開的稅收征管新模式;利用「互聯網+」大數據助推納稅人自助式管理,使納稅人自主申報、稅收政策自動適用成為征管主流;藉助「互聯網+」大數據效率高、成本低的優勢,改變以往征管強調抓大放小、集中精力管好重點稅源,轉變為大企業與中小型企業並重,重點稅源與非重點稅源並重;對稅收信息判研出納稅人的異常數據,為一線稅管員提供「精確制導」,以強化稅收征管。
三、用「互聯網+」大數據加強稅收風險管理
「互聯網+」大數據通過雲計算等技術手段,使政府信息系統和公共數據逐步互聯共享,稅務部門從海量資料庫中獲取大量有價值的涉稅數據,為推動稅收風險管理提供有利條件。在簡政放權的大背景下,涉稅事項逐步發展為納稅人對照稅法和稅收政策、自行掌握執行、稅務機關進行後續管理的方式。稅務機關更多地通過大數據、涉稅信息平台抓取有關經濟涉稅信息數據進行比對分析、評估判研,將所有的海量涉稅信息轉化為可量化、可比對的數據,實現涉稅信息的數字化管理。通過網路技術、信息技術、整合技術等判研,對納稅人涉稅情報進行智能化分析、計算、比較、判斷、甄別、聯想和定性,依據採集和積累的征管基礎數據、風險分析數據、第三方數據等信息資源,多角度對稅收風險進行綜合關聯分析,精準計算出如稅負、稅種、行業、納稅規模、納稅信用、納稅遵從等各種稅收風險指數,揭示涉稅風險的發展規律。針對不同類別、不同稅收風險的納稅人,採取不同的稅收風險應對措施:對高風險的納稅人實施稅務稽查,對中等風險的納稅人進行稅務約談,對較低風險的納稅人則通過納稅輔導以促進納稅遵從。
四、用「互聯網+」大數據做好納稅服務
「互聯網+」大數據條件下,納稅人類型、辦稅業務、時空跨度、新興業態的多樣化,必然導致納稅服務需求的多元化。針對當前稅務部門大眾化的納稅服務資源和能力過剩,個性化納稅服務不足的困局,必須從納稅人的個性化需求出發,切實改進納稅服務的有效供給,以滿足納稅人個性化的納稅服務需求。稅務部門要依託大數據分析制導服務供求,做到始於需求、終於滿意。在「互聯網+」大數據相互作用下,個性化納稅服務需求容易被識別,對於納稅大戶、高新技術企業、小微企業等個性化、特殊化的納稅服務容易實現。因此,稅務部門要針對不同行業、不同類型納稅人,從改變納稅服務的供給側角度入手,根據每個納稅人所需求的納稅服務進行「私人定製」,一改粗放型「端菜式」的納稅服務為精準型「點菜式」的納稅服務。要藉助「互聯網+」大數據,超越時間、空間、地域、業態等限制,使納稅人可以在家裡、辦公室、旅行途中通過互聯網全流程、無紙化辦理所有涉稅事務,在大大降低納稅成本的同時,享受到精準、便捷的納稅服務。要充分依託互聯網和移動通訊技術,構建「實體辦稅廳+網上辦稅+移動辦稅終端+自助辦稅終端」的納稅服務平台,將申報繳稅功能拓展到移動互聯網,支持銀行轉賬、POS機刷卡、網上銀行、手機銀行、微信支付等稅款繳納方式,使納稅人足不出戶就可以享受到優質、高效的納稅服務。
『玖』 大數據時代什麼最重要
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲台》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。 大數據的4個「V」,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網路日誌、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質
的不同。業界將其歸納為4個「V」——Volume,Variety,Value,Velocity。 物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式 著雲台
例子包括網路日誌,RFID,感測器網路,社會網路,社會數據(由於數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。
大的數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。
一些但不是所有的MPP的關系資料庫的PB的數據存儲和管理的能力。隱含的負載,監控,備份和優化大型數據表的使用在RDBMS的。
斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 位元組的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上和將獲得的數據,每5天沃爾瑪處理超過100萬客戶的交易每隔一小時,反過來進口量資料庫估計超過2.5 PB的是相當於167次,在美國國會圖書館的書籍 。
FACEBOOK處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時,現在可以在一個星期內實現。
「大數據」的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟體智能數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟體業務的快速。 大數據已經出現,因為我們生活在一個社會中有更多的東西。有46億全球行動電話用戶有1億美元和20億人訪問互聯網。
基本上,人們比以往任何時候都與數據或信息交互。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導致更多的識字信息的增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾位元組。
最早提出「大數據」時代已經到來的機構是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。
「麥肯錫的報告發布後,大數據迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。」隨著互聯網技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。「如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。」
事實上,全球互聯網巨頭都已意識到了「大數據」時代,數據的重要意義。包括EMC、惠普(微博)、IBM、微軟(微博)在內的全球IT 巨頭紛紛通過收購「大數據」相關廠商來實現技術整合,亦可見其對「大數據」的重視。
「大數據」作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在12月8日工信部發布的物聯網「十二五」規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與「大數據」密切相關。