方正| 范縣| 無為| 臨桂| 思南| 黃驊| 北安| 鄰水| 眉山| 阿壩| 武定| 個舊| 寧強| 寧明| 岑鞏| 大埔| 漾濞| 平武| 關嶺| 靜海| 撫遠| 無棣| 金湖| 資中| 巴林左旗| 納雍| 蒼南| 佛岡| 理縣| 蒙陰| 古冶| 徽縣| 杭州| 烈山| 石門| 朝天| 三門峽| 東光| 鲅魚圈| 上饒縣| 開封縣| 交城| 羅田| 鄰水| 南山| 葉城| 柳州| 連山| 塔城| 扶余| 察哈爾右翼前旗| 零陵| 天峨| 夷陵| 高邑| 薛城| 精河| 久治| 華安| 涪陵| 剛察| 瀘西| 保德| 貢覺| 磁縣| 攸縣| 石景山| 丹巴| 容縣| 吉木乃| 德化| 承德縣| 耒陽| 安縣| 金州| 南陵| 圖木舒克| 東海| 桓仁| 瑞安| 烏爾禾| 南康| 電白| 南通| 宜昌| 靜寧| 正鑲白旗| 密云| 烏拉特前旗| 禮泉| 綏芬河| 上饒市| 修水| 襄城| 九江縣| 隆安| 福鼎| 松江| 揭東| 盈江| 阿合奇| 西平| 平泉| 祿豐| 遼寧| 清水河| 康保| 汾西| 黑水| 夏津| 溫江| 太原| 應縣| 盤錦| 大名| 融水| 泗陽| 長陽| 靈丘| 光山| 門頭溝| 安寧| 曲水| 射洪| 燈塔| 貢嘎| 邵陽市| 桐梓| 會東| 昆山| 鐘祥| 寬甸| 紅安| 射陽| 玉樹| 山陽| 永善| 長武| 隆林| 九江縣| 壤塘| 迭部| 阿拉善右旗| 津市| 安陽| 茶陵| 秦皇島| 密云| 凌云| 津南| 南岳| 滕州| 花溪| 遼中| 金溪| 冷水江| 電白| 扎魯特旗| 金川| 平湖| 華坪| 望江| 崇信| 閩侯| 天鎮| 察哈爾右翼后旗| 鎮巴| 湖州| 臨夏縣| 木壘| 斗門| 漢沽| 滎陽| 冷水江| 青縣| 蘇家屯| 萊州| 鹽城| 龍山| 聊城| 灞橋| 祥云| 班戈| 江源| 鄂溫克族自治旗| 隆子| 臨城| 阿壩| 南鄭| 桓臺| 邵陽縣| 壽寧| 連山| 陜縣| 江源| 呼瑪| 陸川| 龍崗| 錦州| 疏勒| 秦皇島| 藁城| 肥東| 甘泉| 沙圪堵| 信陽| 連州| 申扎| 澤州| 昆山| 泉港| 桐柏| 同江| 城固| 增城| 西烏珠穆沁旗| 金秀| 阜陽| 西峰| 惠農| 烏蘭| 定州| 泗洪| 北戴河| 綿陽| 七臺河| 株洲市| 代縣| 左貢| 威縣| 賓川| 博愛| 烏蘇| 涇陽| 張北| 連江| 陽山| 察哈爾右翼前旗| 臨猗| 青縣| 吐魯番| 綏陽| 興國| 察隅| 館陶| 趙縣| 大悟| 壤塘| 井研| 肥城| 下陸| 澄江| 佛山| 齊河| 大安| 江陵| 隆化| 全州| 萬源| 淮南| 新邱| 汾陽| 涼城| 雙鴨山|

北溶鄉:

2019-08-19 23:05 來源:中新網江蘇

  北溶鄉:

  而依據相關計劃,我市今年將積極籌建高性能超算中心。萬齊華說,今后還要繼續優化海葬服務流程,探索海葬新模式,縮短海葬排隊等候時間。

3月24日,成都住房租賃服務大廳正式啟用,這是成都市房管局在住房租賃便民服務上又推出的一項新舉措。在這個復古陳列館的一樓展廳,擺放著幾十臺古董級別的車輛,沒有多余的修飾和點綴,品質感十足,對比現代車輛,完全不是一個時代的風格和特征。

  他剪掉了年輕時候的標志性長發,開始信佛并在滿全世界跑著去拍攝。全國人大代表、天津市市長張國清表示,天津正在積極申報京津冀自由貿易港。

  原標題:重慶市商務委五措并舉扎實推進電商扶貧一抓政策支撐。餓了么合規部門對于明確使用煙草品牌名稱的關鍵詞,發布前會進行屏蔽攔截。

打造改革開放新高地,成為不少地方今年的重點工作之一,包括四川、安徽等地都在全國兩會期間提交了探索建設自貿港或者自貿區的建議。

  其報告稱,(中美)事態的進展符合我們長期以來的觀點,即今年中美貿易摩擦將加劇,盡管貿易戰全面爆發仍然是個尾部風險(tailrisk)。

  縣委副書記、縣長石強主持會議。那自貿試驗港可能就是賦予更大開放程度的區域。

  講衛生防流感請把痰吐窗外。

  香煙改名網上銷售部分商家提供有償代買服務記者調查發現,部分商家將商品分類改為代號來暗示消費者。原標題:重慶市商務委五措并舉扎實推進電商扶貧一抓政策支撐。

  要深刻領會把握習近平總書記對做好重慶工作的總體要求,團結一致、沉心靜氣,加快建設內陸開放高地、山清水秀美麗之地,努力推動高質量發展、創造高品質生活,讓重慶各項工作邁上新臺階,推動南岸三生三宜品質城市建設。

  值得注意的是,每年春節后,正是成都住房租賃市場的傳統旺季。

  他強調,要以習近平新時代中國特色社會主義思想為指引,深入貫徹落實黨的十九大精神,大力提升綦江城市品質,努力建設美麗幸福家園。今年,全省國稅部門將深入做好優化稅收營商環境各項工作。

  

  北溶鄉:

 
責編:
大數據是一個多義詞,請在右側義項中選擇瀏覽 大數據 圖書 數據概念
打開
大數據 (數據概念)

大數據(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

- 收起最新報道

    1定義

    編輯本段 回目錄

    大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。”

    2特征

    編輯本段 回目錄

    大數據大數據

    業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征。

    數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。

    數據類型繁多(Variety)。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。

    價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

    處理速度快(Velocity)。大數據區分于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。

    舍恩伯格:大數據時代 ,不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。 

    埃里克·西格爾:大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。

    城田真琴:從數據的類別上看,“大數據”指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集。

    3應用

    編輯本段 回目錄

    大數據大數據

    大數據挖掘商業價值的方法主要分為四種:

    客戶群體細分,然后為每個群體量定制特別的服務。

    模擬現實環境,發掘新的需求同時提高投資的回報率。

    加強部門聯系,提高整條管理鏈條和產業鏈條的效率。

    降低服務成本,發現隱藏線索進行產品和服務的創新。

    Mckinsey列出了各個行業利用大數據價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, and productivity》

    各種Data之間的關系圖,注意Open Data是完全包含了Open government data(政府開放數據)

    Mckinsey也列出了Open Data時代里七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費金融。(感謝知友安陽提供的補充鏈接資料)

    4數據處理

    編輯本段 回目錄

    大數據大數據

    數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。

    數據存取:關系數據庫、NOSQL、SQL等。

    基礎架構云存儲、分布式文件存儲等。

    數據處理:自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。

    統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。

    數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

    模型預測:預測模型、機器學習、建模仿真。

    結果呈現:云計算、標簽云、關系圖等。

    5相關技術

    編輯本段 回目錄

    大數據大數據
    云技術

    大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,云計算充當了工業革命時期的發動機的角色,而大數據則是電。

    云計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。

    如今,在Google、AmazonFacebook等一批互聯網企業引領下,一種行之有效的模式出現了:云計算提供基礎架構平臺,大數據應用運行在這個平臺上。

    業內是這么形容兩者的關系:沒有大數據的信息積淀,則云計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大數據的信息積淀再豐富,也終究只是鏡花水月。

    那么大數據到底需要哪些云計算技術呢?

    這里暫且列舉一些,比如虛擬化技術,分布式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。

    云計算和大數據之間的關系可以用下面的一張圖來說明,兩者之間結合后會產生如下效應:可以提供更多基于海量業務數據的創新型服務;通過云計算技術的不斷發展降低大數據業務的創新成本。

    如果將云計算與大數據進行一些比較,最明顯的區分在兩個方面:

    第一,在概念上兩者有所不同,云計算改變了IT,而大數據則改變了業務。然而大數據必須有云作為基礎架構,才能得以順暢運營。

    第二,大數據和云計算的目標受眾不同,云計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。

    分布式處理技術

    分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分布式處理系統的定義。

    Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。

    而MapReduce是Google提出的一種云計算的核心計算模式,是一種分布式運算技術,也是簡化的分布式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式, 在數據被分割后通過Map 函數的程序將數據映射成不同的區塊,分配給計算機機群處理達到分布式運算的效果,在通過Reduce 函數的程序將結果匯整,從而輸出開發者需要的結果。

    再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。其次,Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴于社區服務器,因此它的成本比較低,任何人都可以使用。

    你也可以這么理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others

    Hadoop用到的一些技術有:

    HDFS: Hadoop分布式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)

    MapReduce:并行計算框架

    HBase: 類似Google BigTable的分布式NoSQL列數據庫。

    Hive:數據倉庫工具,由Facebook貢獻。

    Zookeeper:分布式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。

    Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

    Pig:大數據分析平臺,為用戶提供多種接口。

    Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。

    Sqoop:用于在Hadoop與傳統的數據庫間進行數據的傳遞。

    說了這么多,舉個實際的例子,雖然這個例子有些陳舊,但是淘寶的海量數據技術架構還是有助于我們理解對于大數據的運作處理機制:

    淘寶大數據

    如上圖所示,淘寶的海量數據產品技術架構分為五個層次,從上至下來看它們分別是:數據源,計算層,存儲層,查詢層和產品層。

    數據來源層。存放著淘寶各店的交易數據。在數據源層產生的數據,通過DataX,DbSync和Timetunel準實時的傳輸到下面第2點所述的“云梯”。

    計算層。在這個計算層內,淘寶采用的是Hadoop集群,這個集群,我們暫且稱之為云梯,是計算層的主要組成部分。在云梯上,系統每天會對數據產品進行不同的MapReduce計算。

    存儲層。在這一層,淘寶采用了兩個東西,一個使MyFox,一個是Prom。MyFox是基于MySQL的分布式關系型數據庫的集群,Prom是基于Hadoop Hbase技術的一個NoSQL的存儲集群。

    查詢層。在這一層中,Glider是以HTTP協議對外提供restful方式的接口。數據產品通過一個唯一的URL來獲取到它想要的數據。同時,數據查詢即是通過MyFox來查詢的。

    最后一層是產品層,這個就不用解釋了。

    存儲技術

    大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關系是:大數據存儲的目的是支撐大數據分析。到目前為止,還是兩種截然不同的計算機技術領域:大數據存儲致力于研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在最短時間內處理大量不同類型的數據集。

    提到存儲,有一個著名的摩爾定律相信大家都聽過:18個月集成電路的復雜性就增加一倍。所以,存儲器的成本大約每18-24個月就下降一半。成本的不斷下降也造就了大數據的可存儲性。

    比如,Google大約管理著超過50萬臺服務器和100萬塊硬盤,而且Google還在不斷的擴大計算能力和存儲能力,其中很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。

    以Amazon舉例,Amazon S3 是一種面向 Internet 的存儲服務。該服務旨在讓開發人員能更輕松的進行網絡規模計算。Amazon S3 提供一個簡明的 Web 服務界面,用戶可通過它隨時在 Web 上的任何位置存儲和檢索的任意大小的數據。 此服務讓所有開發人員都能訪問同一個具備高擴展性、可靠性、安全性和快速價廉的基礎設施,Amazon 用它來運行其全球的網站網絡。再看看S3的設計指標:在特定年度內為數據元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能夠承受兩個設施中的數據同時丟失。

    S3很成功也確實卓有成效,S3云的存儲對象已達到萬億級別,而且性能表現相當良好。S3云已經擁萬億跨地域存儲對象,同時AWS的對象執行請求也達到百萬的峰值數量。目前全球范圍內已經有數以十萬計的企業在通過AWS運行自己的全部或者部分日常業務。這些企業用戶遍布190多個國家,幾乎世界上的每個角落都有Amazon用戶的身影。

    感知技術

    大數據的采集和感知技術的發展是緊密聯系的。以傳感器技術,指紋識別技術,RFID技術,坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的數據信息。

    而隨著智能手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置信息被廣泛的應用外,一些新的感知手段也開始登上舞臺,比如,最新的”iPhone 5S”在home鍵內嵌指紋傳感器,新型手機可通過呼氣直接檢測燃燒脂肪量,用于手機的嗅覺傳感器面世可以監測從空氣污染到危險的化學藥品,微軟正在研發可感知用戶當前心情智能手機技術,谷歌眼鏡InSight新技術可通過衣著進行人物識別。

    除此之外,還有很多與感知相關的技術革新讓我們耳目一新:比如,牙齒傳感器實時監控口腔活動及飲食狀況,嬰兒穿戴設備可用大數據去養育寶寶,Intel正研發3D筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開發新型可監控用戶心率的紡織材料,業界正在嘗試將生物測定技術引入支付領域等。

    其實,這些感知被逐漸捕獲的過程就是就世界被數據化的過程,一旦世界被完全數據化了,那么世界的本質也就是信息了。

    就像一句名言所說,“人類以前延續的是文明,現在傳承的是信息。”

    6處理

    編輯本段 回目錄

    大數據大數據

    1. 大數據處理之一:采集

    大數據的采集是指利用多個數據庫來接收發自客戶端(Web、App或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。

    在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。

    2. 大數據處理之二:導入/預處理

    雖然采集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。

    導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

    3. 大數據處理之三:統計/分析

    統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。

    統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。

    4. 大數據處理之四:挖掘

    與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。

    整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。

    7大數據的類型

    編輯本段 回目錄

    大致可分為三類:

    傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。

    機器和傳感器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業設備傳感器,設備日志(通常是Digital exhaust),交易數據等。

    社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平臺。

    8相關理論

    編輯本段 回目錄

    大數據大數據

    最早提出大數據時代到來的是麥肯錫:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”

    業界(IBM 最早定義)將大數據的特征歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同。

    其實這些V并不能真正說清楚大數據的所有特征,下面這張圖對大數據的一些相關特性做出了有效的說明。

    古語云:三分技術,七分數據,得數據者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。

    那么,什么是大數據思維?維克托·邁爾-舍恩伯格認為,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關系。

    阿里巴巴的王堅對于大數據也有一些獨特的見解,比如,

    今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。

    “非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。”

    “你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。”

    特別是最后一點,我是非常認同的,大數據的真正價值在于創造,在于填補無數個還未實現過的空白。

    有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據并不在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。

    9應用產業

    編輯本段 回目錄

    大數據大數據

    從理論上來看:所有產業都會從大數據的發展中受益。但由于數據缺乏以及從業人員本身的原因,第一、第二產業的發展速度相對于第三產業來說會遲緩一些。

    第一產業

    孟山都(Monsanto | A Sustainable Agriculture Company),農業

    孟山都是一家美國的跨國農業生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期占據市場第一個位置。該公司目前也是基因改造(GE)種子的領先生產商,占據了多種農作物種子70%–100%的市場份額,而在美國本土,更占有整個市場的90%。已經統治了生物工程種子業務超過十年。

    孟山都首先發起“Green Data Revolution”運動,建立農業數據聯盟(Open Ag Data Alliance)來統一數據標準,讓農民不用懂“高科技”也能享受大數據的成果。典型的應用如農場設備制造商John Deere與DuPont Pioneer當前聯合提供“決策服務(Decision Services)”,農民只需在駕駛室里拿出平板電腦,收集種子監視器傳來的數據,然后將其上傳給服務器,最終服務器返回化肥的配方到農場拖拉機上。

    天氣意外保險公司(The Climate Corporation),農業

    The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節的天氣保險項目。利用公司特有的數據采集與分析平臺,每天從250萬個采集點獲取天氣數據,并結合大量的天氣模擬、海量的植物根部構造和土質分析等信息對意外天氣風險做出綜合判斷,然后向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。

    土壤抽樣分析服務商(Solum, Inc),農業

    Solum目標是實現高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發的No Wait Nitrate系統在田間進行分析即時獲取數據;也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資后,已累計融資近2000萬美元。

    了解更多:

    大數據對于農業的發展會帶來什么影響?或具體到對農場經營會有什么啟示或者帶來什么樣的變化?

    第二產業

    2013年9月,工業和信息化部發布了《關于印發信息化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的集成創新和應用:

    實施物聯網發展專項,在重點行業組織開展試點示范,以傳感器和傳感器網絡、RFID、工業大數據的應用為切入點,重點支持生產過程控制、生產環境檢測、制造供應鏈跟蹤、遠程診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。

    大數據的業務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業企業對數據的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業生產及質量監控埋下了巨大的隱患,也讓數據挖掘無從談起。

    隨著信息化與工業化的融合發展,信息技術滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大數據也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的數據量不亞于計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業大數據所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對于工業大數據來說,工業互聯網(Industrial Internet)才是當前急需的,因為大數據本身并沒有讓信息的提取更加智能,業務比數據本身更加重要。他舉了一個核磁共振成像掃描的例子:

    Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.

    At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.

    又如在工業中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一臺機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常復雜的算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基于大數據的分布式系統上發布同樣的查詢執行一種計算只需要不到一秒鐘。

    第三方認證機構(TüV NORD GROUP),工業

    德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱TüV)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從采礦,電力系統開始,到壓力容器,機動車輛,醫療設備,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。TüV當前從建筑綠色標準體系方面提出了對于大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建筑的設計規劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統,實現建筑的低碳、綠色、智能。

    工業自動化軟件商(Wonderware ),工業

    Wonderware作為系統軟件涉及的專業企業,對于大數據的計算和運用是從比較“IT”的角度出發的。Wonderware 的實時數據管理軟件能夠提供一個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟件解決方案。

    第三產業

    這一個部分的內容比較多。這里只提出一些典型的應用例子,歡迎補充。

    健康與醫療:Fitbit? Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路里消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發床墊監測傳感器,自動監測和記錄心臟速率、呼吸速率、運動和睡眠活動。該傳感器收集的數據以無線方式被發送到智能手機和平板電腦進行進一步分析;美國公共衛生協會(APHA: American Public Health ******ociation)開發Flu Near You用來的癥狀,通過大數據分析生成報告顯示用戶所在地區的流感活動。

    視頻:互聯網電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視頻流供應商,收集的數據包括用戶在看什么、喜歡在什么時段觀看、在哪里觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點后退、快進或者暫停,乃至看到哪里直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。

    When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.

    交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間數據,結合時刻表預測出每一輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平臺(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據采集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息并進行數據匯總分析,而后計算出最佳線路,讓用戶能夠避開擁堵。

    電子商務:Decide 是一家預測商品價格并為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在一個頁面中方便消費者對比查看,并且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經于2013年被 eBay收購。

    政治:奧巴馬在總統競選中使用大數據分析來收集選民的數據,讓他可以專注于對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元并聚攏核心成員成立了Civis Analytics咨詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)

    金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融數據分析服務提供商,使用機器學習算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與數據庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求并快速獲取市場份額。想了解更多的企業可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。

    電信: 美國T-mobiles采用Informatica - The Data Integration Company平臺開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優化網絡布局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業務防止用戶流失。美國AT&T 公司將記錄用戶在Wifi網絡中的地理位置、網絡瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司發布了新的安全數據分析服務******ure Analytics—BT news releases,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策。

    10相關實踐

    編輯本段 回目錄

    大數據大數據
    互聯網的大數據

    互聯網上的數據每年增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。據IDC預測,到2020年全球將總共擁有35ZB的數據量。互聯網是大數據發展的前哨陣地,隨著WEB2.0時代的發展,人們似乎都習慣了將自己的生活通過網絡進行數據化,方便分享以及記錄并回憶。

    互聯網上的大數據很難清晰的界定分類界限,我們先看看BAT的大數據:

    百度擁有兩種類型的大數據:用戶搜索表征的需求數據;爬蟲和阿拉丁獲取的公共web數據。搜索巨頭百度圍繞數據而生。它對網頁數據的爬取、網頁內容的組織和解析,通過語義分析對搜索需求的精準理解進而從海量數據中找準結果,以及精準的搜索引擎關鍵

    互聯網的大數據

    字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。搜索引擎在大數據時代面臨的挑戰有:更多的暗網數據;更多的WEB化但是沒有結構化的數據;更多的WEB化、結構化但是封閉的數據。

    阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。

    騰訊擁有用戶關系數據和基于此產生的社交數據。這些數據可以分析人們的生活和行為,從里面挖掘出政治、社會、文化、商業、健康等領域的信息,甚至預測未來。

    在信息技術更為發達的美國,除了行業知名的類似Google,Facebook外,已經涌現了很多大數據類型的公司,它們專門經營數據產品,比如:

    Metamarkets:這家公司對Twitter、支付、簽到和一些與互聯網相關的問題進行了分析,為客戶提供了很好的數據分析支持。

    Tableau他們的精力主要集中于將海量數據以可視化的方式展現出來。Tableau為數字媒體提供了一個新的展示數據的方式。他們提供了一個免費工具,任何人在沒有編程知識背景的情況下都能制造出數據專用圖表。這個軟件還能對數據進行分析,并提供有價值的建議。

    ParAccel:他們向美國執法機構提供了數據分析,比如對15000個有犯罪前科的人進行跟蹤,從而向執法機構提供了參考性較高的犯罪預測。他們是犯罪的預言者。

    QlikTech:QlikTech旗下的Qlikview是一個商業智能領域的自主服務工具,能夠應用于科學研究和藝術等領域。為了幫助開發者對這些數據進行分析,QlikTech提供了對原始數據進行可視化處理等功能的工具。

    GoodData:GoodData希望幫助客戶從數據中挖掘財富。這家創業公司主要面向商業用戶和IT企業高管,提供數據存儲、性能報告、數據分析等工具。

    TellApart:TellApart和電商公司進行合作,他們會根據用戶的瀏覽行為等數據進行分析,通過鎖定潛在買家方式提高電商企業的收入。

    DataSift:DataSift主要收集并分析社交網絡媒體上的數據,并幫助品牌公司掌握突發新聞的輿論點,并制定有針對性的營銷方案。這家公司還和Twitter有合作協議,使得自己變成了行業中為數不多可以分析早期tweet的創業公司。

    Datahero:公司的目標是將復雜的數據變得更加簡單明了,方便普通人去理解和想象。

    舉了很多例子,這里簡要歸納一下,在互聯網大數據的典型代表性包括:

    1-用戶行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)

    2-用戶消費數據(精準營銷、信用記錄分析、活動促銷、理財等)

    3-用戶地理位置數據O2O推廣,商家推薦,交友推薦等)

    4-互聯網金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)

    5-用戶社交等UGC數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)

    政府的大數據

    近期,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將“大數據戰略”上升為國家意志。奧巴馬政府將數據定義為“未來的新石油”,并表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的占有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。

    在國內,政府各個部門都握有構成社會基礎的原始數據,比如,氣象數據,金融數據,信用數據,電力數據,煤氣數據,自來水數據,道路交通數據,客運數據,安全刑事案件數據,住房數據,海關數據,出入境數據,旅游數據,醫療數據,教育數據,環保數據等等。這些數據在每個政府部門里面看起來是單一的,靜態的。但是,如果政府可以將這些數據關聯起來,并對這些數據進行有效的關聯分析和統一管理,這些數據必定將獲得新生,其價值是無法估量的。

    具體來說,現在城市都在走向智能和智慧,比如,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依托于大數據,可以說大數據是智慧的核心能源。從國內整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通信網絡和數據平臺等基礎設施建設投資規模接近5000億元。“十二五”期間智慧城市建設拉動的設備投資規模將達1萬億元人民幣。大數據為智慧城市的各個領域提供決策支持。在城市規劃方面,通過對城市地理、氣象等自然信息和經濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻性。在交通管理方面,通過對道路交通信息的實時挖掘,能有效緩解交通擁堵,并快速響應突發狀況,為城市交通的良性運轉提供科學的決策依據。在輿情監控方面,通過網絡關鍵詞搜索及語義智能分析,能提高輿情分析的及時性、全面性,全面掌握社情民意,提高公共服務能力,應對網絡突發的公共事件,打擊違法犯罪。在安防與防災領域,通過大數據的挖掘,可以及時發現人為或自然災害、恐怖事件,提高應急處理能力和安全防范能力。

    另外,作為國家的管理者,政府應該有勇氣將手中的數據逐步開放,供給更多有能力的機構組織或個人來分析并加以利用,以加速造福人類。比如,美國政府就籌建了一個data.gov網站,這是奧巴馬任期內的一個重要舉措:要求政府公開透明,而核心就是實現政府機構的數據公開。截止目前,已經開放了有91054 個datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。

    企業的大數據

    企業的CXO們最關注的還是報表曲線的背后能有怎樣的信息,他該做怎樣的決策,其實這一切都需要通過數據來傳遞和支撐。在理想的世界中,大數據是巨大的杠桿,可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創造市場。

    那么,哪些傳統企業最需要大數據服務呢?拋磚引玉,先舉幾個例子:1) 對大量消費者提供產品或服務的企業(精準營銷);2) 做小而美模式的中長尾企業(服務轉型);3) 面臨互聯網壓力之下必須轉型的傳統企業(生死存亡)。

    對于企業的大數據,還有一種預測:隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成“數據供應鏈”。這里尤其有兩個明顯的現象:1) 外部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;2) 能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。

    對于提供大數據服務的企業來說,他們等待的是合作機會,就像微軟史密斯說的:“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”

    然而,一直做企業服務的巨頭將優勢不在,不得不眼看新興互聯網企業加入戰局,開啟殘酷競爭模式。為何會出現這種局面?從 IT 產業的發展來看,第一代 IT 巨頭大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP這類傳統 IT 企業;第二代 IT 巨頭大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。大數據到來前,這兩類公司彼此之間基本是井水不犯河水;但在當前這個大數據時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供云模式的數據倉庫服務,直接搶占 IBM、Oracle 的市場。這個現象出現的本質原因是:在互聯網巨頭的帶動下,傳統 IT 巨頭的客戶普遍開始從事電子商務業務,正是由于客戶進入了互聯網,所以傳統 IT 巨頭們不情愿地被拖入了互聯網領域。如果他們不進入互聯網,他們業務必將萎縮。在進入互聯網后,他們又必須將云技術,大數據等互聯網最具有優勢的技術通過封裝打造成自己的產品再提供給企業。

    以IBM舉例,上一個十年,他們拋棄了PC,成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因大數據分析軟件而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,“數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”IBM積極的提出了“大數據平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)

    IBM大數據

    另外一家亟待通過云和大數據戰略而復蘇的巨頭公司HP也推出了自己的產品:HAVEn,一個可以自由擴展伸縮的大數據解決方案。這個解決方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普運營管理(HP OperationsManagement)四大技術組成。還支持Hadoop這樣通用的技術。HAVEn不是一個軟件平臺,而是一個生態環境。四大組成部分滿足不同的應用場景需要,Autonomy解決音視頻識別的重要解決方案;Vertica解決數據處理的速度和效率的方案;ArcSight解決機器的記錄信息處理,幫助企業獲得更高安全級別的管理;運營管理解決的不僅僅是外部數據的處理,而是包括了IT基礎設施產生的數據。

    個人的大數據

    個人的大數據這個概念很少有人提及,簡單來說,就是與個人相關聯的各種有價值數據信息被有效采集后,可由本人授權提供第三方進行處理和使用,并獲得第三方提供的數據服務。

    舉個例子來說明會更清晰一些:

    未來,每個用戶可以在互聯網上注冊個人的數據中心,以存儲個人的大數據信息。用戶可確定哪些個人數據可被采集,并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數據,比如,牙齒監控數據,心率數據,體溫數據,視力數據,記憶能力,地理位置信息,社會關系數據,運動數據,飲食數據,購物數據等等。用戶可以將其中的牙齒監測數據授權給XX牙科診所使用,由他們監控和使用這些數據,進而為用戶制定有效的牙齒防治和維護計劃;也可以將個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運動機能,并有針對的制定和調整個人的運動計劃;還可以將個人的消費數據授權給金融理財機構,由他們幫你制定合理的理財計劃并對收益進行預測。當然,其中有一部分個人數據是無需個人授權即可提供給國家相關部門進行實時監控的,比如罪案預防監控中心可以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。

    以個人為中心的大數據有這么一些特性:

    1- 數據僅留存在個人中心,其它第三方機構只被授權使用(數據有一定的使用期限),且必須接受用后即焚的監管。

    2- 采集個人數據應該明確分類,除了國家立法明確要求接受監控的數據外,其它類型數據都由用戶自己決定是否被采集。

    3- 數據的使用將只能由用戶進行授權,數據中心可幫助監控個人數據的整個生命周期。

    展望過于美好,也許實現個人數據中心將遙遙無期,也許這還不是解決個人數據隱私的最好方法,也許業界對大數據的無限渴求會阻止數據個人中心的實現,但是隨著數據越來越多,在缺乏監管之后,必然會有一場激烈的博弈:到底是數據重要還是隱私重要;是以商業為中心還是以個人為中心。

    11價值

    編輯本段 回目錄

    大數據大數據

    2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。

    Limits of Predictability in Human Mobility

    A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.

    而大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它概率。“有規律的隨機事件”在大量重復出現的條件下,往往呈現幾乎必然的統計特性。

    舉個例子,我們向上拋一枚硬幣,硬幣落下后哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多后,達到上萬次甚至幾十萬幾百萬次以后,我們就會發現,硬幣每一面向上的次數約占總次數的二分之一。偶然中包含著某種必然。

    隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。

    實驗的不斷反復、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影里的讀心術。

    如果銀行能及時地了解風險,我們的經濟將更加強大。

    如果政府能夠降低欺詐開支,我們的稅收將更加合理。

    如果醫院能夠更早發現疾病,我們的身體將更加健康。

    如果電信公司能夠降低成本,我們的話費將更加便宜。

    如果交通動態天氣能夠掌握,我們的出行將更加方便。

    如果商場能夠動態調整庫存,我們的商品將更加實惠。

    最終,我們都將從大數據分析中獲益。

    我們先看看大數據在當下有怎樣的杰出表現:

    大數據幫助政府實現市場經濟調控、公共衛生安全防范、災難預警、社會輿論監督;

    大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;

    大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨床使用效果,幫助艾滋病研究機構為患者提供定制的藥物;

    大數據幫助航空公司節省運營成本,幫助電信企業實現售后服務質量提升,幫助保險企業識別欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的設備;

    大數據幫助電商公司向用戶推薦商品和服務,幫助旅游網站為旅游者提供心儀的旅游路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優惠價格;

    大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;

    大數據幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,并為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;

    大數據幫助社交網站提供更準確的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的游戲以及適合購買的商品。

    12問題

    編輯本段 回目錄

    大數據大數據
    容量問題

    這里所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。基于這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。

    “大數據”應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基于對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基于對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署并組成一個跨區域的大型存儲基礎架構。

    延遲問題 

    “大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網絡成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送“過期”的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統則能夠支持并發的數據流,從而進一步提高數據吞吐量。

    有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。

    并發訪問一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享并使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平臺下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶并發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。

    安全問題

    某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。

    成本問題

    “大”,也可能意味著代價不菲。而對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。

    很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標準和慣例。

    對成本控制影響最大的因素是那些商業化的硬件設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定制他們自己的“硬件平臺”而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現成的硬件設備上。此外,很多存儲軟件公司還在銷售以軟件產品為核心的軟硬一體化裝置,或者與硬件廠商結盟,推出合作型產品。

    數據的積累

    許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。

    靈活性

    大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。

    應用感知 

    最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。

    13大數據隱私

    編輯本段 回目錄

    大數據大數據

    你或許并不敏感,當你在不同的網站上注冊了個人信息后,可能這些信息已經被擴散出去了,當你莫名其妙的接到各種郵件,電話,短信的滋擾時,你不會想到自己的電話號碼,郵箱,生日,購買記錄,收入水平,家庭住址,親朋好友等私人信息早就被各種商業機構非法存儲或賤賣給其它任何有需要的企業或個人了。

    更可怕的是,這些信息你永遠無法刪除,它們永遠存在于互聯網的某些你不知道的角落。除非你更換掉自己的所有信息,但是這代價太大了。

    用戶隱私問題一直是大數據應用難以繞開的一個問題,如被央視曝光過的分眾無線、羅維鄧白氏以及網易郵箱都涉及侵犯用戶隱私。目前,中國并沒有專門的法律法規來界定用戶隱私,處理相關問題時多采用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強,合法合規地獲取數據、分析數據和應用數據,是進行大數據分析時必須遵循的原則。

    說到隱私被侵犯,愛德華?斯諾登應該占據一席之地,這位前美國中央情報局(CIA)雇員一手引爆了美國“棱鏡計劃”(PRISM)的內幕消息。“棱鏡”項目是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監聽計劃,年耗資近2000億美元,用于監聽全美電話通話記錄,據稱還可以使情報人員通過“后門”進入9家主要科技公司的服務器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大數據時對公民隱私侵犯的擔心。

    再看看我們身邊,當微博,微信,QQ空間這些社交平臺肆意的吞噬著數億用戶的各種信息時,你就不要指望你還有隱私權了,就算你在某個地方刪除了,但也許這些信息已經被其他人轉載或保存了,更有可能已經被百度或Google存為快照,早就提供給任意用戶搜索了。

    因此在大數據的背景下,很多人都在積極的抵制無底線的數字化,這種大數據和個體之間的博弈還會一直繼續下去……

    專家給予了我們一些如何有效保護大數據背景下隱私權的建議:1-減少信息的數字化;2-隱私權立法;3-數字隱私權基礎設施(類似DRM數字版權管理);4-人類改變認知(接受忽略過去);5-創造良性的信息生態;6-語境化。

    但是這些都很難立即見效或者有實質性的改善。

    比如,現在有一種職業叫刪帖人,專門負責幫人到各大網站刪帖,刪除評論。其實這些人就是通過黑客技術侵入各大網站,破獲管理員的密碼然后進行手工定向刪除。只不過他們保護的不是客戶的隱私,而大多是丑聞。還有一種職業叫人肉專家,他們負責從互聯網上找到一個與他們根本就無關系用戶的任意信息。這是很可怕的事情,也就是說,如果有人想找到你,只需要兩個條件:1-你上過網,留下過痕跡;2-你的親朋好友或僅僅是認識你的人上過網,留下過你的痕跡。這兩個條件滿足其一,人肉專家就可以很輕松的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。

    當很多互聯網企業意識到隱私對于用戶的重要性時,為了繼續得到用戶的信任,他們采取了很多辦法,比如google承諾僅保留用戶的搜索記錄9個月,瀏覽器廠商提供了無痕沖浪模式,社交網站拒絕公共搜索引擎的爬蟲進入,并將提供出去的數據全部采取匿名方式處理等。

    在這種復雜的環境里面,很多人依然沒有建立對于信息隱私的保護意識,讓自己一直處于被滋擾,被精心設計,被利用,被監視的處境中。可是,我們能做的幾乎微乎其微,因為個人隱私數據已經無法由我們自己掌控了,就像一首詩里說到的:“如果你現在繼續麻木,那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”

    值得注意的是,每年春節后,正是成都住房租賃市場的傳統旺季。

    本詞條內容由國搜百科根據相關資料編纂,僅供參考。如有問題,可聯系我們修訂、完善或刪除。也歡迎更多熱愛知識共享、有志于詞條編纂的專業人士參與國搜百科創建。聯系電話:010-87869809 合作郵箱:baike@chinaso.com 交流QQ群:5332181520

    百科 更多?

    Sitemap

    大山深處,傾聽官兵新年心愿 |哈爾濱市將打造全國城區濕地保護利用示范區 |黔西南州交通運輸局干部任前公示 |
    《2017年中國公共氣象服務白皮書》發布 | 《捉妖記2》 童心合家歡 打戲不給力 | 中歐(中亞)班列烏魯木齊集結中心作用凸顯
    騙子行騙這次栽了 讓商人相信9萬能買輛邁巴赫 |特稿:厚植中非友誼 續寫合作新篇——寫在習近平主席提出對非真實親誠理念五周年之際 |履職內蒙古團 習近平面授發展良策 |
    “電競入奧運”須過三道關 | 基層干部怎樣成為多面手 | 中國青年網新聞采訪與線索征集公告
    北京住建委發布文件:中介費由誰支付可協商約定 |從模擬到復現 中國將建“超級風洞” |“一帶一路”國際合作高峰論壇圓桌峰會聯合公報(全文) |
    優步自動駕駛車撞死人 如果事故發生在上海責任如何認定 | 騙子行騙這次栽了 讓商人相信9萬能買輛邁巴赫 | 特稿:厚植中非友誼 續寫合作新篇——寫在習近平主席提出對非真實親誠理念五周年之際
    "小"人物的大"行動" 海河游船復航首周八折優惠(圖) 甘肅金昌“鎳都”轉型創新業 “花都”種美促跨越 北京市為非師范生開設“教師科班” 定向培養幼兒園師資 生態環境部首次通報兩起督辦案 兩家公司被查
    美媒文章:中國經濟表現令美國相形失色(1) 視覺藝術家陶雷和他的演藝小鎮 教育部:加大對貧困學生的政策傾斜 同等條件下優先錄取 作戰數據時刻“保鮮”
    分分快三騙局| 8號彩票注冊| 10分六合網址| 大發快3網站| 南方彩票| 三分快三大小| 極速快3預測| 大發排列3軟件| yy彩票官網| 好運pk10規律| 盛通彩票網站| 三分pk10漏洞| 大發3D計劃|
    愛彩樂彩注冊| 1分賽車漏洞| uu快3遺漏| 諾亞彩票投注| 七彩彩票投注| 港龍彩票平臺| 多彩彩票平臺| 金譽彩票平臺| 大通彩票官網| 豐大彩票網址| 分分pk10倍率| 3分快3計劃| 2分pk10大小|
    早點加盟店10大品牌 早餐工程加盟 中式早點加盟 早餐早點店加盟 中式早餐店加盟
    早餐粥店加盟 早點加盟網 北京早點小吃加盟店 五芳齋早餐加盟 移動早點加盟
    早餐免費加盟 早點加盟店排行榜 早點加盟品牌 早餐 上海早餐車加盟
    湯包加盟 北京早點加盟 早餐包子加盟 早餐餐飲加盟 早點加盟店10大品牌
    凤凰888彩票 顺昌县 | 特克斯县 | 元朗区 | 平度市 | 丰台区 | 隆安县 | 通化市 | 镇雄县 | 仙居县 | 马龙县 | 宜兰市 | 曲松县 | 保亭 | 鹿邑县 | 长沙县 | 成都市 | 札达县 | 博罗县 | 庆云县 | 乐清市 | 伊春市 | 通道 | 吉木乃县 | 沙湾县 | 调兵山市 | 温州市 | 永春县 | 呈贡县 | 霸州市 | 大庆市 | 丹阳市 | 海门市 | 黑河市 | 尼勒克县 | 金寨县 | 九台市 | 永年县 | 遂宁市 | 鄂托克前旗 | 高阳县 | 红河县 | 辽阳县 | 茂名市 | 内丘县 | 清丰县 | 浪卡子县 | 汉源县 | 府谷县 | 彭阳县 | 襄垣县 | 南和县 | 黔东 | 永康市 | 万荣县 | 札达县 | 苍山县 | 乌拉特中旗 | 静宁县 | 嫩江县 | 云梦县 | 东乡县 | 山东 | 沧州市 | 长春市 | 宿迁市 | 信丰县 | 郓城县 | 广丰县 | 神池县 | 淳化县 | 安仁县 | 周宁县 | 唐山市 | 清新县 | 通辽市 | 新密市 | 阜新 | 且末县 | 铁岭市 | 黄石市 | 河源市 | 资兴市 | 信阳市 | 蒙阴县 | 颍上县 | 衡东县 | 铜山县 | 开原市 | 绿春县 | 东兰县 | 青州市 | 宁河县 | 博兴县 | 谢通门县 | 河北省 | 敦化市 | 吴川市 | 曲水县 | 平凉市 | 班戈县 | 德江县 | 平利县 | 谢通门县 | 平顶山市 | 宁陕县 | 登封市 | 定兴县 | 甘洛县 | 东港市 | 泾川县 | 贵溪市 | 威信县 | 琼中 | 德惠市 | 启东市 | 清新县 | 剑河县 | 伊通 | 万盛区 | 鹤山市 | 高要市 | 新密市 | 象山县 | 大名县 | 宣威市 | 揭西县 | 盘锦市 | 甘谷县 | 新建县 | 二连浩特市 | 甘洛县 | 金秀 | 安康市 | 齐齐哈尔市 | 泽库县 | 台湾省 | 碌曲县 | 无极县 | 仲巴县 | 红原县 | 新乡县 | 吉安县 | 辽源市 | 仲巴县 | 石城县 | 新宾 | 沁水县 | 通许县 | 长武县 | 东海县 | 阜平县 | 乐至县 | 滦平县 | 光泽县 | 冷水江市 | 水富县 | 吉隆县 | 都匀市 | 宜都市 | 通化市 | 武威市 | 那坡县 | 寻乌县 | 门头沟区 | 毕节市 | 辽源市 | 井研县 | 西藏 | 综艺 | 新巴尔虎右旗 | 诸城市 | 鹤庆县 | 通河县 | 南充市 | 横山县 | 张家川 | 崇文区 | 东台市 | 资讯 | 台江县 | 普陀区 | 滦南县 | 奎屯市 | 博兴县 | 海原县 | 余江县 | 平江县 | 藁城市 | 庐江县 | 呼伦贝尔市 | 竹山县 | 额敏县 | 锡林浩特市 | 海盐县 | 诸暨市 | 新化县 | 马山县 | 遂平县 | 木里 | 曲阜市 | 斗六市 | 乐业县 | 南岸区 | 正定县 | 江陵县 | 白河县 | 门源 | 凭祥市 | 会宁县 | 榆树市 | 霍林郭勒市 | 南平市 | 泰顺县 | 乌兰浩特市 | 康平县 | 城步 | 雷州市 | 吉水县 | 民丰县 | 樟树市 | 马关县 | 彰武县 | 兴山县 | 荃湾区 | 阳原县 | 海安县 | 肇源县 | 桐城市 | 肥东县 | 广丰县 | 望奎县 | 石楼县 | 白河县 | 九龙坡区 | 石狮市 | 侯马市 | 凤翔县 | 莲花县 | 祁连县 | 福州市 | 安龙县 | 沈阳市 | 兴安县 | 东乡族自治县 | 宣城市 | 渑池县 | 许昌县 | 鹿邑县 | 青浦区 | 文化 | 鲁甸县 |