大資料是什麼?

  • 作者:由 匿名使用者 發表于 曲藝
  • 2021-07-15

大資料是什麼? 匿名使用者 1級 2017-11-03 回答

大資料只是一個空洞的商業術語,就跟所謂的商業智慧一樣空洞無物。當然,這並不是說大資料沒有意義,只是對於不同的人有不同的含義。

對於投資人和創業者而言,大資料是個熱門的融資標籤。就和前幾年流行的 SoLoMo,這幾年火爆的 P2P 一樣,大資料是資本泡沫的催化劑。如今任何一家(移動)網際網路公司都忙著把自己標榜為大資料公司,或者乾脆說自己是一家資料公司。遺憾的是,大多數中國的網際網路公司都是流量驅動的企業。與其說這些公司是大資料公司,不如說它們是資料採集公司。是的,每一家網際網路公司都是資料公司,因為資料(Data)是比資訊(Information)要狹隘得多的詞彙。換句話說,任何一家 IT 行業的公司天然地都是資料公司。但是非 IT 公司同樣可以是資料公司,例如房地產企業和汽車銷售公司——畢竟他們優質低價地將顧客的資訊轉賣給任何感興趣的個人或實體。遺憾的是,中國並沒有幾家 Pure-Play 的資料公司,因此中國不太可能出現 Palantir 這樣偉大的企業。我不幸見過一兩家國產獨角獸企業的技術/資料負責人,他們似乎並不瞭解這家 CIA 投資的創業公司,但這並不妨礙他們把自己的公司定位為世界級的大資料公司。我可以臆測,國內這些獨角獸企業的道德底線遠遠低於(為美帝情報機構服務的) Palantir,只是它們還沒有足夠的人才和技術來充分挖掘資料中的有效資訊。

對於大多數網際網路公司或者工程師而言,大資料實際上只有一個意思,就是把一堆亂七八糟的資料扔到 HDFS 上面然後進行計算。計算的工具有很多,最常見的是 Map-Reduce,但是技術一直在演進,現在還流行 Impala、Spark、Presto 什麼的。對於這些搞大資料的工程師而言,這是一個非常好的事情,因為要把這麼多異構的資料和系統跑起來,需要很多人寫很多程式碼,還需要有人來做運維。這麼一個部門總得需要幾十臺機器否則還不如單機計算能力強,工程師也得有十來人。然後可能還需要資料分析師,否則這部門跟擺設也沒什麼區別。如果系統做得不錯資料量也有了,總得配個數據科學家搞點資料探勘或者機器學習什麼的吧。所以大資料這件事情可以解決很多就業問題,畢竟很多上了規模的網際網路公司都想搞大資料。

對於大多數網際網路公司或者工程師而言,大資料實際上只有一個意思,就是把一堆亂七八糟的資料扔到 HDFS 上面然後進行計算。計算的工具有很多,最常見的是 Map-Reduce,但是技術一直在演進,現在還流行 Impala、Spark、Presto 什麼的。對於這些搞大資料的工程師而言,這是一個非常好的事情,因為要把這麼多異構的資料和系統跑起來,需要很多人寫很多程式碼,還需要有人來做運維。這麼一個部門總得需要幾十臺機器否則還不如單機計算能力強,工程師也得有十來人。然後可能還需要資料分析師,否則這部門跟擺設也沒什麼區別。如果系統做得不錯資料量也有了,總得配個數據科學家搞點資料探勘或者機器學習什麼的吧。所以大資料這件事情可以解決很多就業問題,畢竟很多上了規模的網際網路公司都想搞大資料。

關於大資料和隱私,最核心的問題在於標識(Identity),尤其是所謂的 PII (Personal Identifiable Information)。但是要對使用者進行追蹤並不一定需要 PII,任何一個強度足夠高的隨機數都可以用來追蹤單個使用者。在 Web 時代,由於 Cookie 的生命週期問題,對使用者進行長期追蹤並不是很容易。但是最近幾年,越來越多的公司使用 Flash 來進行追蹤,最終演進成一種叫做數字指紋的技術。要解釋這些技術需要一些應用數學背景,知乎上應該可以找到相關的問答,我就不贅述了。我很想系統地講述在使用桌面瀏覽器上如何保護自己的隱私,但是似乎離題太遠了。但是我還是想提醒一句,在桌面瀏覽器上最有效的安全習慣就是禁用 Flash(當然,如果你出於安全裝了數字公司的軟體,那麼你可以假裝我說的都是廢話——畢竟數字公司連你開機時間這種資訊都不放過,更何況這家公司可是以所謂的“厚資料”而聞名的)。

身份到底有多重要呢?我可以說說我自己的一些非理性的習慣。大多數地鐵一卡通都是不記名的,但是我以前會定期地破壞一卡通,從而避免在一卡通裡積累過多的資料。但是由於我並不能很頻繁地換卡,所以我這樣的非理性行為是毫無用處的——你只需要讀讀我的卡就知道我住在哪裡又在哪裡上班,誤差不會超過兩公里。從技術上說,任何一張非接觸卡都可以可能用於追蹤我的身份,以及我所在的時空座標。雖然我知道目前的技術並不能在超過一米的距離上讀出我隨身攜帶的卡片,但是我仍然把我身上所有的非接觸卡放在一個金屬的名片盒中。作為一個足夠偏執的人,我更相信物理隔離。遺憾的是,這些非理性的習慣在移動時代都是徒勞的。

在移動時代,身份問題變成了最嚴重的問題,因為智慧手機在很大程度上是私人裝置。大多數人都隨身攜帶這些裝置,這就意味著裝置的標識和個人幾乎是一一對應的。在這個問題上,就連蘋果公司都沒能意識到其嚴重性,以至於在早期的蘋果裝置上有一個接近完美的唯一硬體標識(UDID)。這就意味著所有的 App 開發者都可以使用這個標識來追蹤裝置和交換資料。換句話說,只要你在一個 App 中使用了 Facebook 賬號或者提交了電話號碼,那麼你在這個裝置中的所有行為都有可能被關聯到你的 PII。蘋果直到兩年以前才堵上這個漏洞,並透過所謂的 IDFA 來替代 UDID。我並不喜歡蘋果公司,但是我在這裡提這個案例並不是為了貶低蘋果公司。事實上,蘋果公司是所有的智慧手機制造商中最尊重使用者隱私的那一家,沒有之一。原因很簡單,蘋果公司並不是一家網際網路公司,它是透過向消費者出售手機來獲利的。蘋果公司的硬體利潤非常高,它不需要透過 App Store 和廣告來獲利,因此 Tim Cook 才會有底氣地討論消費者的隱私問題。而 Google 則不同,它是一家廣告公司,它甚至會透過分析使用者的郵件來進行精準廣告投放。我並不想把 Google 妖魔化成一個侵犯消費者隱私的寡頭,但是 Google 的不作為讓 Android 成為了地球上最偉大的監控平臺。Android 上的確沒有 UDID 這麼高質量的標識,但是它允許開發者直接獲取 IMEI——利用 IMEI 理論上可以透過運營商獲取手機號碼,並且進行實時的監控。此外 Android 還允許開發者獲取 MAC 地址和 Android ID 這些標識,而前者可以用於基於 Wi-Fi 的地理位置定位。這些看起來很糟糕,但還不是最糟糕的,因為 Android 還允許開發者獲取安裝應用列表、正在執行應用列表。換句話說,Android 不僅允許開發者監控自己的 App 使用情況,還可以監控其他的 App 的使用情況,這可是字面上的情報工作。這些在技術層面上都是 Android 允許的,對於已 Root 裝置或者能夠利用漏洞提權的 App 而言,Android 提供的想象空間幾乎是無限的。

大資料是什麼? 霓裳羽衣 1級 2017-11-03 回答

大資料是什麼?是一種運營模式,是一種能力,還是一種技術,或是一種資料集合的統稱?今天我們所說的“大資料”和過去傳統意義上的“資料”的區別又在哪裡?大資料的來源又有哪些?等等。當然,我不是專家學者,我無法給出一個權威的,讓所有人信服的定義,以下所談只是我根據自己的理解進行小結歸納,只求表達出我個人的理解,並不求全面權威。先從“大資料”與“資料”的區別說起吧,過去我們說的“資料”很大程度上是指“數字”,如我們所說的客戶量,業務量,營業收入額,利潤額等等,都是一個個數字或者是可以進行編碼的簡單文字,這些資料分析起來相對簡單,過去傳統的資料解決方案(如資料庫或商業智慧技術)就能輕鬆應對;而今天我們所說的“大資料”則不單純指“數字”,可能還包括“文字,圖片,音訊,影片……”等多種格式,其涵括的內容十分豐富,如我們的部落格,微博,輕部落格,我們的音訊影片分享,我們的通話錄音,我們位置資訊,我們的點評資訊,我們的交易資訊,互動資訊等等,包羅永珍。用正規的語句來概括就是,“資料”是結構化的,而“大資料”則包括了“結構化資料”“半結構化資料”和“非結構化資料”。關於“結構化”“半結構化”“非結構化”可能從字面上比較難理解,在此我試著用我的語言看能否形象點地表達出來:由於資料是結構化的,資料分析可以遵循一定現有規律的,如透過簡單的線性相關,資料分析可以大致預測下個月的營業收入額;而大資料是半結構化和非結構化的,其在分析過程中遵循的規律則是未知的,它透過綜合方方面面的資訊進行模擬,它以分析形式評估證據,假設應答結果,並計算每種可能性的可信度,透過大資料分析我們可以準確找到下一個市場熱點。 基於此,或許我們可以給“大資料”這樣一個定義,“大資料”指的是收集和分析大量資訊的能力,而這些資訊涉及到人類生活的方方面面,目的在於從複雜的資料裡找到過去不容易昭示的規律。相比“資料”,“大資料”有兩個明顯的特徵:第一,上文已經提到,資料的屬性是包括結構化、非結構化和半結構化資料;第二,資料之間頻繁產生互動,大規模進行資料分析,並實時與業務結合進行資料探勘。解決了大資料是什麼,接下來還有一個問題,大資料的來源有哪些?或者這個問題這樣來表達會更清晰“大資料的資料來源有哪些?”對於企業而言,大資料的資料來源主要有兩部分,一部分來自於企業內部自身的資訊系統中產生的運營資料,這些資料大多是標準化、結構化的。(若繼續細化,企業內部資訊系統又可分兩類,一類是“基幹類系統”,用來提高人事、財會處理、接發訂單等日常業務的效率;另一類是“資訊類系統”,用於支援經營戰略、開展市場分析、開拓客戶等。)傳統的商業智慧系統中所用到的資料基本上資料該部分。而另外一部分則來自於外部,包括廣泛存在於社交網路、物聯網、電子商務等之中的非結構化資料。這些非結構化資料由源於 facebook、twitter、linkedin 及其它來源的社交媒體資料構成,其產生往往伴隨著社交網路、移動計算和感測器等新的渠道和技術的不斷湧現和應用。具體包括了:如,呼叫詳細記錄、裝置和感測器資訊、gps 和地理定位對映資料、透過管理檔案傳輸協議傳送的海量影象檔案、web 文字和點選流資料、科學資訊、電子郵件等等。由於來源不同,型別不同的資料透視的是同一個事物的不同的方面,以消費客戶為例,消費記錄資訊能透視客戶的消費能力,消費頻率,消費興趣點等,渠道資訊能透視客戶的渠道偏好,消費支付資訊能透視客戶的支付渠道情況,還有很多,如,客戶會否在社交網站上分享消費情況,消費前後有否在搜尋引擎上搜索過相關的關鍵詞等等,這些資訊(或說資料)從不同的方面表達了客戶的消費過程的方方面面。因此,一般來說,企業用以分析的資料來源越廣越全面,其分析的結果就越立體,越接近於真實。因此,大資料分析意味著企業能夠從不同來源的資料中獲取新的洞察力,並將其與企業業務體系的各個細節相融合,以助力企業在創新或者市場拓展上有所突破。針對“資料量”這個話題,亞馬遜cto vogels曾經說過,“在運用大資料時,你會發現資料越大,結果越好。為什麼有的企業在商業上不斷犯錯?那是因為他們沒有足夠的資料對運營和決策提供支援。一旦進入大資料的世界,企業的手中將握有無限可能。”可以預料,在不遠的未來,企業如何透過抓住使用者獲取源源不斷的資料資產將會是一個新的兵家必爭之地。在這個層面上,facebook、twitter、google、amazon,包括電信運營商等領先企業具有無可比擬的優勢。在大資料的領域裡是否資料量越大越好?很多時候我們寫文章,並不是想要去重複某一個眾所周知的事實,而更多的是想從另外一個角度試圖去質疑那些已成事實的事實,並不是想要去推翻,而只是去看這個事實是否存在另外的可能性,雖然很多時候我的那些質疑會漏洞百出,並顯得幼稚可笑,但我覺得一個事物的健康發展需要不同的聲音,而這正是我們寫文章的意義所在。所以,我現在問題是,在大資料的領域裡是否資料量越大越好?對於這個問題,我覺得應該分兩個層面來看,第一個層面是,對大資料這個整體而言,資料肯定是越大越好的,多元的資料能讓不同行業,不同組織都可以從大資料中尋找到解決問題的方法,也是基於此,現在越來越多的企業組織透過不同的終端、應用或者其他手段去瘋狂地收集多元的資料,大資料讓人們能有足夠的能力和視野將地球(包括地球上的一切)作為一個整體去看待,這是在從前無法想象的。第二個層面是,對於大資料的具體應用而言,資料量是否越大越好,我卻有不同的看法。我的理解是,在大資料的實際應用中你用以分析的資料量越大,你能得到的東西就越多,而至於得到的那些東西是否是你所需要的,或者對你是否有價值的,沒有人能保證。就如同樹林裡有100條路,每條路上都有一些你覺得有意思的東西,如果你有足夠的時間,你可以走遍這100條路,收穫很多有意思的小東西,但不是每一條路都會讓你得到真正有價值的東西。經常做資料分析的朋友應該會有同感,在分析的過程中你會發現不同的資料透過不同的組合匯入不同的分析模型會得到很多不同的結果,有時候會有一些很新鮮的結果被發現,這會讓你很驚喜,但大部分這些新鮮的結果最後只會出現在你的微博裡,而不會出現在正式的分析報告中,因為分析報告是為解決某一具體問題而存在的,旁枝末節太多會顯得臃腫且容易混淆。所以,我認為,在大資料的具體應用面前,我們先要做的是把“大資料”這個概念忘掉,我們必須弄清楚到底想從大資料中得到什麼,然後帶著目的去收集有用的資料,輸入至分析模型中,直接導向我們想要的結果。否則你將花費大量時間、資源成本去獲取資料,分析資料。我們需要大資料應用是能夠幫助解決問題的行為洞察,而不是試圖研究每一條能夠得到的資訊。不得不說,大資料的世界太魔幻了,裡面的誘惑很多,如果你不是帶著明確的目標去應用,你很有可能被陷入在五光十色的誘惑中無法自拔。即使你走進了一座金山,最後你能帶走的最多也只是你能提動的一小口袋。另外,這同時也揭示,為了避免應用者困在“大資料的金山”,大資料必須往下細化,針對不同行業不同領域的特定問題制定不同的解決工具,未來大資料將會遵循消費化模式,核心基礎設施將作為服務或應用程式來提供。

Top