在大數據時(shí)代,人們很容易把一大堆數據定義為“大數據”。比如,大型制造企業(yè)和倉庫可能存有多年積累下來(lái)的存貨數據,或許高達幾兆兆字節,但這并不能算大數據。同樣,1 500個(gè)POS機的現金數據、一大份工作表中的數據也不是大數據。
企業(yè)需要行之有效的方法去儲存、分析、使用數據,如果管理的不是大數據問(wèn)題,那就沒(méi)有必要建立數據池、雇傭數據科學(xué)家。說(shuō)到底,辨別所管理的是大數據還是大量數據至關(guān)重要。以下是我個(gè)人推崇的幾種辨別方法:
1. 數據是否來(lái)源于多種不同渠道。
如果數據來(lái)源單一,即使數據量很大,也不太可能是大數據。
職業(yè)數據人會(huì )考慮大數據的3V(或4V):數量,多樣性,速度(精確性)。本文討論的就是第二種:多樣性。一般來(lái)說(shuō),大數據往往不是來(lái)自于單一源頭或系統,而是來(lái)自于許多不同的地方,不同的形式,以及不同的變量。
例如,POS數據盡管數量龐大但不是大數據,可是如果把從供應商處取得的數據與其整合以構建供應鏈,則它們就成了大數據。因此,問(wèn)題在于是什么形成了大數據,而不是僅僅考慮數量因素。
2. 數據是否需要被實(shí)時(shí)分析使用。
并不是所有的大數據都一定來(lái)源于多種不同渠道,當數據需要被實(shí)時(shí)分析使用,比如預防欺詐、股票交易時(shí),盡管數據缺乏多樣性,但仍可被定義為大數據。在信用服務(wù)業(yè),用于預防欺詐的數據來(lái)源并不復雜,但需要實(shí)時(shí)分析技術(shù),這樣若真的存在欺詐,也會(huì )被馬上檢測出并予以阻止。
同樣的,股票交易員所依賴(lài)的高頻交易數據也并不是特別復雜的數據,但需要連續處理以做出買(mǎi)入或賣(mài)出股票的決定。
3. 你是否需要詢(xún)問(wèn)復雜問(wèn)題。
當你開(kāi)始針對數據詢(xún)問(wèn)更加復雜的問(wèn)題的時(shí)候,比如確定因果關(guān)系,則該數據就成了大數據。當然,在這種情況下,最好還是使用多方面來(lái)源的數據。
比如,當你想知道女性紅色高跟鞋四月份的市場(chǎng)情況的時(shí)候,你所要的數據就不僅僅是你自己的采購記錄了,你還要整合社交媒體和其他外部市場(chǎng)數據以得到最佳答案。
4. 數據集是否代表了許多不同的變量。
如果數據代表了一系列不同的難以界定模式和關(guān)聯(lián)性的變量,那么即使數據是由單一系統或小型系統搜集而來(lái),也可認定為是大數據。例如,氣象數據僅從一些基礎的系統取得(氣溫,氣壓,風(fēng)速等),但數據關(guān)系卻極為復雜,即使是最富經(jīng)驗的氣象學(xué)家也不一定總能做出準確的氣象預測。因此,他們會(huì )使用高度專(zhuān)業(yè)化的數據分析方法以做出更準確的預測。
5. 數據是未架構的,半架構的,架構的還是以上的綜合。
諸如SQL等關(guān)系明確的數據庫長(cháng)時(shí)間以來(lái)成功地處理了組織良好的數據,但如今的多媒體世界為我們呈現了一系列未架構的和半架構的數據,這些數據在SQL中無(wú)法得到良好的處理。這些數據包括圖像,視頻,文本文件,電子郵件交流,社交媒體,音頻文件以及其他。
以上五種鑒別方法,正是我們在討論大數據運用時(shí),常常因為邊界模糊,定義不清晰造成的“誤判”。
這是一場(chǎng)顛覆性的革命,從信息不對稱(chēng)的服務(wù)業(yè)出發(fā)逐步延伸到政府、制造業(yè)甚至第一產(chǎn)業(yè)中。許多企業(yè)家的坐標系、商業(yè)知覺(jué)失靈了,許多投資人對趨勢的判斷失效了。這最早體現在客戶(hù)結構的變化,上世紀八九十年代人群的消費成主流,帶動(dòng)游戲規則的變化,物理間隔。
大數據時(shí)代一定要注意移動(dòng)互聯(lián)網(wǎng)。在2012年移動(dòng)互聯(lián)網(wǎng)流量已經(jīng)全面超過(guò)PC了,我們如何在移動(dòng)互聯(lián)網(wǎng)做產(chǎn)品,同時(shí)考慮客戶(hù)的需求點(diǎn)?未來(lái)軟件會(huì )免費,會(huì )成為一個(gè)采集數據的入口,行業(yè)的邊界會(huì )被打破,現在更多的行業(yè)都在做金融相關(guān)服務(wù)。數據越來(lái)越重要,已經(jīng)在逐漸成為資產(chǎn)。
這是一個(gè)完整的電商過(guò)程,一個(gè)做得比較優(yōu)質(zhì)的電商從客戶(hù)進(jìn)店、瀏覽、下單、付款、期待、收貨、評價(jià)。有一家大的互聯(lián)網(wǎng)公司,它的客戶(hù)分成接近800萬(wàn)類(lèi),同時(shí)每一類(lèi)貼上上萬(wàn)個(gè)標簽,這是非常必要的過(guò)程。你會(huì )知道什么客戶(hù)是你的老客戶(hù),什么是新客戶(hù),什么是忠實(shí)客戶(hù),什么是粉絲,以及未來(lái)在社交網(wǎng)絡(luò )上新的營(yíng)銷(xiāo)方式,怎么通過(guò)粉絲進(jìn)行大回響的效應等。
關(guān)于大數據的定義,準確地說(shuō)是通過(guò)數據很準確、深刻地標識出來(lái)人或者事物行為的本質(zhì),通過(guò)這些數據來(lái)產(chǎn)生商業(yè)的或某一種動(dòng)機的目的。
從這個(gè)意義上來(lái)說(shuō),至少有幾個(gè)特征不屬于大數據。第一,你有大量的數據并不能說(shuō)明你是大數據,因為數據里面有意義的數據還是少數的。第二,數據之間復雜的關(guān)系往往是跨行業(yè)的,也就是說(shuō)這些數據越是超越了某個(gè)行業(yè),越是能夠更復雜地認識人的行為,這種綜合性是一個(gè)大數據的十分明顯的特點(diǎn)。第三,它一定是不斷交互和循環(huán)的。它會(huì )不斷地學(xué)習,通過(guò)越來(lái)越深刻的、循環(huán)的過(guò)程,使這種識別、標識變得更為準確。
所以它也是動(dòng)態(tài)的,因此大數據被應用于識別標識行為的過(guò)程中。今天因為有了平臺、有了提供者、有了人參與、有了綜合和跨越,最終服務(wù)于商業(yè)根本的目的。
評論
全部評論(8)
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最?lèi)?ài)