智能大數據是一種思維方式革命這個時代屬于大數據
簡單地講,當時無論是做語音識別、機器翻譯、圖像識別,還是自然語言理解的學者,分成了界限很明確的兩派,一派堅持采用傳統的人工智能方法解決問題,簡單來講就是模仿人,另一派在倡導數據驅動方法。這兩派在不同的領域力量不一樣,在語音識別和自然語言理解領域,提倡數據驅動的派比較快地占了上風;而在圖像識別和機器翻譯方面,在較長時間里,數據驅動這一派處于下風。
這里面主要的原因是,在圖像識別和機器翻譯領域,過去的數據量非常少,而這種數據的積累非常困難。圖像識別就不用講了,在互聯網出現之前,沒有一個實驗室有上百萬張圖片。在機器翻譯領域,所需要的數據除了一般的文本數據,還需要大量的雙語(甚至是多語種)對照的數據,而在互聯網出現之前,除了《圣經》和少量聯合國文件,再也找不到類似的數據了。
在 20 世紀 90 年代互聯網興起之后,數據的獲取變得非常容易。從 1994 年到 2004 年的 10 年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中 20% 左右的貢獻來自方法的改進,80% 則來自數據量的提升。雖然在每一年,計算機在解決各種智能問題上的進步幅度并不大,但是十幾年量的積累,最終促成了質變。
數據驅動方法從 20 世紀 70 年代開始起步,在八九十年代得到緩慢但穩步的發展。進入 21 世紀后,由于互聯網的出現,使得可用的數據量劇增,數據驅動方法的優勢越來越明顯,最終完成了從量變到質變的飛躍。如今很多需要類似人類智能才能做的事情,計算機已經可以勝任了,這得益于數據量的增加。
全世界各個領域數據不斷向外擴展,漸漸形成了另外一個特點,那就是很多數據開始出現交叉,各個維度的數據從點和線漸漸連成了網,或者說,數據之間的關聯性極大地增強,在這樣的背景下,就出現了大數據。
大數據更是一種思維方式革命
在方法論的層面,大數據是一種全新的思維方式。按照大數據的思維方式,我們做事情的方式與方法需要從根本上改變。
要說清楚大數據思維的重要性,需要先回顧一下自 17 世紀以來一直指導我們曰常做事行為的先前最重要的一種思維方式一一機械思維。今天說起機械思維,很多人馬上想到的是死板、僵化,覺得非常落伍,甚至「機械」本身都算不上什么好詞。但是在兩個世紀之前,這可是一個時髦的詞,就如同今天我們說互聯網思維、大數據思維很時髦一樣�?梢院敛豢鋸埖貨G,在過去的三個多世紀里,機械思維可以算得上是人類總結出的最重要的思維方式,也是現代文明的基礎。今天,很多人的行為方式和思維方式其實依然沒有擺脫機械思維,盡管他們嘴上談論的是更時髦的概念。
那么,機械思維是如何產生的?為什么它的影響力能夠延伸至今,它和我們將要討論的大數據思維又有什么關聯和本質區別呢?
不論經濟學家還是之前的托勒密、牛頓等人,他們都遵循著機械思維。如果我們把他們的方法論做一個簡單的概括,其核心思想有如下兩點:首先,需要有一個簡單的元模型,這個模型可能是假設出來的,然后再用這個元模型構建復雜的模型;其次,整個模型要和歷史數據相吻合。這在今天動態規劃管理學上還被廣泛地使用,其核心思想和托勒密的方法論是一致的。
大數據的本質
首先我們必須承認世界的不確定性,這樣我們就不會采用確定性的思維方式去面對一個不確定性的世界。當我們了解到信息或者說數據能夠消除不確定性之后,便能理解為什么大數據的出現能夠解決那些智能的問題,因為很多智能問題從根本上來講無非是消除不確定性的問題。對于前面提到的大數據的三個特征,即數據量大、多維度和完備性。在這個基礎之上,我們就能夠講清楚大數據的本質。
先談談數據量的問題。在過去,由于數據量不夠,即使使用了數據,依然不足以消除不確定性,因此數據的作用其實很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個領域先積攢下足夠多的數據,它的研究進展就顯得快一些。具體到機器智能方面,語音識別是最早獲得比較多數據的領域,因此數據驅動的方法從這個領域產生也就不足為奇了。
這樣數據驅動才具有普遍性,而不再是時靈時不靈的方法論。
由此可見,大數據的科學基礎是信息論,它的本質就是利用信息消除不確定性。雖然人類使用信息由來已久,但是到了大數據時代,量變帶來質變,以至于人們忽然發現,采用信息論的思維方式可以讓過去很多難題迎刃而解。
大數據思維和原有機械思維并非完全對立,它更多的是對后者的補充。在新的時代,一定需要新的方法論,也一定會產生新的方法論。
在有大數據之前,我們尋找一個規律常常是很困難的,經常要經歷「假設——求證——再假設——再求證」這樣一個漫長的過程,而在找到規律后,應用到個案上的成本可能也是很高的。但是,有了大數據之后,這一類問題就變得簡單了。
比如通過對大量數據的統計直接找到正常用電模式和納稅模式,然后圈定那些用電模式異常的大麻種植者,或者有嫌疑的偷漏稅者。由于這種方法采用的是機器學習,依靠的是機器智能,大大降低了人工成本,因此執行的成本非常低。在美國有大量類似的報道,在各種媒體上都可以看到。
在大數據出現之前,并非我們得不到信息直接的關聯性,而是需要花費很長的時間才能收集到足夠多的數據,然后再花費更長的時間來驗證它,這也是過去大部分傳統的企業對于細節數據的收集和處理不是很重視的原因,相比之下他們更看重經驗和宏觀數據。但是到了大數據時代,這些企業的觀念也在慢慢轉變。
http://www.mapvision.com.cn/hyxw/496.html
http://www.mapvision.com.cn/hyxw/495.html