當(dāng)下的時(shí)代已經(jīng)是一個(gè)真正的大數(shù)據(jù)時(shí)代,而互聯(lián)網(wǎng)產(chǎn)品達(dá)到億級(jí)的用戶量,甚至十億級(jí)的用戶量,都已經(jīng)不鮮見(jiàn)了,產(chǎn)品的迭代方向,用戶行為的分析都要用數(shù)據(jù)說(shuō)話,產(chǎn)品經(jīng)理、運(yùn)營(yíng)人員想要做出正確的決定,要比以往任何時(shí)候都更加依賴數(shù)據(jù)。
如今,“大數(shù)據(jù)”的概念已經(jīng)被炒得沸沸揚(yáng)揚(yáng),不可否認(rèn),現(xiàn)在的各個(gè)領(lǐng)域的數(shù)據(jù)確實(shí)是越來(lái)越多了,人們的數(shù)據(jù)意識(shí)也正在增強(qiáng),尤其是在積累相對(duì)容易的電商行業(yè),但面對(duì)眾多的運(yùn)營(yíng)數(shù)據(jù),你真的能有效的將其應(yīng)用嗎?先不談各種復(fù)雜的計(jì)量模型,先從幾個(gè)簡(jiǎn)單的統(tǒng)計(jì)學(xué)概念入手,北京宏圖遠(yuǎn)見(jiàn)提醒大家:數(shù)據(jù)有陷阱,應(yīng)用需謹(jǐn)慎。
1、算術(shù)平均數(shù)的局限性
算數(shù)平均數(shù),即幾個(gè)數(shù)字相加后除以個(gè)數(shù),這也許是大家僅有的對(duì)平均數(shù)的理解,但其實(shí)平均數(shù)還有很多,比如中位數(shù)、幾何平均數(shù)、眾數(shù)等等。
對(duì)此,我們先來(lái)看一個(gè)例子:某店鋪一段時(shí)間的營(yíng)業(yè)額數(shù)據(jù)如下:該店鋪12期銷(xiāo)售額的算數(shù)平均數(shù)是300,但有10期數(shù)值都在300以下,這樣的數(shù)值合理嗎?前10期的算數(shù)平均數(shù)僅是210,和300相去甚遠(yuǎn),顯然后面兩期的數(shù)值對(duì)整體的拉升作用明顯。
來(lái)個(gè)更極端的例子,三個(gè)人的年收入分別是3萬(wàn)、3萬(wàn)和300萬(wàn),但算數(shù)平均是102萬(wàn),原本是兩個(gè)屌絲和一個(gè)高帥富,可一平均后大家都成了高帥富,大家很多時(shí)候吐槽統(tǒng)計(jì)數(shù)字有水分,其實(shí)這就是算術(shù)平均數(shù)的陷阱。
那么,怎樣獲得更準(zhǔn)確的平均數(shù)呢?有人說(shuō),“去掉最大值,去掉最小值”,這方法沒(méi)錯(cuò),但略顯粗暴,我們介紹幾個(gè)更科學(xué)的計(jì)算方式。
先看中位數(shù),中位數(shù)即將數(shù)列從小到大排列后,取中間位置的那個(gè)數(shù)字作為平均數(shù),若數(shù)列是偶數(shù),則取中間兩位數(shù)的算數(shù)平均,例1的中位數(shù)是200,顯然比300要來(lái)的合理的多。
其次是眾數(shù),即出現(xiàn)頻率最高的那個(gè)數(shù)。
最后介紹下幾何平均數(shù),若要求5個(gè)數(shù)字的幾何平均數(shù),則將這5個(gè)數(shù)連乘后開(kāi)5次方,例1中的幾何平均數(shù)是268,也要比300更接近真實(shí)水平。
目前普遍在用的算數(shù)平均數(shù),受極值的影響很大,其準(zhǔn)確性是值得管理者們注意的,建議管理者將中位數(shù)也應(yīng)用起來(lái),對(duì)算數(shù)平均的判斷起輔助作用,若兩者相差過(guò)大,則需要找到極值產(chǎn)生的原因。
在EXCEL中,中位數(shù)、眾數(shù)和幾何平均數(shù)的函數(shù)分別是MEDIAN、MODE和GEOMEAN,應(yīng)用起來(lái)非常方便。
2、引入定基比率
目前大家比較熟悉的是同比增長(zhǎng)率和環(huán)比增長(zhǎng)率,同比增長(zhǎng)率能夠排除掉季節(jié)性的因素,反映出較為實(shí)質(zhì)性的增長(zhǎng),而環(huán)比能夠連續(xù)地、動(dòng)態(tài)地反映出指標(biāo)的變化,但僅有這兩個(gè)指標(biāo)有時(shí)候是不夠的。
比如,去年和今年市場(chǎng)行情相差很大,那么同比(今年與去年同期比)的參照性就很不可靠,而環(huán)比只看到了這期和上期的差異,若相隔的期數(shù)多了,就很難判斷現(xiàn)在的狀況如何,怎么辦?大家不要忘了定基比率,即將固定的某期設(shè)為基數(shù),其后各期該期進(jìn)行對(duì)比。
比如某店鋪今年1月至12月的銷(xiāo)售額數(shù)據(jù)為(10,12,13,16,18,13,17,19,18,20,25,22),我們將1月數(shù)據(jù)設(shè)為基數(shù)100,其后各期與之的比值即為定基比數(shù)據(jù)(100,120,130,…,250,220),認(rèn)為定基比有時(shí)更能反映出某段時(shí)間的經(jīng)營(yíng)成果,比如某項(xiàng)改革從1月開(kāi)始了,那就將各種運(yùn)營(yíng)指標(biāo)以1月為基期,以后各月與它對(duì)比,便能直觀反映這項(xiàng)改革帶來(lái)的效果(具體可查看博客《如何以客戶為中心進(jìn)行數(shù)據(jù)挖掘與分析》的相關(guān)介紹)。
3、絕對(duì)的排名不一定可靠
某天你孩子向你報(bào)告考試成績(jī),說(shuō)考了第9名,你是高興還是憤怒?先別急著下論斷,得先問(wèn)問(wèn)幾個(gè)人考試,若是500人,那你必然賜予擁吻和禮物;而若是10個(gè)人,你八成會(huì)賞個(gè)巴掌,這就是絕對(duì)數(shù)字排名的局限性。
那么,我們用個(gè)百分比數(shù)值來(lái)代替之,就免去了這樣的尷尬,即排名數(shù)值除以總的參與排名的個(gè)數(shù),比如我經(jīng)營(yíng)50款產(chǎn)品,某款產(chǎn)品銷(xiāo)售額排在第8位,那就表明它排在16%。
要多說(shuō)一點(diǎn)的是,在百分比的排名中,需重視四分位數(shù),即25%,50%,75%三個(gè)檔次,許多指標(biāo)的優(yōu)劣都會(huì)以四分衛(wèi)數(shù)來(lái)衡量,比如你的轉(zhuǎn)化率在行業(yè)內(nèi)的前25%以內(nèi)浮動(dòng),那你暫時(shí)不用擔(dān)心,將精力放在其他方面,若低于25%了,那你或許要花力氣來(lái)提升你的轉(zhuǎn)化率了。
4、不要被漂亮的增長(zhǎng)曲線蒙蔽
對(duì)于許多中小型的電商企業(yè),經(jīng)營(yíng)的第一步便是沖銷(xiāo)售額,因此粗放經(jīng)營(yíng)是普態(tài),對(duì)各種指標(biāo)的大起大落習(xí)以為常,有了漂亮的增長(zhǎng)業(yè)績(jī),穩(wěn)定性真的不重要嗎?不這么認(rèn)為,尤其是成本,穩(wěn)定各項(xiàng)成本是對(duì)企業(yè)發(fā)展的一種蓄力。
比如采購(gòu)成本,許多企業(yè)判斷其采購(gòu)成本的唯一指標(biāo)便是算數(shù)平均數(shù),其弊端在上文中已經(jīng)指出,而對(duì)穩(wěn)定性的認(rèn)識(shí)只停留在人的主觀感受或采購(gòu)曲線的波動(dòng)上,建議電商們計(jì)算方差指標(biāo),即EXCEL中的VAR函數(shù),方差越大,表示該指標(biāo)穩(wěn)定性越差。
一般來(lái)說(shuō),一個(gè)健康的企業(yè),不管銷(xiāo)售額如何變化,其成本的穩(wěn)定性(絕對(duì)值較穩(wěn)定或者變化率較穩(wěn)定)會(huì)較強(qiáng),即方差較小,穩(wěn)定性變差,一般預(yù)示著重大變化的來(lái)臨,面對(duì)越來(lái)越飽和的市場(chǎng)和越來(lái)越激烈的競(jìng)爭(zhēng),電商企業(yè)急需關(guān)注自己運(yùn)營(yíng)的穩(wěn)定性,尤其是與供應(yīng)鏈各個(gè)環(huán)節(jié)相關(guān)的穩(wěn)定性,如采購(gòu)成本、推廣費(fèi)用、物流費(fèi)用等等,任何指標(biāo)若變得不穩(wěn)定了,就該警惕,找出背后的原因(具體可查看博客《如何通過(guò)大數(shù)據(jù)來(lái)獲取商業(yè)價(jià)值》的相關(guān)介紹)。
5、不要太在意活動(dòng)中的數(shù)據(jù)
有幸觀察過(guò)一個(gè)日化店鋪的數(shù)據(jù),老板非常想知道什么因素對(duì)銷(xiāo)售額的影響最大?在對(duì)其運(yùn)營(yíng)數(shù)據(jù)進(jìn)行回歸分析后,發(fā)現(xiàn)做活動(dòng)的次數(shù)和時(shí)長(zhǎng)對(duì)其銷(xiāo)售額都沒(méi)有影響(統(tǒng)計(jì)不顯著),唯一有影響的是客單價(jià),客單價(jià)越低銷(xiāo)售額越高。
乍看之下,這個(gè)結(jié)論著實(shí)有些讓人無(wú)語(yǔ)(因?yàn)檎l(shuí)都知道),但模型顯示,客單價(jià)每降低一元,總銷(xiāo)售額提升100多,鑒于其高于50%的毛利率,降價(jià)一元可以總體上多賺50塊,但是總銷(xiāo)售額是萬(wàn)元級(jí)的,因此多賺的50元微不足道,所以總體上看,銷(xiāo)售額似乎是一個(gè)不受人為控制的指標(biāo)(自然波動(dòng)),這似乎是一個(gè)謎題。
但促銷(xiāo)活動(dòng)的不顯著是值得我們思考的,當(dāng)然,也許是我們遺漏了某關(guān)鍵的指標(biāo),也許僅僅有客單價(jià)、促銷(xiāo)次數(shù)、促銷(xiāo)天數(shù)、轉(zhuǎn)化率、UV、熟客率等指標(biāo)是不夠的,但不妨自問(wèn),我們很多時(shí)候是不是太過(guò)看重促銷(xiāo)和推廣了呢!
6、數(shù)據(jù)的“假規(guī)律”和“偽相關(guān)”
數(shù)據(jù)越大未必就能帶來(lái)更高的預(yù)測(cè)率,甚至還會(huì)帶來(lái)“假規(guī)律”和“偽相關(guān)”,比方說(shuō):搜索2005至2015年間的美國(guó)汽車(chē)銷(xiāo)售與“印度餐館”,結(jié)果發(fā)現(xiàn)二者之間竟然存在相關(guān)關(guān)系,這個(gè)東西顯然是無(wú)法解釋的,那么,偽相關(guān)的原因是什么呢?
首先,相關(guān)性并不意味著因果關(guān)系,比方說(shuō):Google Flu Trends對(duì)趨勢(shì)的預(yù)測(cè)并非屢試不爽,有幾次Google Trends就嚴(yán)重高估了流感病例的數(shù)量,包括2011/12的美國(guó)流感,2008/09瑞士流感,2008/09德國(guó)流感、2008/09比利時(shí)流感等。
英國(guó)倫敦大學(xué)學(xué)院的研究人員對(duì)此進(jìn)行了研究,結(jié)果發(fā)現(xiàn),到Google搜索“流感”的人可以分成兩類:一類是感冒**;另一類是跟風(fēng)搜索者(可能是因?yàn)槊襟w報(bào)道而對(duì)感冒話題感興趣者)。
顯然第一類人的數(shù)據(jù)才是有用的,其搜索是內(nèi)部產(chǎn)生的,獨(dú)立于外界的,因此這些人的搜索模式應(yīng)該與受到外界影響而進(jìn)行搜索的人的模式不同,而正是第二類人的社會(huì)化搜索使得Google Flu Trends的預(yù)測(cè)失真,這正是因?yàn)?/span>Google Flu Trends把搜索“流感”與得流感的相關(guān)性當(dāng)成了因果關(guān)系所致。
而稍早前美國(guó)東北大學(xué)與哈佛大學(xué)的研究人員對(duì)Google Flu Trends的失真案例進(jìn)行的另一組研究則認(rèn)為,這反映出了熱炒大數(shù)據(jù)的氛圍下誕生的一股大數(shù)據(jù)自大思潮,這股思潮認(rèn)為,大數(shù)據(jù)完全可以取代傳統(tǒng)的數(shù)據(jù)收集方法,其最大問(wèn)題在于,絕大多數(shù)大數(shù)據(jù)與經(jīng)過(guò)嚴(yán)謹(jǐn)科學(xué)試驗(yàn)和采樣設(shè)計(jì)得到的數(shù)據(jù)之間存在很大的不同,首先,大未必全;其次,大則可能魚(yú)龍混雜。
此外,Google搜索算法本身的變化也有可能影響到Google Flu Trends的結(jié)果,這個(gè)原因不難理解,要知道,Google搜索的調(diào)整非常頻繁,單去年就進(jìn)行了890項(xiàng)改進(jìn),其中就有不少屬于算法的調(diào)整,媒體對(duì)于流感流行的報(bào)道會(huì)增加與流感相關(guān)的詞匯的搜索次數(shù),也會(huì)令Google增加相關(guān)搜索的推薦,從而令一些本身并不感冒的人也對(duì)流感產(chǎn)生了興趣,進(jìn)而把數(shù)據(jù)弄臟。
對(duì)于清洗數(shù)據(jù),歸根到底還是需要對(duì)數(shù)據(jù)進(jìn)行模式分析,在流感趨勢(shì)這個(gè)例子,研究人員認(rèn)為,執(zhí)行獨(dú)立搜索的患流感人群的模式會(huì)隨著時(shí)間推移而異于社會(huì)化搜索,其表現(xiàn)應(yīng)該是在流感爆發(fā)時(shí)搜索急劇攀升,然后隨著流感消失而緩慢下降,相反,社會(huì)化搜索則會(huì)表現(xiàn)得更為勻稱,數(shù)據(jù)表明,在Google流感趨勢(shì)出現(xiàn)高估的時(shí)候,趨勢(shì)曲線的對(duì)稱性的確更高。
這說(shuō)明在分析大數(shù)據(jù)時(shí)必須要注意此類陷阱,充斥的大數(shù)據(jù)集以及統(tǒng)計(jì)學(xué)家對(duì)分析結(jié)果的傳播會(huì)令真實(shí)的數(shù)據(jù)被放大或弄臟。