小紅書大數(shù)據(jù)負責人呂侶:“長得太快”也是一種挑戰(zhàn)
聯(lián)商網(wǎng)消息:8月2日,觀遠數(shù)據(jù)2019智能決策峰會在上海舉行,本次峰會由國內(nèi)零售智能分析領域的領先企業(yè)觀遠數(shù)據(jù)主辦。
峰會上,400+來自連鎖零售、快消品牌、鞋服箱包、購物中心、新經(jīng)濟消費等國內(nèi)外知名零售企業(yè)高層領導共聚一堂,深入探討零售各細分業(yè)態(tài)的轉型痛點與創(chuàng)新實踐,共謀零售數(shù)據(jù)智能的未來發(fā)展。
小紅書大數(shù)據(jù)負責人呂侶以《小紅書,大數(shù)據(jù)》為題,分享了小紅書在大數(shù)據(jù)方面的一些進展。他表示,小紅書把數(shù)據(jù)倉庫層全部下移移到EMR上,數(shù)據(jù)市場層分為兩邊,”我們得到的直接效果是過去每天可以看到大約50個實驗,現(xiàn)在每天運行的數(shù)量是500個,每天往前走的速度得到反饋的速度乘了10倍,這樣嘗試的速度讓我們能夠快速跟上市場的步伐,捕捉到前進的信號。“
以下為呂侶演講摘要:
在場的各位嘉賓,觀遠的朋友們,大家好,我是來自于小紅書的呂侶。非常高興在這里跟大家分享小紅書在大數(shù)據(jù)方面的一些進展。我看到有一半左右的同學們已經(jīng)是小紅書的用戶,我就給剩下的一半同學介紹一下小紅書是什么。首先小紅書在兩三年前是一個跨境的電商,這個電商指標叫做把全世界的好東西帶給你。希望把全世界最好的東西通過跨境電商的形式帶到你的身邊,讓你享受到全世界更好的一些服務。
在最近的一年半里面,小紅書已經(jīng)從跨境電商成功蛻變?yōu)樽钚碌纳罘绞降木奂兀鋵嵽D向了社區(qū)。大家更加熟悉的比喻小紅書是一座紅色的城市,小紅書數(shù)以億計的用戶是這個城市中的居民,小紅書的KOL們是這個城市中的出版社以及作者們,這些作者會將他精心的發(fā)現(xiàn),將他們新的一些好的生活方式帶給大家,讓每個小城市的居民們得到更新鮮的發(fā)展方式以及更好的生活方式,點亮他們自己的生活,也讓他們自己生活中閃亮的瞬間點亮其他人。
現(xiàn)在小紅書有多少用戶呢?這是今年6月6日的數(shù)據(jù),6月6日的時候宣布小紅書已經(jīng)獲得第2.5億個用戶。在昨天我們PR同事告訴我說你這個要改了,因為我們又成長了,我們已經(jīng)有3億用戶了。在短短兩個月不到的時間里面,我們的用戶數(shù)量又增長了20%,這也是我在過去一年半里面所遇到最大的挑戰(zhàn),叫做“長得太快”。
這是我們用戶數(shù)量的增長曲線,可以看到從第一天開始我們用戶增長曲線幾乎就是完美的指數(shù)級的生長曲線,在6月6日的時候達到了2.5億,在這樣一個曲線下面我們作為大數(shù)據(jù)的運營方,作為大數(shù)據(jù)能力的提供方要面臨什么樣的體驗呢?這是我們數(shù)據(jù)的增長量,2018年2月份我們剛剛開始將我們原有的數(shù)據(jù)系統(tǒng)從相對比較老的體系切換到和觀遠大數(shù)據(jù)為主體系的時候,這時候我們數(shù)據(jù)是2P,2P是2000T。在這個時候短短過去了一年半的時間,我們的數(shù)據(jù)量增長了30倍,在我們的用戶量增長了兩倍多一點點的時候,我們的數(shù)據(jù)量增長了30倍,說明我們在這段時間里面做了大量實驗,發(fā)展了不同的業(yè)務,發(fā)展了15倍以上的業(yè)務,做了15倍以上的嘗試才獲得了兩倍的用戶增長。作為數(shù)據(jù)平臺我們就要做好60倍的支撐,才能夠支撐這樣一種嘗試,才能夠讓這樣的嘗試變得可能,而不至于讓我們的用戶想法,讓我們工程師的想法,讓我們產(chǎn)品的想法被數(shù)據(jù)的能力所束縛住,才能夠獲得更佳的反饋,得到更多的變化,捕捉到更多信息,從信息中得到增長的信號。把增長信號變成實實在在用戶的增長。
這是我們最早的第一代,去年年初時候數(shù)倉的結構,當時最重要的數(shù)據(jù)平行點在于數(shù)據(jù)倉庫層,由于數(shù)據(jù)倉庫層承接的業(yè)務包含所有的報表業(yè)務。在這樣的架構里面,當我們的業(yè)務需要做更多分析的時候會一下報表,當我們的報表數(shù)據(jù)量大的時候就會影響業(yè)務分析。當時我接手這個業(yè)務的時候我們跟數(shù)據(jù)分析師們開玩笑說你每天只要上半天的班,因為另外一半的時間我們在等報表。你上完半天的班之后又有一半的時間在等你的查詢在排隊。在這樣的情況下我們的業(yè)務部可能獲得及時的信號調(diào)整他們的發(fā)展方向。我們的當務之急是必須要將我們業(yè)務報表以及Adhoc查詢這一層從壓力最大的數(shù)據(jù)倉庫層分離出去變成獨立的一層。
我們當時做了一個最直接的變化,我們把數(shù)據(jù)倉庫層全部下移移到EMR上,數(shù)據(jù)市場層分為兩邊,一邊承接老的報表業(yè)務,通過Redshift打到TAbleau上,大部分報表在觀遠平臺上我們還是保留了Tableau。在可以擴展的結果下,我們的業(yè)務數(shù)據(jù),我們的分析師終于一天可以上全天的班了,終于可以在每天早上獲得前一天的數(shù)據(jù)報表了。于是我們得到直接效果我們在去年年初的時候每我可以看到大約50個實驗,在現(xiàn)在每天運行的數(shù)量是500個,我們每天的嘗試乘了10倍,我們每天往前走的速度得到反饋的速度乘了10倍,只有這樣嘗試的速度才讓我們能夠快速跟上市場的步伐,捕捉到前進的信號,捕捉到不適合的信號把它殺掉,并且放大前進的步伐。
在這樣的數(shù)據(jù)量里面我們到底做了什么樣的事情,為什么這件事情特別重要呢?這是我們實驗平臺的設計,在實驗平臺里面可以看到比較簡單的舉例,我們在以用戶的維度作為實驗,我們有2.5億用戶,每個用戶平均會分在200個實驗左右。任何實驗對所有社區(qū)指標和電商指標的影響做出詳細分析,確保對任何一個指標有逆向結果或者大面積正向結果情況下要得到合理的解釋,如果沒有得到合理解釋就不能夠作為正確的改動影響到所有用戶。在這樣的情況下,我們每日參與計算的數(shù)據(jù)行數(shù)是25萬億行,并且在這種情況下我們可以看到在左下角所有每一個指標在不同的實驗對比下分布是什么樣的,在這樣分布情況下數(shù)據(jù)分析師和業(yè)務負責人,能夠根據(jù)這個結果得到明確的指示這個實驗應該繼續(xù)還是應該被殺掉。左邊是每一天數(shù)據(jù)的結果,右邊是根據(jù)具體的分布情況,正態(tài)分布情況的實驗結果。兩個不同實驗結果的區(qū)別,由于我們實際的數(shù)據(jù)的分布不是正態(tài)分布的,比如說每個用戶下單的數(shù)據(jù),下單的金額就不是正態(tài)分布的,大部分的用戶是不下單的。我們有2000萬日活,這些日活的用戶大部分是不下單,只有其中1%的用戶會下單。在這樣的分布里面如果只使用正態(tài)分布的檢測會導致這樣的檢測失效,我們進行非常大的更新得到左邊的檢測,就會看到所有有購買行為用戶的分布是什么樣的,在這樣的分布下到底是顯著還是不顯著。這個東西比之前的檢測貴50倍,我們不斷升級計算能力,不斷加強計算資源的水平才能給業(yè)務方一個明確的結果,告訴你這個實驗到底好不好,而不要浪費時間積累數(shù)據(jù)并且獲得一些沒有用的信號上。
接下來講一個Growth Hacking的故事,剛加入小紅書的時候我開了一個玩笑說我們的分析師每天回答三個問題,第一個問題是為什么用戶數(shù)漲了,第二個問題是為什么用戶數(shù)跌了,第三個問題是我們的用戶既沒有漲又沒有跌。如何使數(shù)據(jù)保持客觀是我當時重要工作原因。在這樣的過程中,Growth Hacking對每一個指標判斷它的貢獻度。在這樣的情況下,對于任何一個指標變化的時候我就能夠明確指出到底是什么樣的用戶發(fā)生了什么樣的變化,對于這個指標的貢獻度是怎么樣。于是我們的分析師終于不用回答這三個問題了,因為只要把我們的報表簡單遞交給問他這個問題的同學就可以了,可以明確每一天在早上就告訴你為什么漲了為什么跌了以及為什么沒有動。
這就是我今天的分享,謝謝大家。
(來源:聯(lián)商網(wǎng) 上海報道)
發(fā)表評論
登錄 | 注冊