最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

數據分析能力的養成,你只需要一份七周的提綱

優(yōu)采云 發(fā)布時(shí)間: 2022-05-11 00:27

  數據分析能力的養成,你只需要一份七周的提綱

  寫(xiě)這個(gè)系列,是希望在當初知乎某一個(gè)回答的基礎上,單獨完善出針對互聯(lián)網(wǎng)產(chǎn)品和運營(yíng)們的教程。不論對數據分析或數據運營(yíng),我都希望它是一篇足夠好的教材。更準確地說(shuō),這是一份七周的互聯(lián)網(wǎng)數據分析能力養成提綱。

  我會(huì )按照提綱針對性的增加互聯(lián)網(wǎng)側的內容,比如網(wǎng)站分析,用戶(hù)行為序列等。我也不想留于表面,而是系統性講述。比如什么是產(chǎn)品埋點(diǎn)?在獲得埋點(diǎn)數據后,怎么利用Python / Pandas的shift ( )函數將其清洗為用戶(hù)行為session,進(jìn)而計算出用戶(hù)在各頁(yè)面的停留時(shí)間,后續如何轉換成統計寬表,如何以此建立用戶(hù)標簽等。

  下面是各周的學(xué)習概述。

  1

  第一周:Excel學(xué)習掌握

  如果Excel玩的順溜,你可以略過(guò)這一周。不過(guò)介于我入行時(shí)也不會(huì )vlookup,所以有必要講下。

  重點(diǎn)是了解各種函數,包括但不限于sum、count、sumif、countif、find、if、left/right、時(shí)間轉換等。

  Excel函數不需要學(xué)全,重要的是學(xué)會(huì )搜索。即如何將遇到的問(wèn)題在搜索引擎上描述清楚。

  我認為掌握vlookup和數據透視表足夠,是最具性?xún)r(jià)比的兩個(gè)技巧。

  學(xué)會(huì )vlookup,SQL中的join,Python中的merge很容易理解。

  學(xué)會(huì )數據透視表,SQL中的group,Python中的pivot_table也是同理。

  這兩個(gè)搞定,基本10萬(wàn)條以?xún)鹊臄祿y計沒(méi)啥難度,80%的辦公室白領(lǐng)都能秒殺。

  Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合并單元格,不要過(guò)于花哨。表格按照原始數據(sheet1)、加工數據(sheet2),圖表(sheet3)的類(lèi)型管理。

  下面是為了以后更好的基礎而附加的學(xué)習任務(wù):

  這一周的內容我會(huì )拆分成兩部分:函數篇和技巧篇。

  這是一道練習題,我給你1000個(gè)*敏*感*詞*號碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過(guò)程,那么這一周就直接略過(guò)吧(*敏*感*詞*號碼規律可以網(wǎng)上搜索)。

  2

  第二周:數據可視化

  數據分析界有一句經(jīng)典名言,字不如表,表不如圖。數據可視化是數據分析的主要方向之一。除掉數據挖掘這類(lèi)高級分析,不少數據分析就是監控數據觀(guān)察數據。

  數據分析的最終都是要兜售自己的觀(guān)點(diǎn)和結論的。兜售的最好方式就是做出觀(guān)點(diǎn)清晰數據詳實(shí)的PPT給老板看。如果沒(méi)人認同分析結果,那么分析也不會(huì )被改進(jìn)和優(yōu)化,不落地的數據分析價(jià)值又在哪里?

  首先要了解常用的圖表:

  

  Excel的圖表可以100%完成上面的圖形要求,但這只是基礎。后續的進(jìn)階可視化,勢必要用到編程繪制。為什么?比如常見(jiàn)的多元分析,你能用Excel很輕松的完成?但是在IPython只需要一行代碼。

  

  其次掌握BI,下圖是微軟的BI。

  

  BI(商業(yè)智能)和圖表的區別在于BI擅長(cháng)交互和報表,更擅長(cháng)解釋已經(jīng)發(fā)生和正在發(fā)生的數據。將要發(fā)生的數據是數據挖掘的方向。

  BI的好處在于很大程度解放數據分析師的工作,推動(dòng)全部門(mén)的數據意識,另外降低其他部門(mén)的數據需求(萬(wàn)惡的導數據)。

  BI市面上的產(chǎn)品很多,基本都是建立儀表盤(pán)Dashboard,通過(guò)維度的聯(lián)動(dòng)和鉆取,獲得可視化的分析。

  最后需要學(xué)習可視化和信息圖的制作。

  

  這是安(裝)身(逼)立(加)命(薪)之本。這和數據本事沒(méi)有多大關(guān)系,更看重審美、解讀、PPT、信息化的能力。但值得花一點(diǎn)時(shí)間去學(xué)習。

  數據可視化的學(xué)習就是三個(gè)過(guò)程:

  3

  第三周:分析思維的訓練

  這周輕松一下,學(xué)學(xué)理論知識。

  好的數據分析首先要有結構化的思維,也就是我們俗稱(chēng)的金字塔思維。思維導圖是必備的工具。

  之后再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。

  分析也是有框架和方法論的,主要圍繞三個(gè)要點(diǎn)展開(kāi):

  舉一個(gè)例子:我告訴你一家超市今天有1000人的客流量,你會(huì )怎么分析?

  這是一個(gè)快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

  優(yōu)秀的數據分析師會(huì )拷問(wèn)別人的數據,而他本身的分析也是經(jīng)得起拷問(wèn),這就是分析思維能力。需要確切明白的是:一周時(shí)間鍛煉不出數據思維,只能做到了解。數據思維是不斷練習的結果,我只是盡量縮短這個(gè)過(guò)程。

  4

  第四周:數據庫學(xué)習

  Excel對十萬(wàn)條以?xún)鹊臄祿幚砥饋?lái)沒(méi)有問(wèn)題,但是互聯(lián)網(wǎng)行業(yè)就是不缺數據。但凡產(chǎn)品有一點(diǎn)規模,數據都是百萬(wàn)起。這時(shí)候就需要學(xué)習數據庫。

  越來(lái)越多的產(chǎn)品和運營(yíng)崗位,會(huì )在招聘條件中,將會(huì )SQL作為優(yōu)先的加分項。

  SQL是數據分析的核心技能之一,從Excel到SQL絕對是數據處理效率的一大進(jìn)步。

  學(xué)習圍繞Select展開(kāi)。增刪改、約束、索引、數據庫范式均可以跳過(guò)。

  主要了解where、group by、order by、having、like、count、sum、min、max、distinct、if、join、left join、limit、and和or的邏輯,時(shí)間轉換函數等。

  如果想要跟進(jìn)一步,可以學(xué)習r(shí)ow_number、substr、convert、contact等。另外不同數據平臺的函數會(huì )有差異,例如Presto和phpMyAdmin。

  再有點(diǎn)追求,就去了解Explain優(yōu)化,了解SQL的工作原理,了解數據類(lèi)型,了解IO。以后就可以和技術(shù)研發(fā)們談笑風(fēng)生,畢竟將“這里有bug”的說(shuō)話(huà),換成“這塊的數據死鎖了”,逼格大大的不同。

  SQL的學(xué)習主要是多練,網(wǎng)上尋找相關(guān)的練習題,刷一遍就差不多了。

  5

  第五周:統計知識學(xué)習

  很遺憾,統計知識也是我薄弱的地方,可這是數據分析的基礎。

  我看過(guò)很多產(chǎn)品和運營(yíng)相關(guān)的數據分析文章,沒(méi)有多少提及統計知識。這是不嚴謹的。

  比如產(chǎn)品的AB測試,如果產(chǎn)品經(jīng)理并不清楚置信度的含義和概念,那么好的效果并不意味著(zhù)真正的好。尤其是5%這種非顯著(zhù)的提高。

  比如運營(yíng)一次活動(dòng),運營(yíng)若不了解檢驗相關(guān)的概念,那么如何去判別活動(dòng)在數據上是有效果還是沒(méi)有效果?別說(shuō)平均數。

  再討論一下經(jīng)典的概率問(wèn)題:如果一個(gè)人獲流感,實(shí)驗結果為陽(yáng)性的概率為90%;如果沒(méi)有獲流感,實(shí)驗結果為陽(yáng)性的概率為9%?,F在這個(gè)人檢驗結果為陽(yáng)性,他有多少幾率是得了流感?

  如果你覺(jué)得幾率有50%、60%、70%等等,那么都犯了直覺(jué)性的錯誤。它還和得病的基礎概率有關(guān)。

  統計知識會(huì )教我們以另一個(gè)角度看待數據。如果大家了解過(guò)《統計數據會(huì )撒謊》,那么就知道很多數據分析的決策并不牢靠。

  我們需要花一周的時(shí)間掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著(zhù)性、總體和抽樣等概念。

  不需要學(xué)習更高階的統計知識,誰(shuí)讓我們是速成呢?只要做到不會(huì )被數據欺騙,不犯錯誤就好。

  以Excel的分析工具庫舉例(圖片網(wǎng)上找來(lái))。在初級的統計學(xué)習中,需要了解列1的各名詞含義,而不是停留在平均數這個(gè)基礎上。

  

  6

  第六周:業(yè)務(wù)知識

 ?。ㄓ脩?hù)行為、產(chǎn)品、運營(yíng))

  這一周需要了解業(yè)務(wù)。對于數據分析師來(lái)說(shuō),業(yè)務(wù)的了解比數據方法論更重要。當然很遺憾,業(yè)務(wù)學(xué)習沒(méi)有捷徑。

  我舉一個(gè)數據沙龍上的例子:一家O2O配送公司發(fā)現在重慶地區,外賣(mài)員的送貨效率低于其他城市,導致用戶(hù)的好評率降低??偛康臄祿治鰩熃⒘烁鱾€(gè)指標去分析原因,都沒(méi)有找出來(lái)問(wèn)題。后來(lái)在訪(fǎng)談中發(fā)覺(jué),因為重慶是山城,路面高低落差比較夸張,很多外賣(mài)人員的小電瓶上不了坡…所以導致送貨效率慢。

  這個(gè)案例中,我們只知道送貨員的送貨水平距離,即POI數據,根本不可能知道垂直距離的數據。這就是數據的局限,也是只會(huì )看數據的分析師和接地氣分析師的最大差異。

  對業(yè)務(wù)市場(chǎng)的了解是數據分析在工作經(jīng)驗上最大的優(yōu)勢之一。不同行業(yè)領(lǐng)域的業(yè)務(wù)知識都不一樣,我就不獻丑了。在互聯(lián)網(wǎng)行業(yè),有幾個(gè)寬泛的業(yè)務(wù)數據需要了解。

  產(chǎn)品數據分析,以經(jīng)典的AAARR框架學(xué)習,了解活躍留存的指標和概念。

  并且數據分析師需要知道如何用SQL計算。因為在實(shí)際的分析過(guò)程中,留存只是一個(gè)指標,通過(guò)userId 關(guān)聯(lián)和拆分才是常見(jiàn)的分析策略。

  網(wǎng)站數據分析,可以抽象成一個(gè)哲學(xué)問(wèn)題:

  雖然網(wǎng)站已經(jīng)不是互聯(lián)網(wǎng)的主流,但現在有很多APP+Web的復合框架,朋友圈的傳播活動(dòng)肯定需要用到網(wǎng)頁(yè)的指標去分析。

  用戶(hù)數據分析,這是數據化運營(yíng)的一種應用。

  在產(chǎn)品早期,可以通過(guò)埋點(diǎn)計算轉化率,利用AB測試達到快速迭代的目的,在積累到用戶(hù)量的后期,利用埋點(diǎn)去分析用戶(hù)行為,并且以此建立用戶(hù)分層用戶(hù)畫(huà)像等。

  例如用貝葉斯算法計算用戶(hù)的性別概率,用K聚類(lèi)算法劃分用戶(hù)的群體,用行為數據作為特征建立響應模型等。不過(guò)快速入門(mén)不需要掌握這些,只需要有一個(gè)大概的框架概念。

  除了業(yè)務(wù)知識,業(yè)務(wù)層面的溝通也很重要。在業(yè)務(wù)線(xiàn)足夠長(cháng)的時(shí)候,我不止一次遇到產(chǎn)品和運營(yíng)沒(méi)有掌握所有的業(yè)務(wù)要點(diǎn),尤其涉及跨部門(mén)的分析。良好的業(yè)務(wù)溝通能力是數據分析的基礎能力。

  7

  第七周:Python/R學(xué)習

  終于到第七周,也是最痛苦的一周。這時(shí)應該學(xué)習編程技巧。

  是否具備編程能力,是初級數據分析和高級數據分析的風(fēng)水嶺。數據挖掘,爬蟲(chóng),可視化報表都需要用到編程能力(例如上文的多元散點(diǎn)圖)。掌握一門(mén)優(yōu)秀的編程語(yǔ)言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。

  以時(shí)下最熱門(mén)的R語(yǔ)言和Python為學(xué)習支線(xiàn),速成只要學(xué)習一條。

  我剛好兩類(lèi)都學(xué)過(guò)。R的優(yōu)點(diǎn)是統計學(xué)家編寫(xiě)的,缺點(diǎn)也是統計學(xué)家編寫(xiě)。如果是各類(lèi)統計函數的調用,繪圖,分析的前驗性論證,R無(wú)疑有優(yōu)勢。但是大數據量的處理力有不逮,學(xué)習曲線(xiàn)比較陡峭。Python則是萬(wàn)能的膠水語(yǔ)言,適用性強,可以將各類(lèi)分析的過(guò)程腳本化。Pandas,SKLearn等各包也已經(jīng)追平R。

  學(xué)習R,需要了解數據結構(matrix,array,data.frame,list等)、數據讀取,圖形繪制( ggplot2)、數據操作、統計函數(mean,median,sd,var,scale等)。高階的統計暫時(shí)不用去涉及,這是后續的學(xué)習任務(wù)。

  R語(yǔ)言的開(kāi)發(fā)環(huán)境建議用RStudio。

  學(xué)習Python有很多分支,我們專(zhuān)注數據分析這塊。需要了解調用包、函數、數據類(lèi)型(list、tuple、dict),條件判斷,迭代等。高階的Numpy和Pandas在有精力的情況下涉及。

  Python的開(kāi)發(fā)環(huán)境建議Anaconda,可以規避掉環(huán)境變量、包安裝等大部分新手問(wèn)題。Mac自帶Python2.7,但現在Python 3已經(jīng)比幾年前成熟,沒(méi)有編碼問(wèn)題,就不要抱成守舊了。

  對于沒(méi)有技術(shù)基礎的運營(yíng)和產(chǎn)品,第七周最吃力,雖然SQL+Excel足夠應付入門(mén)級數據分析,但是涉及到循環(huán)迭代、多元圖表的分析部分,復雜度就呈幾何上升。更遑論數據挖掘這種高階玩法。

  我也相信,未來(lái)了解數據挖掘的產(chǎn)品和運營(yíng)會(huì )有極強的競爭力。

  到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會(huì )貫通,畢竟這只是目的性極強的速成,是開(kāi)始,而不是數據分析的畢業(yè)典禮。

  如果希望數據分析能力更近一步,或者成為優(yōu)秀的數據分析師,每一周的內容都能繼續學(xué)習至精通。實(shí)際上,業(yè)務(wù)知識、統計知識僅靠?jì)芍苁欠浅2焕喂痰摹?/p>

  再往后的學(xué)習,會(huì )有許多分支。比如偏策劃的數據產(chǎn)品經(jīng)理,比如偏統計的機器學(xué)習,比如偏商業(yè)的市場(chǎng)分析師,比如偏工程的大數據工程師。這是后話(huà)了。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区