數(shù)據(jù)分析常見的錯(cuò)誤和技巧
發(fā)布時(shí)間:2016-05-15 點(diǎn)擊數(shù):2340
核心提示: 福爾摩斯有一句名言是如何定義偵探的,而數(shù)據(jù)科學(xué)家在商業(yè)中的角色就類似偵探?!拔沂歉柲λ?,我的工作就是發(fā)現(xiàn)別人不知道的?!逼髽I(yè)要想保持競(jìng)爭(zhēng)力,它必須比大數(shù)據(jù)分析做的更多。
商業(yè)領(lǐng)域的數(shù)據(jù)科學(xué)家和偵探類似:去探索未知的事物。不過(guò),當(dāng)他們?cè)谶@個(gè)旅程中冒險(xiǎn)的時(shí)候,他們很容易落入陷阱。所以要明白,這些錯(cuò)誤是如何造成的,以及如何避免。“錯(cuò)誤是發(fā)現(xiàn)的入口。”——James Joyce (著名的愛爾蘭小說(shuō)家)。
這在大多數(shù)情況下是正確的,但是對(duì)于數(shù)據(jù)科學(xué)家而言,犯錯(cuò)誤能夠幫助他們發(fā)現(xiàn)新的數(shù)據(jù)發(fā)展趨勢(shì)和找到數(shù)據(jù)的更多模式。說(shuō)到這兒,有一點(diǎn)很重要:要明白數(shù)據(jù)科學(xué)家有一個(gè)非常邊緣的錯(cuò)誤。數(shù)據(jù)科學(xué)家是經(jīng)過(guò)大量考察后才被錄用的,錄用成本很高。組織是不能承受和忽視數(shù)據(jù)科學(xué)家不好的數(shù)據(jù)實(shí)踐和重復(fù)錯(cuò)誤的成本的。數(shù)據(jù)科學(xué)的錯(cuò)誤和不好的數(shù)據(jù)實(shí)踐會(huì)浪費(fèi)數(shù)據(jù)科學(xué)家的職業(yè)生涯。數(shù)據(jù)科學(xué)家追蹤所有實(shí)驗(yàn)數(shù)據(jù)是至關(guān)重要的,從錯(cuò)誤中吸取教訓(xùn),避免在未來(lái)數(shù)據(jù)科學(xué)項(xiàng)目中犯錯(cuò)。
福爾摩斯有一句名言是如何定義偵探的,而數(shù)據(jù)科學(xué)家在商業(yè)中的角色就類似偵探。
“我是福爾摩斯,我的工作就是發(fā)現(xiàn)別人不知道的?!?br />
企業(yè)要想保持競(jìng)爭(zhēng)力,它必須比大數(shù)據(jù)分析做的更多。不去評(píng)估他們手中的數(shù)據(jù)質(zhì)量,他們想要的結(jié)果,他們預(yù)計(jì)從這種數(shù)據(jù)分析中獲得多少利潤(rùn), 這將很難正確地找出哪些數(shù)據(jù)科學(xué)項(xiàng)目能夠盈利,哪些不能。當(dāng)發(fā)生數(shù)據(jù)科學(xué)錯(cuò)誤時(shí)——一次是可以接受的——考慮到有一個(gè)學(xué)習(xí)曲線,但是如果這些錯(cuò)誤發(fā)生在兩次以上,這會(huì)增加企業(yè)成本。
在Python中學(xué)習(xí)數(shù)據(jù)科學(xué),成為企業(yè)數(shù)據(jù)科學(xué)家。
避免常見的數(shù)據(jù)科學(xué)錯(cuò)誤:
1、相關(guān)關(guān)系和因果關(guān)系之間的混亂
對(duì)于每個(gè)數(shù)據(jù)科學(xué)家來(lái)說(shuō),相關(guān)性和因果關(guān)系的錯(cuò)誤會(huì)導(dǎo)致成本事件,最好的例子是《魔鬼經(jīng)濟(jì)學(xué)》的分析,關(guān)于因果關(guān)系的相關(guān)性錯(cuò)誤,導(dǎo)致伊利諾斯州給本州的學(xué)生發(fā)書,因?yàn)楦鶕?jù)分析顯示家里有書的學(xué)生在學(xué)校能直接考的更高分。進(jìn)一步分析顯示,在家里有幾本書的學(xué)生在學(xué)業(yè)上能表現(xiàn)的更好,即使他們從來(lái)沒(méi)有讀過(guò)這些書。
這改變了之前的假設(shè)和洞察:父母通常買書的家庭,能營(yíng)造愉快的學(xué)習(xí)環(huán)境。
大部分的數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時(shí)假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來(lái)理解兩個(gè)變量之間的相關(guān)性通常是一個(gè)很好的實(shí)踐方法,但是,總是使用 “因果”類比可能導(dǎo)致虛假的預(yù)測(cè)和無(wú)效的決定。要想實(shí)現(xiàn)利用大數(shù)據(jù)的最好效果,數(shù)據(jù)科學(xué)家必須理解相關(guān)關(guān)系和根源的區(qū)別。關(guān)聯(lián)往往是指同時(shí)觀察X和Y的變化,而因果關(guān)系意味著X導(dǎo)致Y。在數(shù)據(jù)科學(xué),這是兩個(gè)完全不同的事情,但是許多數(shù)據(jù)科學(xué)家往往忽視了它們的區(qū)別?;谙嚓P(guān)性的決定可能足以采取行動(dòng),我們不需要知道原因,但這還是完全依賴于數(shù)據(jù)的類型和要解決的問(wèn)題。
每位數(shù)據(jù)科學(xué)家都必須懂得——“數(shù)據(jù)科學(xué)中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個(gè)關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個(gè)導(dǎo)致了另一個(gè)的產(chǎn)生。
2、沒(méi)有選擇合適的可視化工具
大部分的數(shù)據(jù)科學(xué)家專心學(xué)習(xí)于分析的技術(shù)方面。他們不能通過(guò)使用不同的可視化技術(shù)理解數(shù)據(jù),即那些可以令他們更快獲得洞察力的技術(shù)。如果數(shù)據(jù)科學(xué)家不能選擇合適的可視化發(fā)展模型,監(jiān)控探索性數(shù)據(jù)分析和表示結(jié)果,那么即使是最好的機(jī)器學(xué)習(xí)模型,它的價(jià)值也會(huì)被稀釋。事實(shí)上,許多數(shù)據(jù)科學(xué)家根據(jù)他們的審美選擇圖表類型,而不是考慮數(shù)據(jù)集的特征。這個(gè)可以通過(guò)定義可視化的目標(biāo)避免。
即使數(shù)據(jù)科學(xué)家開發(fā)了一個(gè)最優(yōu)秀和最好的機(jī)器學(xué)習(xí)模型,它也不會(huì)大叫說(shuō)“尤里卡”——所有這些所需要的是結(jié)果的有效可視化,可以理解數(shù)據(jù)模式的不同,和意識(shí)到它的存在可以被利用來(lái)獲得商業(yè)成果。常言道“一張圖片勝過(guò)1000個(gè)單詞?!薄獢?shù)據(jù)科學(xué)家不僅要熟悉自己常用的數(shù)據(jù)可視化工具,也要理解數(shù)據(jù)有效可視化的原理,用令人信服的方式獲得結(jié)果。
解決任何數(shù)據(jù)科學(xué)問(wèn)題的至關(guān)重要一步,就是要獲得該數(shù)據(jù)是關(guān)于什么的洞察力,通過(guò)豐富的可視化表達(dá),可以形成分析基礎(chǔ)和建立相應(yīng)模型。
3、沒(méi)有選擇適當(dāng)?shù)哪P?驗(yàn)證周期
科學(xué)家認(rèn)為,建立了一個(gè)成功的機(jī)器學(xué)習(xí)模型,就是獲得了最大程度的成功。但是,這只是成功了一半,它必須要確保模型的預(yù)測(cè)發(fā)揮作用。許多數(shù)據(jù)科學(xué)家經(jīng)常忘記或者傾向性的忽視這樣的事實(shí),就是他們的數(shù)據(jù)必須在指定的時(shí)間間隔進(jìn)行反復(fù)驗(yàn)證。一些數(shù)據(jù)科學(xué)家經(jīng)常犯的一個(gè)普遍性錯(cuò)誤:如果和觀察到的數(shù)據(jù)吻合,就認(rèn)為預(yù)測(cè)模型是理想的。已建立的模型的預(yù)測(cè)效果可以因?yàn)槟P偷年P(guān)系在不斷變化而瞬間消失。為了避免這種情況,數(shù)據(jù)科學(xué)家最好的解決方式就是每個(gè)小時(shí)都對(duì)含有新數(shù)據(jù)的數(shù)據(jù)模型進(jìn)行評(píng)分,或者基于模型的關(guān)系變化快慢逐日逐月評(píng)分。
由于幾個(gè)因素,模型的預(yù)測(cè)能力往往會(huì)變?nèi)?因此數(shù)據(jù)科學(xué)家需要確定一個(gè)常數(shù),用以確保模型的預(yù)測(cè)能力不能低于可接受的水平。有實(shí)例即數(shù)據(jù)科學(xué)家可以重建數(shù)據(jù)模型。能建立幾個(gè)模型和解釋變量的分布總是更好的,而不是考慮單個(gè)模型是最好的。
為了保留已建模型的預(yù)測(cè)效果和有效性,選擇迭代周期是非常重要的,如果做不到,可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)果。
4、無(wú)問(wèn)題/計(jì)劃的分析
數(shù)據(jù)科學(xué)協(xié)會(huì)主席Michael Walker說(shuō): “數(shù)據(jù)科學(xué)的最高級(jí)用途就是設(shè)計(jì)實(shí)驗(yàn),提出正確的問(wèn)題和收集正確的數(shù)據(jù)集,一切工作都要根據(jù)科學(xué)的標(biāo)準(zhǔn)。然后你將獲得結(jié)果,并解釋它。”
數(shù)據(jù)科學(xué)是一個(gè)結(jié)構(gòu)化的過(guò)程,以明確的目標(biāo)開始,隨后出現(xiàn)一些假設(shè)的問(wèn)題,最終實(shí)現(xiàn)我們的目標(biāo)。數(shù)據(jù)科學(xué)家往往站在數(shù)據(jù)之上而不考慮那些需要分析回答的問(wèn)題。數(shù)據(jù)科學(xué)項(xiàng)目必須要有項(xiàng)目目標(biāo)和完美的建模目標(biāo)。數(shù)據(jù)科學(xué)家們?nèi)绻恢浪麄兿胍裁础罱K得到的分析結(jié)果將會(huì)是他們不想要的。
大多數(shù)數(shù)據(jù)科學(xué)項(xiàng)目最終是回答“是什么”的問(wèn)題,這是因?yàn)閿?shù)據(jù)科學(xué)家通過(guò)手頭的問(wèn)題作分析而不遵循做分析的理想路徑。數(shù)據(jù)科學(xué)是使用大數(shù)據(jù)回答所有關(guān)于“為什么”的問(wèn)題。數(shù)據(jù)科學(xué)家應(yīng)該通過(guò)整合以前未被整合的數(shù)據(jù)集,主動(dòng)分析給與的數(shù)據(jù)集,回答以前沒(méi)人解答的問(wèn)題。
為了避免這種情況,數(shù)據(jù)科學(xué)家應(yīng)該集中精力獲得正確的分析結(jié)果,這可以通過(guò)明確實(shí)驗(yàn),變量和數(shù)據(jù)準(zhǔn)確性和清晰明白他們想要從數(shù)據(jù)中獲得什么實(shí)現(xiàn)。這將簡(jiǎn)化以往通過(guò)滿足假設(shè)的統(tǒng)計(jì)方法來(lái)回答商業(yè)問(wèn)題的過(guò)程。引用伏爾泰的一句話——“判斷一個(gè)人,是通過(guò)他的問(wèn)題而不是他的答案?!薄却_定明確的問(wèn)題是及其重要的,能夠?qū)崿F(xiàn)任何企業(yè)的數(shù)據(jù)科學(xué)目標(biāo)。
5、僅關(guān)心數(shù)據(jù)
根據(jù)博思艾倫咨詢公司的數(shù)據(jù)科學(xué)家Kirk Borne,“人們忘記在數(shù)據(jù)的使用,保護(hù)以及統(tǒng)計(jì)產(chǎn)生的問(wèn)題如認(rèn)為相關(guān)關(guān)系就是因果關(guān)系會(huì)產(chǎn)生倫理問(wèn)題。人們忘記了如果你處理的數(shù)據(jù)足夠長(zhǎng),它就會(huì)告訴你任何事,如果你有大量的數(shù)據(jù),那么你就可以找到相關(guān)關(guān)系。如果人們擁有大數(shù)據(jù)他們會(huì)相信他們看到的任何事情”。
數(shù)據(jù)科學(xué)家常常因?yàn)榈玫絹?lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)而興奮,并開始創(chuàng)建圖表和可視化來(lái)做分析報(bào)告,忽視發(fā)展所需的商業(yè)智慧。這對(duì)任何組織來(lái)說(shuō)都是危險(xiǎn)的事情。數(shù)據(jù)科學(xué)家經(jīng)常給與數(shù)據(jù)太多決策制定的權(quán)力。他們不夠重視發(fā)展自身商業(yè)智慧,不明白分析如何令企業(yè)獲益。數(shù)據(jù)科學(xué)家應(yīng)該不僅僅讓數(shù)據(jù)說(shuō)話,而且善于運(yùn)用自身的智慧。數(shù)據(jù)應(yīng)該是影響決策的因素而不是數(shù)據(jù)科學(xué)項(xiàng)目決策制定的最終聲音。企業(yè)雇傭的數(shù)據(jù)科學(xué)家應(yīng)該是可以將領(lǐng)域知識(shí)和技術(shù)特長(zhǎng)結(jié)合起來(lái)的,這是避免錯(cuò)誤的理想情況。
6、忽視可能性
數(shù)據(jù)科學(xué)家經(jīng)常傾向性忘記方案的可能性,這將導(dǎo)致作出更多的錯(cuò)誤決策。數(shù)據(jù)科學(xué)家經(jīng)常犯錯(cuò),因?yàn)樗麄兘?jīng)常說(shuō),如果企業(yè)采取了X操作一定會(huì)實(shí)現(xiàn)Y目標(biāo)。對(duì)于特定的問(wèn)題這沒(méi)有唯一的答案,因此要確認(rèn)數(shù)據(jù)科學(xué)家從不同可能性中所做的選擇。對(duì)指定問(wèn)題存在不止一個(gè)可能性,它們?cè)谀撤N程度是不確定的。情景規(guī)劃和可能性理論是數(shù)據(jù)科學(xué)的兩個(gè)基本核心,不應(yīng)該被忽視,應(yīng)該用以確認(rèn)決策制定的準(zhǔn)確性頻率。
7、建立一個(gè)錯(cuò)誤人口數(shù)量的模型
如果一個(gè)數(shù)據(jù)項(xiàng)目的目的是建立一個(gè)客戶影響力模式的模型,但是他們僅僅考慮那些具有高度影響力的客戶的行為數(shù)據(jù),這不是對(duì)的做法。建立該模型不僅要考慮那些具有高度影響力的客戶的行為數(shù)據(jù),也要考慮那些不怎么有影響力但是具有潛在影響力的客戶的行為數(shù)據(jù)。低估任何一邊人口的預(yù)測(cè)力量都可能導(dǎo)致模型的傾斜或者一些重要變量的重要性下降。
這些都是數(shù)據(jù)科學(xué)家在做數(shù)據(jù)科學(xué)時(shí)常見的錯(cuò)誤。如果你能想到的任何其他常見的數(shù)據(jù)科學(xué)錯(cuò)誤,我們很樂(lè)意在下面的評(píng)論聽到你的想法。
機(jī)柜租用,服務(wù)器托管,服務(wù)器租用,云主機(jī),CDN加速 ,銀行專線 首選全網(wǎng)數(shù)據(jù)
http://9aiyu.com
轉(zhuǎn)載請(qǐng)注明文章來(lái)源【深圳服務(wù)器租用,深圳服務(wù)器托管,http://9aiyu.com】