- 相關(guān)推薦
常見(jiàn)的統計誤區有哪些
每項重要的研究背后都離不開(kāi)好的數據,是它們使分析成為可能。而每項不好的研究背后嘛。下面是yjbys小編為大家帶來(lái)的關(guān)于統計誤區的知識,歡迎閱讀。
選擇偏倚
《紐約客》資深影評人寶琳凱爾(Pauline Kael)據稱(chēng)曾經(jīng)在理查德尼克松(Richard Nixon)當選美國總統后評論:“尼克松不可能贏(yíng)了競選,我認識的人里面沒(méi)一個(gè)投了他!边@句話(huà)很有可能是杜撰的,但卻很好地說(shuō)明了糟糕的樣本(一群自由派朋友)會(huì )如何給更大的群體帶來(lái)錯誤的偏見(jiàn)(全美國的投票結果)。而這也引出了我們應該問(wèn)自己的問(wèn)題:如何選擇評估樣本?如果要接受評估的群體的每一個(gè)成員沒(méi)有均等的機會(huì )入選樣本,那么最終得出的結論就將會(huì )有偏頗。以愛(ài)荷華州的民意測驗為例,這是美國總統競選中的一項慣例,在總統大選年的8月,也就是正式投票的前一個(gè)月,共和黨的候選人會(huì )來(lái)到愛(ài)荷華州的埃姆斯市(Ames)籠絡(luò )選民,選民每個(gè)人支付30美元投上一票以參與表決。愛(ài)荷華州的民意測驗結果并不能告訴我們共和黨候選人的未來(lái)。(該調查的預測在過(guò)去5次大選中只說(shuō)對了3次共和黨提名候選人的結果。)為什么?因為支付30美元投票參與這項民意測驗的愛(ài)荷華州共和黨選民跟愛(ài)荷華州的其他共和黨選民不同,而愛(ài)荷華州的共和黨選民又跟美國其他地區的共和黨選民不同。
“尼克松不可能贏(yíng)了競選,我認識的人里面沒(méi)一個(gè)投了他!
選擇偏倚還有其他很多種形式。在機場(chǎng)做消費者問(wèn)卷調查很可能造成偏倚,因為坐飛機的人大體上會(huì )比一般人更富裕;而在90號洲際公路上做同樣的調查問(wèn)卷結果又會(huì )偏向另一端。而兩項調查都有可能出現的偏倚則是那些愿意在公共場(chǎng)合接受問(wèn)卷調查的人不同于那些不愿意被打擾的人。如果你在公共場(chǎng)合問(wèn)100個(gè)人做一份簡(jiǎn)短的調查,其中只有60人愿意,那么這60個(gè)人跟剩下40個(gè)看都不看你一眼就走開(kāi)的人在某些地方有著(zhù)顯著(zhù)的不同。
發(fā)表偏倚
正面的結果比負面的更有可能得到發(fā)表,而這可能會(huì )混淆我們最終所見(jiàn)到的結論。假設你剛剛做完了一次嚴謹的追蹤調查,得出結論認為玩視頻游戲不能預防結腸癌。在這項調查中,你花了20年的時(shí)間跟蹤訪(fǎng)問(wèn)了作為代表性樣本的10萬(wàn)個(gè)美國人;這些人當中,長(cháng)時(shí)間玩視頻游戲的跟不玩兒視頻游戲的罹患結腸癌的幾率基本一致。我們假設你的研究方法完美無(wú)缺。但哪家醫學(xué)期刊會(huì )發(fā)表你的研究結論呢?
大多數活動(dòng)都不能預防結腸癌。
答案是沒(méi)有。原因有二:第一,沒(méi)有有力的科學(xué)理由認為玩兒視頻游戲對結腸癌有什么影響,因此你研究這個(gè)的意義不明;其次,也是更重要的一點(diǎn),某件事情不能預防結腸癌不是什么有趣的發(fā)現。畢竟,大多數東西都不能預防結腸癌。否定的結論尤其不性感,不論是在醫療領(lǐng)域還是其他。
而兩相抵消,就對我們看到的研究(或者說(shuō)看不到的)產(chǎn)生了偏倚。假設你的研究生同學(xué)經(jīng)過(guò)另一項追蹤調查得出了不同的結論,她發(fā)現玩視頻游戲的人確實(shí)罹患結腸癌的幾率較小,F在就有意思多了!醫學(xué)期刊要的就是這樣的論文,大眾媒體、博客寫(xiě)手,還有視頻游戲的制作商(他們巴不得在自己產(chǎn)品的包裝上標注玩游戲有益身體健康),都在尋找這樣的內容。要不了多久,全美國的虎媽們就會(huì )紛紛奪過(guò)自己孩子手里的書(shū)本,轉而逼迫他們玩游戲來(lái)“保護”下一代免于癌癥困擾了。
當然,統計學(xué)里反復強調的一個(gè)論點(diǎn)是,異乎尋常的事情時(shí)而發(fā)生,這只是概率問(wèn)題。如果你進(jìn)行100次調查,其中有一次很可能會(huì )出現純屬無(wú)稽的結果——就像玩視頻游戲和結腸癌患病率低之間的數據關(guān)聯(lián)。而問(wèn)題在于:99次發(fā)現玩游戲跟患結腸癌無(wú)關(guān)的研究都得不到發(fā)表,因為它們沒(méi)有意思,而那一次發(fā)現兩者有關(guān)聯(lián)的研究卻被印刷出來(lái),迎來(lái)了眾多關(guān)注。偏倚的源頭并不在于研究本身,但傳達給公眾的信息卻是偏頗的。而研讀視頻游戲和癌癥關(guān)聯(lián)的研究者只能發(fā)現一篇論文,而這篇論文表明的卻是玩視頻游戲能預防癌癥。實(shí)際上,100項研究里有99項都找不出二者之間有任何關(guān)聯(lián)。
回憶偏倚
記憶是件奇妙的東西——盡管不能總算作優(yōu)質(zhì)數據的來(lái)源。人類(lèi)天生就有沖動(dòng)將現狀理解成過(guò)去發(fā)生的事情合乎邏輯的結果,也就是因果關(guān)系。問(wèn)題出在當我們試圖去解釋某些當前特別好或者特別糟糕的結果時(shí),記憶就會(huì )變得“系統性的不堪一擊”。例如一項研究飲食和癌癥之間的關(guān)系的研究。1993年,一名哈佛大學(xué)的研究者構建了一組罹患乳腺癌的婦女和沒(méi)有被診斷出癌癥的年齡匹配組女性的數據。研究人員分別詢(xún)問(wèn)了這兩組女性的早年飲食習慣。研究得出了清晰的結論:患有乳腺癌的婦女在年輕時(shí)有更顯著(zhù)的可能擁有高脂肪的飲食。
哈,不過(guò),這實(shí)際上不是在研究飲食習慣對罹患癌癥幾率有什么影響。這項研究真正調查的是患上癌癥如何影響了女性對自己早年飲食習慣的記憶。所有參與這項研究的女性都在多年以前,在任何人都沒(méi)有被診斷患有癌癥的時(shí)候,填寫(xiě)了關(guān)于其飲食習慣的調查問(wèn)卷。研究的結果十分驚人,患有乳腺癌的婦女回想自己過(guò)去飲食攝入的脂肪的含量比她們實(shí)際消耗的要多得多;沒(méi)有患癌癥的女性則沒(méi)有出現這種情況。
《紐約時(shí)報雜志》在描述這種記憶偏倚的隱秘本質(zhì)時(shí)稱(chēng):
“罹患乳腺癌不僅改變了一位女性的當下和未來(lái);它連她的過(guò)去也改變了;加腥橄侔┑呐(無(wú)意識地)認為高脂飲食可能是她們患病的易感原因,并且(無(wú)意識地)認為自己過(guò)去有高脂的飲食習慣。對于任何了解這種恥辱病的歷史的人而言,這一模式都熟悉得令人悲傷:和她們之前成千上萬(wàn)的女性一樣,這些女性在她們自己的記憶里尋找原因,并將這個(gè)原因放置在記憶里!
回憶偏倚是也是追蹤研究往往偏向于橫向研究(cross-sectional studies)的一個(gè)原因。在橫向研究里,數據是同時(shí)采集的。在5歲的時(shí)候,參與者會(huì )被問(wèn)及他對學(xué)校的態(tài)度。然后,再過(guò)13年,我們可以重訪(fǎng)參與者,看他是否高中輟學(xué)。在橫向研究中,所有的數據都在同一時(shí)間點(diǎn)采集,研究者必須詢(xún)問(wèn)18歲的高中輟學(xué)生他5歲時(shí)對學(xué)校有何看法,而這一信息固然便是不怎么可靠的。
存活者誤差
假設一名高中校長(cháng)報告說(shuō),學(xué)生中的一組特定人群在4年中(編注:美國高中有4年)考試成績(jì)穩步上升。這批人高二的得分比他們在高一時(shí)的成績(jì)好。高三那年的分數更好,高四達到了最好。我們假定不存在作弊的情況,也沒(méi)有任何創(chuàng )造性地運用描述性的統計數據。無(wú)論用什么評價(jià)標準,這批學(xué)生每一年都比前一年做得更好:平均數、中位數、學(xué)生在年級水平的百分比等等。你會(huì )(A)提名這所學(xué)校的領(lǐng)導為“年度最佳校長(cháng)”還是(B)要求提供更多的數據?
如果你有一屋子高矮不齊的人,強迫最矮的那個(gè)離開(kāi)房間會(huì )使整個(gè)房間的平均身高上升,但這樣做并不會(huì )使任何人的身高變高。
我的話(huà)就會(huì )選(B)。我嗅到了存活者誤差的貓膩,這種情況下樣本中去掉了一些或很多觀(guān)測數據,以至于改變了整個(gè)剩下的觀(guān)測結果,因而任何基于剩余觀(guān)測數據所做的分析也受了影響。假設我們的校長(cháng)真不是個(gè)好人:他學(xué)校里的學(xué)生啥也沒(méi)學(xué)到;每年都有半數人輟學(xué)。不過(guò),這在數學(xué)的考試分數上面看起來(lái)很是漂亮——但沒(méi)有任何一名學(xué)生實(shí)際上考得更好。有理可測,學(xué)得最差的學(xué)生(也是考試分數最低的學(xué)生)最有可能輟學(xué),那么考試分數的平均分會(huì )隨著(zhù)更多學(xué)生輟學(xué)而穩步上升。(如果你有一屋子高矮不齊的人,強迫最矮的那個(gè)離開(kāi)房間會(huì )使整個(gè)房間的平均身高上升,但這樣做并不會(huì )使任何人的身高變高。)
健康用戶(hù)誤差
每天按時(shí)吃維生素片的人更有可能身體健康——他們是每天都按時(shí)吃維生素的人!而至于維生素是否真的有益健康這又另當別論了。 想想這樣一個(gè)思考實(shí)驗。假設公共衛生官員頒布這樣一條聲明,所有的剛生了小孩兒的夫妻都能該把自己的孩子裹在紫色的睡衣里睡覺(jué),因為這有助于刺激大腦的發(fā)育。20年后,追蹤研究證實(shí),幼年時(shí)期穿紫色睡衣確實(shí)與今后人生中取得成功有一個(gè)特別大的正相關(guān)。比方說(shuō),我們發(fā)現,98%考上哈佛大學(xué)的新生孩童時(shí)期都穿著(zhù)紫色的睡衣(現在許多人仍然這樣做),相比之下,馬薩諸塞州監獄系統里的囚犯只有3%年幼時(shí)穿紫色睡衣。
紫色睡衣并不重要。
當然,紫色睡衣并不重要,但擁有那種會(huì )讓孩子穿紫色睡衣的父母卻十分重要。就算試圖控制父母教育這樣的因素,研究者仍然會(huì )面臨那些執著(zhù)于讓孩子穿紫色睡衣和不穿的父母之間不可觀(guān)測的差異。正如《紐約時(shí)報》健康專(zhuān)欄作家加里陶布斯(Gary Taubes)解釋說(shuō),“簡(jiǎn)單地說(shuō),問(wèn)題就是踏踏實(shí)實(shí)做那些對他們有好處的事情——比如按醫囑服藥或吃他們認為有益健康的食物——的人,跟那些不這樣做的人有著(zhù)根本上的不同!边@種效應有可能擾亂任何試圖評估那些被視為有益健康的活動(dòng)(比如每周運動(dòng)或吃羽衣甘藍)真實(shí)效果的研究。研究人員以為他們是在比較兩種飲食習慣對健康的影響:吃羽衣甘藍和不吃甘藍。但事實(shí)上,假如治療組和對照組不是隨機分配的,那么他們在比較兩種不同的人吃?xún)煞N不同的飲食,治療組和對照組的不同有兩個(gè)方面,而不是僅僅一個(gè)。
如果說(shuō)統計學(xué)家是偵探,那么數據就是線(xiàn)索。我的妻子在新罕布什爾郊區的高中教了一年書(shū)。她的一個(gè)學(xué)生因為闖入一家五金店盜竊工具而被逮捕歸案,而警察之所以能破案是因為:(1)天剛剛下雪,從五金店到學(xué)生的家里的雪上有足跡;(2)在學(xué)生家里找到了被盜的工具。好線(xiàn)索幫了大忙。
就跟好數據一樣。但首先,你得有好的數據,否則一切都是空。
【常見(jiàn)的統計誤區有哪些】相關(guān)文章:
新手開(kāi)車(chē)的常見(jiàn)誤區有哪些10-10
修煉瑜伽常見(jiàn)的誤區有哪些08-14
煮咖啡常見(jiàn)的誤區有哪些08-25
愛(ài)爾蘭留學(xué)常見(jiàn)理解誤區有哪些?09-19
避孕誤區有哪些-常見(jiàn)避孕誤區09-24
煮咖啡常見(jiàn)的誤區有哪些呢09-23
裝修吊頂驗收常見(jiàn)誤區有哪些09-25