- 给这本书评了4.0這本書也許能推開概率和統計學的興趣之門
概率思維幾乎是不確定世界最重要的思維能力之一。一方面,只用懂加減乘除,再掌握三五個公式就夠用了;另一方面,懂概率和擁有概率思維,又完全是兩回事。有些自稱數學很好的人,對概率的無知令人意外。我們生活在大資料時代,高性能電腦和全球網路的強大組合正在得到人們的讚美甚至推崇。專家不斷告訴我們,他們發現了一種新的能力,可以對海量資料進行篩查並發現真相,這將為政府、商業、金融、醫療、法律以及我們的日常生活帶來一場革命。我們可以做出更明智的決策,因為強大的電腦可以對資料進行分析,發現重要的結論。也許事實的確如此,也許未必。有時,這些無所不在的資料和偉大光明正確的電腦會得出一些非常怪異的結論。例如,有人一本正經地宣稱:淩亂的房間會強化人們的種族主義傾向。還未出生的小雞胚胎會對電腦的隨機事件生成器產生影響。當政府負債相對國內生產總值的比率超過 90% 時,國家幾乎一定會陷入衰退。在過去 20 年美國犯罪率下降的原因中,合法墮胎的比例高達 50%。如果每天飲用兩杯咖啡,患上胰腺癌的風險將極度放大。最成功的公司傾向於變得不那麼成功,最不成功的公司傾向于變得更加成功,因此用不了多久,所有公司都會淪為普通的公司。出現在《體育畫報》和《麥登橄欖球》封面上的運動員會受到詛咒,他們可能會陷入平庸,或者受到傷病困擾。生活在輸電線附近的兒童具有更大的患癌風險。人類有能力將死亡推遲到重大儀式過後。亞裔美國人更容易在每月四號突發心臟病。如果一個人的姓名首字母縮寫擁有積極的含義(比如 ACE),那麼他可以多活三到五年。平均來說,教名(第一個名字)以字母 D 開頭的棒球運動員的壽命比教名以字母 E 到 Z 開頭的運動員短兩年。臨終病人可以被幾千英里以外傳送過來的積極心理能量治癒。當 NFC 冠軍球隊贏得超級碗(美國超級碗總決賽在國家聯合會(NFC)和美國聯合會(AFL)分別比賽產生的冠軍之間舉行 —— 譯者注)時,股市幾乎一定會上漲。如果你購買股息率最高、每股價格第二低的道鐘斯股票,你就可以跑贏大盤。這些說法顯然是錯誤的。不過,許多與此類似的說法每天都會出現在報紙和雜誌上。在如今的資訊時代,我們用沒完沒了而又毫無意義的資料指導我們的思想和行動。不難看出為什麼我們會反復得出錯誤的推論,制定糟糕的決策。即使能夠得到比較充足的資訊,我們也不會永遠注意到資料的偏差性和無關性,或者科學研究的缺陷和誤導性。我們傾向於相信電腦從不犯錯,認為不管我們把什麼樣的垃圾扔進去,電腦都會吐出絕對真理。這種想法不僅存在於外行人的日常生活中,也存在於專業人員嚴肅認真的研究工作中。在流行刊物、電視、互聯網、競選活動、學術期刊、商業會議、法庭,政府聽證會,此類現象屢見不鮮。幾十年前,資料非常稀少、電腦還沒有出現時,研究人員需要努力收集優質資料並進行審慎的思考,然後花費幾個小時甚至幾天的時間從事艱苦的計算工作。現在,面對豐富的資料,研究人員通常不會花費太多的時間對優質資料和垃圾進行區分,或者對合理分析和垃圾科學進行區分。更糟糕的是,我們常常不假思索地認為,我們對大量資料的處理永遠不會出錯。我們匆匆忙忙地根據這些機器發出的夢囈制定決策 —— 比如在衰退過程中增加稅收,將我們一生的積蓄交給一些說得天花亂墜的財務分析師,根據最新的管理理念制定商業決策,用醫療騙術危害我們的健康 —— 更糟糕的是,我們還會放棄心愛的咖啡。羅奈爾得・科斯(Ronald Coase)曾經嘲諷道:“如果你對資料拷打足夠長的時間,它一定會招供。”《簡單統計學》一書考察了幾十個扭曲的結論。只需片刻的思考,你就會發現這些結論的問題。有時,無恥之徒故意用這些說法來誤導我們。有時,天真快樂的研究人員並沒有意識到他們所製造的惡作劇。我寫這本書的目的是説明我們遠離錯誤 —— 包括外部錯誤和自己造成的錯誤。你將學到一些簡單的指導準則,用於識別其他人或者你自己說出的不靠譜的觀點。其他人用資料欺騙我們,我們也經常用資料欺騙自己。我沒找到一本完整而系統的入門書,但這書也許能推開概率和統計學的興趣之門。
转发转发同时评论快速转发评论34分享「微信」扫码分享给这本书评了4.0数据世界的防骗手册《简单统计学》,真不知道为啥要叫这个名字,看起来好像是统计学的小白入门书,其实这是一本大数据时代,识别数据骗局的防骗宝典。
这里面用各种各样的案例和数据给我们展示了数据统计里的陷阱,包括我们都一直推崇的《魔鬼经济学》和《基业长青》,作者也用缜密的推理过程证明了畅销书里的数据是多么的立不住脚跟。
里面还有各种各样的图表扭曲,很多时候,我们在很多报告里看过各种报表,但是细心的话会发现,很多时候报表为了呈现出我们想要的感觉,会在比例尺坐标轴上动很多手脚,用同样的一组数据,完全可以做出两种不同的心里感受。
不得不佩服作者,他上到世界级的经济学家的研究成果,下到一本小书里的例子,都能找到很多让人恍然大悟的陷阱,看完之后,我很大的感触就是,很多时候,我们在乎的是计算结果的准确性,而往往会忽略掉计算过程的迷惑性。未来在看到很多数据报告的时候,这书里面的案例就会经常提醒我 “别忙着相信,看看有没有啥陷阱”。
特别是我们生活在这个数据过剩的时代,可能我们看到的数据,只是人家故意让我们看到的,而很多不能拿上台面的不支持结论的数据,都悄悄的在幕后潜伏着。
细思极恐。8转发同时评论快速转发224分享「微信」扫码分享给这本书评了4.0非常棒的一门统计学著作统计学是一门人人都需要懂一点的学科知识。不同寻常的理论需要更加坚实的证据来证实。本书通过描述一些统计学的偏差和误用,希望读者能破除对数据的迷信,学会基本的统计学常识,从而具备起码的辨别力。诚如书中所言,人们既可以被缺乏理论的数据欺骗,也可以被缺乏数据的理论欺骗。我们既需要理论,也需要数据。仅仅通过搜刮数据寻找模式是不够的。模式需要得到理论的解释,这种理论应该言之有理,而且需要得到新数据的检验。另一方面,在经过可靠数据的检验之前,理论仅仅是一种猜测。可是太多的人相信甚至笃信一些未经科学的验证的理论了,很多时候是人们有了先入为主的理论偏见,然后再从现实社会中寻求支持其理论的数据,现实数据何其庞杂,任何理论都可以从这庞杂的数据中找到偶然随机支持其理论的数据。就像是有人觉得这世界上有鬼神,他就会寻找有鬼神的证据,这世界上所谓的灵异事件还少吗,他总是可以找到支持自己想法的事件。我们其实没必要事事都追寻完美的解决方案,因为在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求,善用统计学即可达成最不坏的决策。
转发转发同时评论快速转发评论12分享「微信」扫码分享给这本书评了5.0本书全名《简单统计学:如何轻松识破一本正经的胡说八道 》,讲的是如何用统计学来破除日常生活中的谣言和误区。相关、趋势和其他模式本身无法证明任何事情。如果没有合理的解释,任何模式都仅仅是一种模式而已。每一种合理的理论都应该接受新数据的检验。对待数据要仔细很多研究的数据由于马虎或者其他原因是有错误的,最终导致了错误的结果。本书对《魔鬼经济学》中堕胎影响犯罪率,进行了否定,并且找出了原始数据的错误此错误列维特本人也已承认。看图标时的注意事项注意横轴和苏州的的单位,还有是否是从零点画的图,这些都是很重要的细节。需要思考的计算一个很常见的逻辑错误是混淆两种条件性陈述。这里涉及到了贝叶斯公式,检查出阳性的得病概率并不是实际得病的概率。相关与因果关系在统计学中,相关性并不是因果关系的代名词。不管两种事物的关系多么紧密,在做出判断之前,我们都需要一种合理的解释。瑞典的女性死亡率高于哥斯达黎加 —— 因为瑞典的老年女性比较多。伯克利研究生计划录取的女性申请者比较少 —— 因为女性申请了难度比较大的计划。一种手术比另一种手术更加成功 —— 因为它被用于更加轻松的案例。患有胰腺癌的病人比其他病人饮用更多的咖啡 —— 因为其他许多病人存在溃疡,戒掉了咖啡。热手效应只是正常的概率分布。回归均值,表现特比好和特别坏,最后都会向平均值回归。但,别想着一个概率事件连续发生很多次就能提高与他相反事件的概率。缺乏理论的数据仅仅是数据而已如果我们足够努力,即使面对随机生成的数据,我们也可以找到某种模式。不管这种模式多么明显,我们都需要一种合理的理论来解释这种模式。否则,我们找到的仅仅是巧合而已。如果某种理论不合理,应当保持怀疑的态度。如果某种统计结论看上去令人难以置信,不要相信它。如果你对其中的数据和检验进行检查,你通常可以发现一个严重的问题,将结论推翻。缺乏数据的理论仅仅是理论而已人们既可以被缺乏理论的数据欺骗,也可以被缺乏数据的理论欺骗。我们既需要理论,也需要数据。仅仅通过搜刮数据寻找模式是不够的。模式需要得到理论的解释,这种理论应该言之有理,而且需要得到新数据的检验。另一方面,在经过可靠数据的检验之前,理论仅仅是一种猜测。用统计学的思维破除迷信方法一,理论验证,即思想实验,如果真有超能力等神秘事件,那么现在的世界不会是这样。方法二,实验验证,让那些人重复一遍看结果。至少目前还没有能重复的神秘事件。
转发转发同时评论快速转发评论7分享「微信」扫码分享给这本书评了5.0数据不会说谎,但是可以人为的用统计学方法去操控结果“当人们犯了错,常说被数据欺骗了。数据不会说谎,是你会错了意,被统计学欺骗了,形成了错误的认知。在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求,善用统计学即可达成最不坏的决策。本书就是关于统计学的防骗指南。著名经济学家罗纳德・科斯曾说:“如果你对数据拷打足够长的时间,它一定会招供。” 有些人是误用了统计学,得出了错误的结论;有些人 —— 甚至是久负盛名的学者,则是故意用错了统计学,得出了自己想要的结论。无论是何种情况,你都需要擦亮眼睛,不要上当!”
转发转发同时评论快速转发12分享「微信」扫码分享给这本书评了5.0读后感2017 年在哈佛大学新生开学典礼上,校长福斯特对新生的致辞中说道:“高等教育最重要目标 —— 确保毕业生能够辨别有人在胡说八道”。当今世界数据异常丰富,要确保毕业生能够辨别有人在胡说八道是一件即重要又艰巨的任务,因为有些人有意或无意的利用数据一本正经的胡说八道,我们必须调整对数据的认知,建立正确的统计思维。一是,注意为了得到具有统计显著性的结果,而对统计数据的微调、篡改和删减。二是,正确认识随机性。我们不断低估随机性在生活中所占比重,没能认识到随机性会生成看上去有意义但实际上毫无意义的模式。人们的认知错误之一就是相信小数定律,我们很容易被那些对无法解释的事情做出解释的说法所引诱。人们的认知错误之二就是德克萨斯神枪手谬误,数据聚集现象无处不在,甚至存在于随机数据之中,如果需要寻找数据聚集模式的原因,当心 “德克萨斯神枪手谬误”(先开枪,后画靶心),这种谬误形式也称为费曼陷阱。德克萨斯神枪手谬误是一种典型的过拟合现象,即先观察数据,然后根据数据提出某种理论,之后再用这种数据验证。三是,正确审视图表。图表的存在非常重要,它可以帮助我们理解数据,进行推理,发现倾向、模式、趋势和关系。有用的图像可以准确而一致地展示数据,帮助我们理解数据。相反,图表垃圾会分散我们的注意力,使我们感到困惑和烦躁。四是,理论与数据并重。一种极端是缺乏理论的数据 —— 那就是在没有基本理论或明确目的的情况下搜刮数据,而不是发现有意义的统计关系。另一个极端是缺乏数据的理论 —— 将半真半假的理论作为事实提出,但却从不用数据对其进行检验。如果一种理论没有得到可靠数据的检验,那么它仅仅是一种猜测。当争议出现时,第一种良方是利用常识,进一步利用科学,不要轻易认为自己是错误的,因为数据并不比思想更加重要。常识是一种稀缺品,尤其是在缺乏 “独立之精神,自由之思想” 时。科学的精神就是质疑、独立、唯一;科学的方法是实证化、定量化、逻辑化。第二种良方是利用新数据,对于过拟合的模型,启用新数据是非常有效的破解手段。第三个良方是比较。比较是实证研究的生命线。不过,请当心肤浅的比较,包括对于大数和小数百分比变化的比较,对于除了随时间增长以外没有其他共同点的事物的比较,以及对于无关数据的比较。这本书阅读时比较轻松,介绍了许多统计学原则,并告诉我们在面对数据时的正确思考方法和处理良方。
转发转发同时评论快速转发评论1分享「微信」扫码分享给这本书评了5.0其实我们人类大脑为了节省能量,简化认知,最喜欢的就是对模式的迷恋,我们往往在信息不全面的时候,用模式代替事实和数据,用结论代替思考和逻辑,才会造成很多本来应该轻松的生涯跌宕起伏。从本书,我学到以下三点:首先是输入垃圾、输出垃圾,其实我们计算机已经很高级,但是往往引导我们得到错误结果的,不是计算错误,而是我们选择了错误的观测数据和维度,造成得不到真正想要的结果;其次相关性不得于因果性,例如魔鬼经济学作者史蒂文推断的美国 20 世纪 90 年代堕胎与犯罪率的关系,其实是错误的,我们不能因为两件事情恰好前后发生,就强行建立因果联系,复杂世界因果性十分难找,大部分都是相关关系,不能一概而论;再次,注意各类报告、分析里面的图表,图像虽然可以揭示某种模式,但是也会扭曲数据、误导读者,例如柱状图的数轴上是否用零点、数据间隔是否一致,都可以控制趋势线的平滑或者陡峭,自然会引导看的人形成的观点。作为普通人,不是统计学家,我们值得读一读这本书,至少以后再看成型观点时,也多一分心思,去判断数据、逻辑的正确性和合理性,合理的过好这一生。
转发转发同时评论快速转发评论赞分享「微信」扫码分享 - 加载中...