“建議專家不要建議”為什么是對的?
“建議專家不要建議”為什么是對的?

“建議專家不要建議”為什么是對的?
過去的這個周末,人教版教材問題持續發酵,專家和機構的公信力再一次遭遇危機。
這讓我們聯想起兩周前,有一句話反復上了熱搜,叫“建議專家不要建議”。

當時就有媒體分析網友為什么不待見專家,大多數談的都是“公共話題”這一類方向。
網友對專家不買賬,一方面是認為“專家站著說話不腰疼”,給建議不接地氣,當然另一種情況是,如果專家本身“屁股就坐歪了”,那民眾不但不能相信,還要問責。
不過以上都屬于專家的主觀層面,我們要說的,是一個“建議專家不要建議”的客觀依據:

就算你對專家不感冒,這個結論也多少有點反直覺,下面我們還是舉一個招聘的例子。
想象你是一個校長,你們學校要招一位行政主管,現在有兩位候選人,在此之前,兩位候選人經過了層層面試,前幾輪的面試官分別從5個維度給兩位候選打了分(10分滿分),以下是他們各項得到的平均分:
候選A:領導力7分,表達能力6分,人際交往7分,業務技能8分,自我激勵8分
候選B:領導力8分,表達能力10分,人際交往6分,業務技能5分,自我激勵5分
請問校長,您覺得應該要誰呢?
我們大概可以總結三種比較的思路:
1、最簡單粗暴的,把每個人五項的分數再平均一次,在這里A是7.2分,B是6.8分,所以要A。
2、往深想一層,A好像各方面能力比較平均,而B有一個明顯的長處,就是表達能力,10分是什么概念,就是前面所有面試過他的人都給了滿分,行政崗位,溝通表達能力是不是要比業務技能重要?如果是,那應該選B。
3、再往深想一層,表達能力是重要,可是有多重要呢,比業務技能重要一倍?兩倍?所以是不是應該結合一些數據,對這五個指標做加權平均,這樣算出來的結果才更科學吧?
按照我們一般人的判斷,這三種思路,“思路1”好像是最不講道理的,所以是一個最差的策略,但真正的結論是:

剛才我們說的,候選A和候選B的案例來自一項真實的研究,其中“思路2”(也就是重視表達能力)這個臨床判斷,是眾多專家模型中比較典型的一款。
結果是,一群專業的心理學家,各自做了預測模型,但這個結果和實際工作表現之間的相關系數,只有0.15,這意味著專家的判斷跟扔硬幣效果差不多。
這個研究并不是孤例。早在2000年,有人曾綜合調查過136項研究,包括了各式各樣的預測主題,比如黃疸病的診斷、服兵役的適應性、婚姻的滿意度等等比較復雜的判斷,結果是:
其中63項機械判斷更準確,65項是機械判斷和臨床判斷同樣好,而只有8項是臨床判斷更好。
這里我們還沒有計算決策的成本問題,機械判斷顯然比臨床判斷快得多,而且根本不需要請專家,可謂省時省力省錢。
還是開頭的例子,為什么專家不會同意簡單的取平均分方法呢?因為專家認為這太一刀切了。
比如我們都聽過,有的數學天才,從小就是迷戀數學,但是英語非常差,如果取平均分,那這種數學天才肯定上不了大學了,我們不應該僅僅因為英語不好就抹殺一個天才,對嗎?
但是請注意,毛病恰恰出在這里——
開頭例子里的候選B,表達得分是滿分10分,這真的說明他是一個表達天才嗎?在只有兩個候選人的情況下,其中一個人表達得到了10分,這個10分只能被看做是一個“比較級”,而很可能不是“最高級”,這種情況下押寶在一項指標上,很冒險,并不靠譜。
更有可能的情況是:你以為的特殊情況,只不過是一般情況,你給自以為的特殊情況打了滿分,這個分數虛高的可能性,要大于他真的值一個滿分。
所以“英語差的數學天才”,這個故事模型也是經不起實操的,極少數真正的天才,的確可以通過自主招生之類的方式被錄取,但99.99%的學生不可能走這條路——

你以為自己是個數學天才,其實放到最頂級的那群人中間,可能又相形見絀了,所以想考好大學,請盡量把各科分數都提上去。這本身就是最公平的選拔方式。
我們來總結一下,機械判斷和臨床判斷的區別到底是什么:
機械判斷的不足是,好像抹殺了一些“特殊情況”,缺少“微妙考慮”,但研究結果告訴我們,這些所謂微妙考慮帶來的收益,不如那些噪聲的破壞力大。
機械模型,沒有喜怒哀樂,哪怕用非常簡單的甚至不合理的模型(比如在開頭例子中,隨機選一個打分項作為高權重),最后也有77%的概率比專家們強。

實際上,用“機械判斷”,而不是遇事就請教專家,上世紀50年代就有例子。
1953年,麻醉學家阿普加就設計了一個判斷新生兒是否健康的模型,也叫阿普加評分(Apgar Scale),一共五個指標:
膚色、心率、刺激反應、肌肉張力、呼吸
然后,醫生對每一項進行打分,可以打0分、1分或2分,比如膚色,全身是粉紅色給2分,四肢有青紫色給1分,全身青紫色給0分。

最后只需要把5項得分簡單相加就行,不需要加權平均。這個模型滿分是10分,只要嬰兒總分達到7分,就是健康,4-6分,不太健康,0-3分,需要立刻采取急救措施。
現代醫學對癌癥的篩查,也都有類似的評分系統,這種分幾個維度的判斷簡單易行,相對不受醫生經驗和水平的影響,事實證明準確率很高。
比如在醫院,大部分診斷還是醫生的臨床診斷,而不是真的用了模型,而像開頭說的招聘場景,或者公司要不要開啟一個新的項目,類似這樣的決策,“打分法”好像并沒有被嚴肅的采納過。
這里除了增加就業機會的社會學意義之外(真的都用打分法很多人就要下崗了),還有一個非常重要的原因:
試想,如果人類判斷錯了(事實上專家們幾乎天天都在犯錯),我們雖然會吐槽,但終究覺得這是正常情況,因為人本來就會犯錯;但是如果機械模型錯了,或者說算法錯了,哪怕就錯一兩次,我們就會產生質疑,可能再也不敢用了。
這有點像現在的自動駕駛技術。在可以預見的將來,自動駕駛發生事故的概率,一定會比人類司機要低,這是一定的,但是我們內心能容忍人類的事故,卻不太能容忍自動駕駛因為程序問題而出事(特斯拉肯定同意這個說法)。

換句話說,我們認為犯錯是人類的特權,但機器就不應該犯錯。
從這個意義上說,雖然我們“建議專家不要建議”,可是真到了讓機器讓模型給建議的地步,我們也難免會遲疑。
最后也許我們沒有聽專家的,卻聽了親戚、鄰居或者校友的建議(但這些人的建議也并不比專家強),這大概也是一種難以克服的人性——
前面講了那么多,到頭來你也不敢真的相信機器和模型。
比如孩子高考之后填報志愿,全家人在幾所高校和幾個專業之間舉棋不定,很多人在這個時候會選擇請教親朋好友:只要我請教的這個人日常表現很靠譜,那么他的建議應該也靠譜吧?
有沒有比這更好的決策方法呢?也許這時你需要一個“無情的機器”。
它能——
機不可失,為了孩子人生中最重要的決定,趕緊行動吧!
發表評論




暫時沒有評論,來搶沙發吧~