從深度學習到長命百歲|知識就是力量,養生就是培根

2015年有條新聞,當年將滿116歲的紐約布魯克林老太太瓊斯(Susannah Mushatt Jones,1899—2016)接受采訪。記者問其養生之道,告之,每天早餐吃四片培根。沒錯,就是「知識就是力量,法國就是培根」里的培根。

從深度學習到長命百歲|知識就是力量,養生就是培根

這種另類的長壽秘訣在百歲老人中似乎並非個例。

美國一著名的搜索「令人驚奇事件」的網站曾特地搜羅過,比如百歲老人英國人多蘿西·豪喜好金鈴威士忌和每天抽15根超級帝王香煙,1997年辭世的122歲老人讓娜·卡爾芒每周會吃近1千克的巧克力c,美國沃思堡的104歲老人伊麗莎白·沙利文喜歡每天喝三聽「碳酸」飲料,美國密歇根州104歲的特雷莎·羅利每天一瓶無糖可樂,2014年台北110歲的老太太林黃玉珍特別喜歡喝紅酒、吃薯條。

從深度學習到長命百歲|知識就是力量,養生就是培根

為什麼明明不符合共識的養生之道卻能奏效呢?這其中有個統計上的錯覺。

共識的養生之道是通過歸納的方式總結的經驗。歸納是由一系列具體的事實概括出一般原理。

在數學上,則是從眾多個別的事物或樣本中概括出一般性的概念、原則或結論。歸納追求的是統計上的共性、平均,關心的也不是個例上的特定品質。既然是共性、平均,它自然會光滑掉某些成功的長壽個例的品質。

其次,在統計或歸納的時候往往是基於共同的結構,而不會過多地考慮甚至會忽略個體間差異。所以,如果過分地相信統計和歸納,就可能陷入一個誤區,會認為這些個例是不合理的。

從這個角度看,2006年以來引發第三波人工智能熱潮的深度學習就像是那位116歲的長壽老奶奶,而深度學習之前的做法則像是共識的養生之道。

那麼以前的「養生之道」是怎麼玩的呢?

以預測任務為例,我們的目標是希望學習到的模型在預測未知目標時越精確越好。但放在統計學習框架下,我們會碰到模型復雜性問題。這一問題的來源在於,設計的每個模型離真實的模型之間總會有偏差的存在,同時,模型的參數會導致其模型自身在尋優時存在波動,即會產生方差。這導致我們要處理的問題常常缺乏唯一解,是病態問題。

因此,從統計意義上來講,一個好的模型需要在偏差和方差之間尋找平衡,從而使得病態問題良態化,在深度學習未包打天下之前的年代,這種平衡往往是通過控制模型的復雜性來獲得的。

對於復雜性的認識,這幾十年來一直在變遷中。有通過控制模型的參數數量來實現的,如貝葉斯信息准則、Akaike信息准則(Akaike information criterion,AIC);有從信息論的編碼長度角度出發的,如1978年喬爾瑪·里薩南(Jorma Rissanen)基於Kolmogrov復雜度提出的最小描述長度,克里斯·華勒斯(Chris Wallace)1968年提出的面向聚類的最小信息長度;有從數據幾何結構出發的,如限制空間光滑性的流形約束;有從稀疏性角度出發的,如懲罰模型系數總量的L1范數;還有從模型結構的推廣能力進行懲罰的,如統計機器學習中曾經盛行一時的VC維(Vapnik-Chervonenkis dimension)、最大邊緣等約束。

從深度學習到長命百歲|知識就是力量,養生就是培根

那麼,深度學習又是怎麼玩的呢?

不管採用什麼樣的結構,深度學習最明顯的特點就是模型深、參數多。

自2006年傑弗里·欣頓(Geoffrey Hinton)基於伯茲曼機提出的深度模型至今[128],AlexNet、殘差網、Inception網、稠密網等各種深度學習模型的可調整參數的數量都在百萬級甚至百萬級的百倍以上。這帶來一個好處,即學習來的表示能張成一個遠大於原有空間的空間,學術上稱之為過完備空間。一般來說,在這個過完備空間上尋找不符合統計規律,卻具有優良品質的個例的機會就顯著增大了。

現有的深度學習在軟硬件兩方面都可以大概率保證找到一群「116歲的長壽老奶奶」。這對於產業界來說,是件好事。

因為產業界追求最優性能,而非統計意義上的平均性能。而且,如果數據規模足夠大,以至於未見過的樣本又很少時,不考慮統計上的「過擬合」問題也無關緊要。所以,不管你是白貓還是黑貓,只要能捉老鼠都是好貓。

這大概就是現在深度學習成功的原因之一。

來源:華人頭條B

來源:華人號:教育能見度