代碼老矣,尚能跑否?

Nicolas Rougier需要一張盤。不是便攜式的U盤,也不是光盤——而是一張貨真價實的軟盤。90後可能不知道,軟盤是一張又薄又軟的盤片,放在一個方形殼里。殼中間有一個洞,還缺了一個角,能存幾百K的數據。在1983年的冷戰電影《戰爭游戲》(War Games)中,高中生黑客David Lightman就是用一張軟盤黑進了學校的電腦,給他女朋友的生物課成績改成了滿分。

之後他黑進了軍方網絡里,險些引發了一場全球性的熱核戰爭。Rougier的需求就沒這麼刺激了。他只想從自己的Mac台式機往一台老古董電腦上傳一個文本文件——1977年的出品的Apple II。這是蘋果公司的第一部消費產品。

Rougier是法國國家信息與自動化研究所(INRIA)的計算神經科學家兼程序員。傳這個文件是他自己提出的計算挑戰的最後一步:十年代碼復現大挑戰(Ten Years Reproducibility Challenge, https://rescience.github.io/ten-years/)。2019年,他和法國國家科學研究中心(CNRS)的理論生物物理學家Konrad Hinsen共同發起了這個挑戰,要求找一份老代碼並重新執行,從而對至少已發表了十年的以計算為主的論文進行復現。原本的計劃是參與者在波爾多6月舉辦的研討會上討論心得,但是因為COVID-19被迫延期(目前暫定延期到2021年6月)。

代碼老矣,尚能跑否?

雙胞胎計劃的插圖

雖然計算在科學中起到了越來越關鍵的作用,但科學文章很少會包含計算用的代碼,Rougier說。即使有包含,也很難由其他人執行,甚至連原作者過一段時間後,都可能在執行時遇到問題。編程語言在發展,運行代碼的計算機環境也是一樣。今天可以順利運行的代碼明天可能就會出問題。

2015年,Rougier和Hinsen創辦了《ReScience C》。這份期刊刊載的是研究人員如何基於原始論文和自行編寫的開源代碼來復現其他人的計算方法。評審人再研究代碼以確認它是否能用。但即使在這種理想化的場景——作者有意願讓代碼復現、評審人純熟於計算領域、代碼也是新寫的——整個流程依然有很多難點。

十年代碼大挑戰的目標是「找出十年前哪些寫作和發布代碼的技術好到如今依然可用」,Hinsen說。挑戰的時間設在了2020年1月1日這個Python 2「退場」的時間點。這個在科學領域非常流行的語言在出現20年之後決定終止支持。(2008年出現的Python 3仍然在繼續開發,但是這兩者之間的區別比較大,用其中一種寫成的代碼在另一個環境下可能無法運行。)

「在軟件的世界里,十年是很長很長很長的時間。」Victoria Stodden說。她在伊利諾伊大學厄巴納-香檳分校研究計算的可復現性。作出這一論斷後,她說這個挑戰本質上是鼓勵研究者探索代碼復現的極限,能不能在一個「對軟件世界來說幾乎無窮長的時間」里復現。

一共有35個挑戰者。在他們提出要復現的43篇文章里,其中28篇提交了復現報告。《ReScience C》從今年初開始刊載他們的工作。使用的程序語言從C和R到Mathematica和Pascal;一位挑戰者復現的不是代碼,而是用系統生物學標記語言(SBML)編碼的分子模型。

雖然是在數碼世界,但挑戰者的經歷和現實世界的考古一樣可以借古喻今,提出未來復現代碼的最佳策略。其中一個共同點是,科學家想要復現代碼就必須優化文檔。「2002年,我覺得我所有東西都能記一輩子,」威斯康星大學麥迪遜分校的生物統計學家Karl Broman說,「之後我才意識到,過不了一個月就會忘了。」

重現科研

Rougier的參賽作品重現的是整個挑戰里最老的代碼[1],他在16歲時為Apple II寫的圖像放大器,文章發表於一份已經停刊的法國業余愛好者雜志《Tremplin Micro》(挑戰里最老的科學代碼是一份28年前的繪制水質數據的Pascal程序,之後會在《ReScience C》上發表)。32年之後,Rougier已經記不清代碼是怎麼運作的了,它用的還是長得像咒語一樣的AppleSoft BASIC代碼——「挺奇怪的,畢竟是我本人寫的」。但他成功地在網上找到了這份代碼,並用網頁版本的Apple II模擬器成功運行。這一步比較簡單,他說,在實際的Apple II上運行才是真正的困難。

硬件並不是問題——Rougier在辦公室有一台Apple II,是他同事清理辦公室的時候撿回來的。「年輕人會問『這是個什麼?』」他說,「然後你就得解釋『這是台電腦』。老人看到就會說『哦,我對這機器有印象』。」但是因為Apple II比USB和互聯網還要早——而現代的電腦也沒法直接和老式硬盤連接——Rougier就需要一些自製的硬件,外加上一盒老式軟盤,才能讓電腦讀取代碼。他在亞馬遜上找到了這些東西,1993年造的「全新」品。寫入三次保證所有比特都穩定之後,他確認了這些軟盤可用。

INRIA研究中心的計算機科學家Bruno Levy評審了Rougier寫的內容。Levy也有一台Apple II,還在推特上發布了一小段視頻。在老式鍵盤的一聲「咔噠」之後,他調用了代碼並成功執行,緩緩顯示出一行純綠色的「我們重現科研!」。

過時的硬件,已死的語言

當法國國家科學研究中心的生物物理化學家Charles Robert聽說這一挑戰的時候,他決定用這個機會回顧一個他很多年都沒再思考的研究課題。「這個挑戰給了我臨門一腳,讓我再向那個方向努力一把。」他說。

1995年,Robert用運行了商業軟件Mathematica的計算筆記本為真核染色體的三維結構做了建模。Robert在MacBook上有Mathematica,但是為了好玩,他花了100歐元(約合800人民幣)買了一台Raspberry Pi,這是個愛好者玩的單片機,上面安裝了Linux系統,並預安裝了Mathematica 12。

Robert運行代碼時基本沒什麼問題,但是暴露出了計算筆記本可能會引發的難點[2],例如缺乏代碼結構,而代碼段也可能不按順序執行。到了今天,Robert通過將代碼拆成模塊並寫了代碼測試。他還使用了版本控制來追蹤代碼的修改,並記錄了哪個版本的軟件產生了什麼樣的結果。「當我讀到老代碼的時候,偶爾會起雞皮疙瘩,然後思考現在能如何做得更好,」他說,「不過,我還覺得整個過程讓我復習了從那之後學的一些知識。」

成功完成挑戰的Robert並非孤例:至今為止發表的13份重現論文中只有2篇失敗了。其中之一是Hinsen寫的,1990年代初他用來系統性儲存代碼的磁帶讓他栽了跟頭[3]。「這就是做了備份卻沒能在十年後檢查備份是否能讀的下場。」他說,「之前你有這套很好的磁帶,還有備份,但是現在沒有讀取設備了。」(Hinsen還發表了一篇成功完成的文章[4])其他沒能成功完成挑戰的參與者歸因於時間不足,特別是在疫情之下。

挑戰者遇到的另一個普遍問題是過時的計算環境。現在在意大利國家研究委員會的大氣污染研究所任職的計算物理學家Sabino Maggi曾經使用程序語言Fortran為一種叫做Josephson結的超導設備進行了建模,並用微軟的Visual Basic處理了結果。在那之後,Fortran的改變不多,因此Maggi只微調了一些就成功編譯了代碼。Visual Basic則造成了更大的麻煩。

「Visual Basic,」Maggi在文章[5]里寫道,「是一門已死的語言,已經被Visual Basic.NET取代很久了,而兩者之間只有名字一樣。」為了運行代碼,他不得不在Mac筆記本上重構了一個十年前的Windows虛擬機。他用網上找到的安裝盤裝了微軟DOS6.22和Windows3.11(都是1994年前後的軟件)以及Visual Basic。「即使是很久以前的軟件,使用模擬器安裝版權軟件仍然可能有合法性的問題。」Maggi承認。不過,因為他當時做科研的時候有合法的證書,他說他覺得「至少道德上有資格」使用。

但是該用哪個版本的Visual Basic?微軟在幾年內發布了好幾個版本的Visual Basic,並且不都是向前兼容的。Maggi已經記不起1996年他用的是哪個版本的了,而地下室的一次漏水摧毀了他早年記錄這些細節的筆記本。「我得從頭開始了。」他說。

代碼老矣,尚能跑否?

在Mac上運行1994年Windows的模擬器以運行微軟的Visual Basic。來源:Sabino Maggi

INRIA的研究工程師Ludovic Courtès重現了一份2006年的研究,內容是比較不同的數據壓縮策略,代碼是用C語言[6]寫的。但是程序員所使用的應用程序接口(API)變了,因此他的程序沒辦法用現代的軟件庫編譯。「所有的東西都在進化——當然了,只有論文里用到的那段軟件除外。」他說。最後,他不得不將五六個程序庫回退到了老版本——他稱為「降級的連鎖反應」。「這坑有點深。」他說。

今天,研究者可以使用Docker容器[7]和Conda虛擬環境[8]對計算環境進行包裝以便於重用。但是幾個挑戰者選擇了另一種方式。Courtes說這「很可能代表了重現科研論文的『黃金標准』」:一個叫做Guix的Linux軟件包管理系統。它保證環境可以連每個比特都完全重現,並且對於代碼鏈接時的版本完全透明。「整個環境,事實上整篇論文都可以從源代碼開始查看並鏈接。」他說。Hinsen將它稱為「可能是目前為止重現科研最好用的東西。」

需要文檔

在INRIA和巴黎大學的計算機科學家Roberto DiCosmo嘗試重現[9]的論文中,他提出了另一個挑戰者常見的難題:尋找自己到底把代碼放哪了。DiCosmo挑戰的是1998年的一篇論文,其中描述了一個叫做OcamlP3l的並行程序系統。他搜遍了硬盤和備份,還請1998年的合作者們也搜了一遍,但是什麼都沒找到。之後他搜了自己2015年建立的一個服務Software Heritage。「找到了,不可思議。」他說。

Software Heritage定期爬Github一類的代碼分享站,和Internet Archive備份網頁一樣備份源代碼。開發者也可以要求該服務備份自己的庫,而挑戰的規則也要求挑戰者這樣做:DiCosmo並不是一開始就去Software Heritage上搜索的,因為他開發OcamlP3l的時候Software Heritage還沒出現。不過,不知道是誰把他的代碼發到了一個叫Gitorious的庫上。Gitorious現在已經消失了,但在那之前被Software Heritage備份,上面的OcamlP3l也就一起被收錄進去。

當然了,找到代碼不意味着就知道該怎麼用。比如說,Broman的文章里就提到,他在重現2003年一篇論文[10]的時候因為缺乏文檔和「古怪的」文件結構而花了很大力氣才搞明白到底該運行哪個代碼。「結果到頭來我得花功夫去讀當初的那篇論文。」他寫道。

「(在結構良好的程序里)文檔比代碼長並不是罕見的事情。」在加州大學伯克利分校重點研究計算可重現性的Karthik Ram說,「有了足夠詳細的文檔,再更廣泛地描述分析方法,數據來源,數據和代碼的元數據,這些都是很關鍵的。」

愛丁堡大學的神經科學家Melanie Stefan利用這次挑戰評估了她用SBML寫的計算模型的可重現性。雖然代碼很好找,但是她找不到之前使用的參數了(例如分子濃度)。數據歸一化時的關鍵細節也沒有詳細記錄。結果,Stefan無法重現一部分研究。「你做科研時候差不多是顯而易見的事不再那麼顯而易見了——對10-12年之後的你來說。誰能想到!」她自嘲。

可重現性的光譜

Stefan的經歷驅使她給實驗室訂下了文檔上的規章——例如,模型中必須附上這樣的說明:「想重現圖5的話,需要按以下步驟執行。」

但是寫這些資源需要時間,Stodden說。清理代碼並補充文檔,撰寫測試,整理數據集,重現計算環境——「這些工作量都不出成果」。研究者沒什麼動力去做這些事,她補充說,而科學界關於可重現的論文應當長什麼樣也沒什麼共識。讓問題進一步復雜化的是計算系統還在繼續進化,因此難以預測哪種策略能一直有效。

可重現性是一條光譜,曼徹斯特大學的計算機科學家、研究可重現性的Carole Goble說。從科學家復現自己的研究,到同行評審人試運行代碼以證明其有效,再到研究者將發表的算法應用在新數據上。類似地,研究者為了保證可重現性所做的事情也能夠成一條光譜(見下「可重現性檢查表」),但是這張表可能會很長。Goble說,把源代碼發布出去,這樣至少未來其他人可以瀏覽並按需改寫——Goble管它叫「讀代碼的重現手段」。「軟件是有生命的,」她說,「而有生命的東西終將腐朽,因此需要不斷修理,最終就得換掉。」

可重現性檢查表

雖然以下手段不可能百分之百保證計算可重現性,但是可以增大成功率。

代碼 – 如果你的計算過程是在圖形界面上點來點去,例如Excel,是不可重現的。將你的計算和數據操作寫成代碼。

文檔 – 使用注釋、計算筆記本和README文件來解釋程序的運作方式,並將預期的參數和所需的計算環境也定義好。

記錄 – 記錄關鍵參數,例如隨機數生成器的種子。這類記錄可以用來重現代碼,發現漏洞並追蹤意料之外的結果。

測試 – 寫一套測試函數。使用正向和負向的控制組數據集來確保你能獲得預期的結果,並在開發過程中不斷運行這些測試以便在編程出錯時立刻發現。

指南 – 寫一個主腳本(例如run.sh文件)來下載所需要的數據集和變量,執行計算流程並為你的代碼提供一個顯而易見的入口。

存檔 – GitHub是一個流行但是非永久性的在線代碼庫。使用Zenodo、Figshare和Software Heritage這樣的存檔服務來保證長期的穩定性。

追蹤 – 使用Git一類的版本控制工具記錄項目歷史。記錄產生各種結果的分別是哪個版本。

打包 – 使用容器化的工具(例如Docker和Singularity)、網上服務(Code Ocean、Gigantum、Binder)或是虛擬環境管理器(Conda)設置可以即時使用的計算環境。

自動化 – 使用持續集成服務(例如Travis CI)來自動、定期、在各種計算環境下測試代碼。

簡化 – 避免罕見或難以安裝的第三方代碼庫,以簡化重用代碼的難度。

驗證 – 在不同的計算環境下運行你的代碼,以確認其可移植性。

一個不怎麼符合直覺的事實是,很多挑戰者都發現使用更老的語言寫成的代碼反而更易於復用。新語言的應用程序接口會頻繁更新,而它們所依賴的第三方庫則導致代碼更易損壞。從這個意義上講,今年初Python 2.7的退役為科學家提供了一個機會,Rougier和Hinsen說。Python 2.7「讓我們有了一個保證不會再變化的高級編程語言。」Rougier寫道[1]。

無論研究者使用什麼樣的編程語言和可復現策略,實際驗證一遍都是明智之舉,謝菲爾德大學的研究軟件工程師Anna Krystalli說。Krystalli負責舉辦一個叫ReproHacks的研討會,讓研究者提交已經發表的論文、代碼和數據,然後要求其他參與者重現其結果。她說,大多數情況下是重現不出來的:作者沒能提供一些他們看起來顯而易見而其他人卻不知道的關鍵細節。「無論我們在做什麼,如果不實際用一用,擺弄擺弄的話就不可能知道是否真的可以重現。」Krystalli說,「實際上,這比人們所想象的要難得多。」

來源:cnBeta