全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

讓 AI 誕生的職業,會因為 AI 失業嗎?

初創公司 Cognition AI ,2 個月前才剛成立,一夜之間在 X 捲起了風暴,就因為他們一條瀏覽量上千萬的推文:

今天,我們很高興地向大家介紹,第一位 AI 軟體工程師 Devin。

Cognition AI 團隊藏龍臥虎,基本都是國際信息學奧林匹克競賽金牌選手。

代碼構建了網際網路的地基,程式設計師至今仍然是有門檻的高薪職業。這些智商數一數二的人類頭腦,為什麼要集合起來,手把手地教 AI 深入自己最擅長的領域?

第一位接近人類的 AI 程式設計師,究竟強在哪里

Cognition AI 對於 Devin 的定義是:世界上第一位完全自主的 AI 軟體工程師。

先拋開技術參數,看看 Devin 可以做些什麼。

Devin 還沒有開放使用,只能通過郵箱提交申請,所以我們現在看到的是官方給出的案例,以及少數第三方開發和產品人員的評價。

先從 Cognition AI 自己開始,他們想讓 Devin 完成一個任務:測試大語言模型 Llama 在三個 API 提供商上的性能。

他們發了一段用自然語言寫的提示詞,接下來,雙手離開鍵盤,一切都交給 Devin。

Devin 先是制定了一個步驟清晰的計劃,然後就開始像人類程式設計師一樣寫代碼。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

Devin 決定使用瀏覽器打開 API 文檔,讀取並學習如何接入每一個 API。

過程中出現了一個意外的 bug,Devin 表示不慌,哪里有錯就解決哪里,添加了一個調試列印語句,通過日誌中的錯誤信息找出修復 bug 的方法。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

最終,Devin 構建和部署了一個可視化的網站,既完成了任務,結果又賞心悅目,走進閱卷老師的心坎里。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

根據 Cognition AI 的博客,Devin 還能完成更加復雜的任務,並且有超強的學習和調整能力。

甩一篇文章的連結給 Devin,里面介紹了如何通過 ControlNet 等插件,在 AI 圖像里嵌入精準的文本。

這本來是 Devin 不熟悉的技術,但它通過自行閱讀和學習知識,三下五除二輸出了帶有用戶英文名字的電腦壁紙。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

請 Devin 製作一個互動網站,Devin 按照用戶的要求,不厭其煩地修改和完善,改進初始化頁面、加快幀速率、響應不同大小的窗口。

然後,Devin 將網站部署到 Web 開發平台 Netlify,省時省力省心,只把愉快玩耍的部分留給人類。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

除了沖鋒陷陣,Devin 也很適合打野。

面對一個需要不時維護的包含不同算法的開源存儲庫,Devin 拔劍四顧,幫忙查找和修復錯誤。比程式設計師更加火眼金睛。

甚至,Devin 有較強的自我管理意識,能夠訓練和微調自己的 AI 模型,人類程式設計師可以把它晾在一邊,1 個小時之後再回來看看,進展得怎麼樣了。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

▲ 這位程式設計師真的晾了 AI 一個小時.

Cognition AI 還想證明,Devin 不是一個自嗨的道具,所以他們試著在自由職業平台 Upwork 接了一個單,編寫和調試代碼來運行計算機視覺模型,但交給 Devin 完成。

Devin 有條不紊地設置代碼倉庫,解決版本沖突,從網際網路下載圖片供模型使用,采樣結果數據,還編寫了一份漂亮的報告,正中金主的下懷。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

不僅如此,Cognition AI 在 X 驕傲地宣布,Devin 已經通過了一家行業領先 AI 公司的工程面試。

如果是一個剛入門的程式設計師,面對甲方的任務抓耳撓腮,叫天不應叫地不靈,不妨將任務需求發給 Devin,大神原來就在身邊。

試水市場之後是同行比拼,Cognition AI 讓 Devin 進行了一次編碼基準測試 SWE-Bench,解決開源項目里真實存在的 GitHub 難題。

術業有專攻的 Devin 完全自力更生,端到端正確解決了其中的 13.86%。

乍看不高,比起之前模型在輔助下的最好成績 4.8%,這已經是非常大的進步了,甚至遠遠超過了 GPT-4、Claude2 等一眾前輩。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

目前用過 Devin 的少數用戶,給出的也基本是溢美之詞。

在彭博社記者的實測中,Devin 從頭開始構建一個網站,只要 5-10 分鍾。

同樣的 5-10 分鍾,Devin 還能重復創建基於 Web 的經典桌球球遊戲。

之所以說重復,是因為在這個過程里,彭博社記者輸入了幾次提示詞,改進網站外觀、桌球球運動時的物理特性等等,Devin 有求必應。

計算機科學家 Silas Alberti 則發現,Devin 擅長項目原型設計、修復錯誤以及以圖形形式顯示復雜數據。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

他甚至覺得,Devin 不能被稱為「編程助手」了,更像一位獨立工作的助理軟體工程師,自主自發自治地幫人完成任務。

史丹福大學機器學習專業博士生 Silas Alberti 也上手了 Devin,兩周前用它構建了一個小型 SMS 網站摘要器,並通過 Twilio 部署,使用評價很接地氣:

幾乎就像一個人類同事!當 Devin 遇到問題,我給它建議時,就像在管理一名初級工程師。

體驗之後,這位博士生提高了對自己的要求——成為更優秀的工程師,未來才能管理一支 Devins 團隊。

夢幻華人團隊打造,克服代碼不是終點

Devin 背後的 Cognition AI,就像拔地而起的一座高山,在 2 個月前才成立。

10 名員工甚至沒有固定的辦公室,在矽谷的 Airbnb 和紐約的辦公室之間奔波。

但就是這樣一家公司,籌集了 2100 萬美元的投資,一夜之間火爆 X。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

Cognition AI 的團隊目前就 10 個人,華人面孔多,人才密集度過高——DeepMind、Waymo 等大廠的工作經歷,10 枚國際信息學奧林匹克競賽金牌。創始人則主要有三位。

執行長 Scott Wu,今年 27 歲,他的兄弟 Neal Wu 也在 Cognition AI 工作,兩人都從青少年時期開始參加國際編程比賽,能力在專業圈子里非常出名,甚至讓美國國家編程隊勝過中國和東歐一籌。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

首席技術官 Steven Hao,曾在負責訓練 AI 系統的初創公司 Scale AI 擔任資深工程師。

首席產品官 Walden Yan,曾就讀於哈佛大學,疑似輟學中。

Scott Wu 認為,奧林匹克競賽的經歷就是他們團隊的優勢。

將編程技能教給 AI,本質上是一個復雜的算法挑戰,讓系統做出復雜的決策,預測未來的最佳路徑,類似他們在競賽中解決的問題。

Scott Wu 甚至用了一種很浪漫的說法:這就像多年來他們在腦海里玩的遊戲。

然而,還沒成為大公司,就有了大公司的病,和越來越封閉的 OpenAI 類似,Cognition AI 不對外公開技術細節,也不透露是構建了自己的模型,還是依賴現有的模型。

他們只是泛泛地說,找到了一種 GPT-4 等大語言模型與強化學習技術結合的辦法,讓 Devin 具備了幾個方面的能力。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

首先,Devin 在推理和長期規劃方面取得了突破,可以規劃和執行需要數千個決策的復雜工程任務,並記憶每一步的上下文,還能不斷學習和修復錯誤。

有了推理能力,AI 就能更像人。我們所熟悉的大語言模型,往往是系統根據機率,預測句子的下一個單詞,或者代碼的下一個片段。但具備推理能力意味著,AI 更加接近人類思考和解決問題的方式。

至於長期規劃能力,這其實決定了 AI 能多有用。計算機科學家 Silas Alberti 實測發現,大多數編碼助手在四五步之後就脫軌了,但 Devin 狀態基本一直在線。

彭博社甚至表示,Devin 能在保持一致性的情況下,連續處理數百甚至數千個任務,這或許就是 AI 的「一心多用」吧。

其次,工欲善其事,必先利其器,Devin 配備了人類程式設計師使用的所有常見開發工具,包括沙盒計算環境中的命令行界面、代碼編輯器和瀏覽器。

再者,Devin 積極地和人類協作,實時報告自己打算怎麼做,用哪些命令和代碼,任務完成到哪一步,並虛心接受反饋,用提示詞提醒 Devin,它就會聽勸並做出調整,按照你的需求和你共同完成一個項目。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

Devin 的演示效果已經足夠驚艷了,但克服代碼不是 Cognition AI 的終點,而是一個開始。

Cognition AI 真正希望解決的是推理問題,讓 AI 更加接近人類,然後在更廣泛的學科里實現更多樣的可能性。

文字、圖像、視頻、代碼,還有什麼是 AI 學不會的?

當 AI 做得更多,人類負責監督 AI 做得更多

程式設計師請 AI 代勞自己的工作,不只是 Cognition AI 一家的想法。

2021 年 6 月,GitHub、微軟和 OpenAI,就在 GPT-3 的基礎上推出了 AI 代碼助手「Copilot」。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

上個月,一家名為 Magic AI 的公司籌集了超過 1 億美元,從頭設計自己的模型和底層技術,構建「超人軟體工程師」。

當 GPT-3.5 剛火的時候,有人認為:

當你輸入提示詞時,你就是在為大語言模型編程。

我們隨意地讓 AI 生成一段文字、一張圖片,也可以算入其中,但與此同時,真正的編程也因為 AI 變得更加普及,把我們帶回了一個熟悉的話題:人類的飯碗會被搶走嗎?

樂觀地想,AI 程式設計師可以讓程式設計師擺脫繁瑣的、無聊的任務,做更加創造性的事情。

而對代碼一竅不通但有腦洞的小白,也可以構建自己的網站、服務和應用程式。

反之,悲觀主義者或許覺得,AI 程式設計師讓程式設計師不再是個高薪行業。Cognition AI 評論區里就有人狂發表情包:作為一名軟體工程師,我已經完蛋了。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

OpenAI 創始團隊成員、大神級人物 Andrej Karpathy 也在 X 發表了自己的看法,軟體工程自動化類似於自動駕駛的發展過程:

1. 人類手動編寫代碼 ;2.GitHub Copilot 自動完成幾行代碼;3.ChatGPT 編寫大塊代碼;4. 代碼差異越來越大,例如 Cursor copilot++ 風格;5…….

這個過程中,AI 做得更多,人類做得更少,但仍然擔任監督的角色。

因為 Devin 的出現,接下來開發人員編寫代碼需要的工具,包括終端、瀏覽器、代碼編輯器等,可能發生很大的改變,人工監督的抽象程度也會越來越高。

然而也不能高興得太早,AI 的部分,以及用戶界面和體驗的部分,還有很多工作要做。人類如何監督,如何調試錯誤,如何引導 AI,如何用自然語言提出高級的命令,仍然等待解答。

全球首個 AI 程式設計師來了!超越 GPT-4 震撼矽谷,但取代碼農為之尚早

深度學習大佬 François Chollet,觀點則更加犀利而尖銳——軟體工程不是復制和粘貼代碼,而是開發和操作問題及其解決方案的心智模型,Devin 還沒到這個境界。

軟體工程的革命,或許近在眼前。至少目前,AI 還無法完全取代人類,因為訪問過於火爆,Cognition AI 官網一度宕機,看來 AI 還無法做出不會崩潰的網頁。

同時,Cognition AI 也還在招兵買馬,對軟體工程師和機器學習研究員求賢若渴。可見在眼下這個時刻,優秀的人類程式設計師,珍稀程度前所未有地高,還能再干票大的,為 AI 添磚加瓦,把更多同類甩在身後。

來源:愛范兒