勞動節之際,一個即將百歲的復古大模型也投入了工作。有人將這個只有1930年知識的大模型微調成了一名軟件工程師,過程比預期輕松得多,僅用250個訓練樣本就解決了它的第一個編程問題——為xarray庫打了一個補丁。

這個從未見過電視機的AI現在開始涉足編程領域,與Claude等現代模型競爭程序員的工作。這個被稱為“老頭”的AI全名叫talkie-1930-13b,由AI研究員Nick Levine、多倫多大學副教授David Duvenaud和GPT系列之父Alec Radford共同開發。其訓練數據嚴格限制在1931年1月1日之前,因此它對電視機、互聯網乃至二戰結局一無所知,世界永遠停留在1930年的最后一天。

然而,當面對Python編程題時,這個老古董竟然寫出了第一行代碼,讓許多人感到震驚。最近,團隊再次對這個1930年代的模型進行了微調,讓它解決SWE-bench上的真實軟件工程問題。令人驚訝的是,經過250個訓練樣本后,它成功修復了xarray庫的一個小問題。

盡管整個過程看起來有些笨拙,用了49輪才解決問題,但這種試錯、反思和自我修正的能力展示了強大的推理能力。當訓練數據擴展到約75K條軌跡(10億token)時,模型在SWE-bench-Verified上達到了4.5%的通過率,相比原來在HumanEval上的4%通過率有了顯著提升。




