“開源”,總有一天會(huì)到來?
在剛開幕的2023世界人工智能大會(huì)上,2018年圖靈獎(jiǎng)得主、Meta AI基礎(chǔ)人工智能研究院團(tuán)隊(duì)首席人工智能科學(xué)家楊立昆(Yann LeCun)遠(yuǎn)程連線,參與了圓桌對(duì)談。對(duì)話中,他認(rèn)為:嚴(yán)格監(jiān)管人工智能并不能使人工智能平臺(tái)安全、良善、實(shí)用,而“長遠(yuǎn)來看”,達(dá)到這一目的的唯一方法就是開源。
“開源”體現(xiàn)了對(duì)人工智能技術(shù)細(xì)節(jié)加以公開的訴求。事實(shí)上,2022年,國家網(wǎng)信辦等四單位聯(lián)合公布了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,標(biāo)志中國成為最早在法律層面上要求公開人工智能技術(shù)細(xì)節(jié)的國家之一?!兑?guī)定》要求,相關(guān)服務(wù)提供者公開算法推薦服務(wù)相關(guān)規(guī)則,并設(shè)立了互聯(lián)網(wǎng)信息服務(wù)算法備案系統(tǒng),向公眾公示。
但在首批公示的30個(gè)“算法”中,一般公眾并不能如預(yù)期般從可瀏覽的信息里找到關(guān)于數(shù)據(jù)如何得到處理的具體說明(如不同類型數(shù)據(jù)的評(píng)估權(quán)重排序),而只有頗為籠統(tǒng)的信息收集類項(xiàng)與最終結(jié)果的描述。這些內(nèi)容在依照相關(guān)法規(guī)訂立的“隱私條款”和軟件的用戶界面上,本來就有明確說明并直觀顯現(xiàn)。從算法作為確定的數(shù)據(jù)處理方式這一基本意義來看,這些公示的描述,離“算法”可謂南轅北轍。
與公示相比,“開源”的要求無疑更進(jìn)一步。2023年4月,推特公司聲稱,在互聯(lián)網(wǎng)上公開了其推薦算法的代碼。馬斯克強(qiáng)調(diào),這是為了“提升平臺(tái)的透明度、增強(qiáng)用戶、客戶和媒體的信任”。不過,研究人員細(xì)加研判后指出,其中的代碼并不詳盡,尤其是省略了至關(guān)重要的底層模型。推特公司回應(yīng)稱,這是為了“確保用戶的安全和隱私得到保護(hù)”,盡管描述底層模型結(jié)構(gòu)的代碼并不會(huì)包含任何用戶數(shù)據(jù)。
另一方面,正如微軟沒有開源其語音合成模型VALL-E,OpenAI沒有開源ChatGPT一樣,楊立昆作為一名主攻視覺的科學(xué)家,同樣沒有公開其最新力作“SAM”(Segment Anything Model,意即“分割一切”)的訓(xùn)練方法?;蛟S,楊立昆所使用的“長遠(yuǎn)來看”一語,正是在暗示“開源”之路的遙遙無期。
談?wù)摗伴_源”無法離開現(xiàn)實(shí)語境
作為一個(gè)“極客范”的術(shù)語,“開源”一詞正在不同領(lǐng)域流行起來。而塑造這一潮流的中堅(jiān)人物,仍然當(dāng)屬Richard Stallman和他的自由軟件基金會(huì)。圍繞二者的爭議不可謂不多,但其在倡導(dǎo)開源運(yùn)動(dòng)上的貢獻(xiàn),仍然是不可否定的。
但當(dāng)我們將目光稍加放寬,從計(jì)算機(jī)技術(shù)的發(fā)展史看,不難發(fā)現(xiàn),“開源”本是天經(jīng)地義之事。在計(jì)算機(jī)系統(tǒng)硬件架構(gòu)“百家爭鳴”的階段,各個(gè)機(jī)構(gòu)所擁有的計(jì)算機(jī)系統(tǒng),都存在不同程度的差別。為使程序能夠在不同系統(tǒng)上運(yùn)行,源代碼就成為交付軟件產(chǎn)品的必經(jīng)之路:只有提供了源代碼,身為專家的用戶才能解決他們?cè)谧约合到y(tǒng)上所遇到的問題。
但自上世紀(jì)70年代之后,硬件的標(biāo)準(zhǔn)化、個(gè)人電腦的普及,使得計(jì)算機(jī)產(chǎn)業(yè)發(fā)生了巨大變化。用戶不再是技術(shù)專家,而軟件產(chǎn)品則成為一門蓬勃興旺的生意。巨量的利益空間需要法律的庇護(hù)。1974-1981年間,美國確立了一系列與軟件相關(guān)的法律,確認(rèn)了軟件作品受著作權(quán)保護(hù),同時(shí)規(guī)定了適用專利的情形。在此背景下,1983年,IBM提出了“僅目標(biāo)代碼”(即只提供在計(jì)算機(jī)上可運(yùn)行的代碼,而非源代碼)的交付策略。自此,幾乎所有軟件公司都不再在交付軟件產(chǎn)品時(shí)提供源代碼。
“開源”運(yùn)動(dòng)的展開,某種程度上是對(duì)這一變化的抗議。同樣在1983年,Stallman開始專職從事自由軟件基金會(huì)的工作?;诒Wo(hù)軟件著作權(quán)的法律條文,自由軟件基金會(huì)創(chuàng)造性地提出了GPL許可協(xié)議,意圖使源代碼重新成為軟件交付中不可或缺的一部分。
如此看來,“開源”是在特定的技術(shù)和法律語境中產(chǎn)生的,并和這一語境息息相關(guān)。一旦脫離這段歷史事實(shí),將“開源”直接移置到其他領(lǐng)域,其結(jié)果或者是平凡無奇的,或者將意義不明。
同時(shí),僅僅倡導(dǎo)“開源”的理想,也不能自動(dòng)導(dǎo)向問題的解決。實(shí)際上,為使“開源”落地生根,開源項(xiàng)目普遍需要良好的組織管理。而如何維持一個(gè)團(tuán)隊(duì)的可持續(xù)運(yùn)作,向來也是一項(xiàng)困難重重的事業(yè)。一些過去作為大公司“恩惠”的開源項(xiàng)目,因?yàn)槔娴男枨蠖D(zhuǎn)為閉源,往往帶來巨大的連鎖反應(yīng)。
人工智能模型面臨類似的境況。它們通常只是軟件的一部分,模型的開源并沒有強(qiáng)力的要求,并且可以說,這一美好理想與研發(fā)機(jī)構(gòu)的利益從根本上相背離。很難想象,僅僅依靠一種“向善”的愿望,就能驅(qū)動(dòng)追逐回報(bào)的研發(fā)企業(yè)主動(dòng)選擇“開源”——或許,能使之走上開源之路的,恰恰是楊立昆所預(yù)先排除的監(jiān)管。
封閉的代碼,公開的思想
在楊立昆描繪人工智能“開源”前景的同時(shí),也有批評(píng)意見認(rèn)為,開源并不能真正解決人工智能技術(shù)所面臨的信任危機(jī)。打一個(gè)或有失恰當(dāng)?shù)谋确剑悍派湫缘奈kU(xiǎn)并不能因?yàn)樗伴_源”就會(huì)消失,如果一個(gè)社會(huì)中每個(gè)人都能使用放射性,這種危險(xiǎn)只會(huì)放大。這個(gè)比方并非天方夜譚——20世紀(jì)50年代,X射線的使用范圍從患者自己治療頭痛到用來為顧客挑選合適的鞋子。X射線在日常生活中的不當(dāng)應(yīng)用帶來了廣泛惡果,方才促使人們采取防護(hù)措施并制定操作規(guī)范。
楊立昆把“開源”作為一個(gè)解決方式加以提出,更加需要關(guān)注的是它背后所要回答的問題?!伴_源”之所以會(huì)有意義,是因?yàn)樗峁┝艘环N表達(dá)方式,為人們?cè)跇?gòu)建某種“向善”的人工智能模型過程中,提供了對(duì)于實(shí)際發(fā)生的技術(shù)過程的洞見。
但是,為了獲取這種洞見,源代碼或許并非不可替代。事實(shí)上,“開源”所強(qiáng)調(diào)的源代碼,本身只是一種傳達(dá)思想的手段。另一方面,對(duì)軟件代碼的保護(hù)并不延及表達(dá)方式(程序代碼)之上的思想、處理過程、操作方法或數(shù)學(xué)概念。
近年來,在一些關(guān)于“平臺(tái)經(jīng)濟(jì)”的研究中,出現(xiàn)了運(yùn)用算法描述解釋個(gè)體感知與系統(tǒng)行為的嘗試,有理有據(jù)地具體闡述了平臺(tái)方的價(jià)值訴求,是如何一步步嵌入程序的自動(dòng)控制之中的。這為理解人工智能技術(shù)在社會(huì)中的作用,提供了可取的途徑。對(duì)于公開算法細(xì)節(jié)的呼吁,則讓我們看到,推廣此類基于設(shè)計(jì)思想的批評(píng),仍然是有所希望的。
要真正達(dá)到類似層面對(duì)人工智能技術(shù)的理解,人們需要的既不是“遺漏”關(guān)鍵內(nèi)容的大量代碼,也不是籠統(tǒng)到只涉及輸入與輸出兩端的“描述”。相比出于種種原因而保持封閉的代碼,思想的公開,實(shí)際是更為重要的:對(duì)技術(shù)細(xì)節(jié)的理解主要不是面向代碼,而不外乎是“過程、方法和概念”。
當(dāng)然,這里所說的理解,并沒有涉及更深層面人工智能技術(shù)本身的可解釋性問題。不過,從公眾利益的角度,這一位于技術(shù)深處的可解釋性,或許也只是一種障眼法:畢竟,人們無需知道開槍時(shí)發(fā)生的一切物理過程,就能理解槍擊的危險(xiǎn),而槍支本身的設(shè)計(jì)也不構(gòu)成豁免的理由。同樣,如果人工智能模型給他人帶來了損害,關(guān)鍵仍然在于如何追究那些決定了它如何設(shè)計(jì)的人。如此,人工智能模型、算法、代碼等層出不窮的技術(shù)要素,才不至于成為一種又一種制造信息壁壘、逃避應(yīng)負(fù)責(zé)任的障眼法,而楊立昆借“開源”描繪的未來,才有可能真的到來。
來源:澎湃新聞2023-07-10
作者:朱恬驊,上海社會(huì)科學(xué)院文學(xué)研究所助理研究員,陳涵洋系獨(dú)立軟件開發(fā)者