當(dāng)前位置:首頁>時尚>關(guān)于ai你不知道的事ai大會告訴你(我和AI一起完成了這篇文章)
發(fā)布時間:2024-09-02閱讀(17)
大部分文藝工作者,比如寫字的,畫畫的,作曲的,失業(yè)風(fēng)險都在攀升——本文所有插圖均由 AI 創(chuàng)作。但文字是我自己寫的,如假包換。
最近 Open AI 的 Dall-E 2 創(chuàng)造的一系列精美畫作,以及結(jié)合微軟 Florence 和 OpenAI GPT-3 模型寫出來的文本,都證明了 AI 有時候看著是比人強(qiáng)。今年叫 AI 文藝創(chuàng)作元年也不過分,通過給定的文字或圖像, AI 能產(chǎn)出超乎想象、大膽有趣又合情合理的作品,確實不乏「劃時代」的意義。

▲Dall-E 2 制作的宇航員太空驅(qū)馬圖
這些進(jìn)展建立在巨大的「基石模型」基礎(chǔ)之上,令 AI 擁有了創(chuàng)造者不曾預(yù)見的能力。過去的人工智能模型,帶著手工作坊式的「粗糙」。通過長期的調(diào)整,「基石模型」的潛在能力已經(jīng)成為肉眼可見的發(fā)展趨勢。
人工智能要進(jìn)入工業(yè)大生產(chǎn)時代了。
大模型,下崗工人制造機(jī)5 月份出了 beta 版的 AI 繪圖工具 Midjourney ,連雜志《經(jīng)濟(jì)學(xué)人》也忍不住「嘗鮮」。Midjourney 為《經(jīng)濟(jì)學(xué)人》報道畫的插圖,看起來靈氣十足,具有強(qiáng)烈的現(xiàn)代主義風(fēng)格——別忘了,畫面可是基于非常抽象的概念生成的,畢竟文章內(nèi)容不是「一位女人抱著一只貓」這種具體記敘。

▲Midjourney 為《經(jīng)濟(jì)學(xué)人》報道畫的插圖
Midjourney 其中一位開發(fā)者,就是研發(fā) YouTuber Quick-Eyed Sky 的 Disco Diffusion 的創(chuàng)作者 Somnai ,這些應(yīng)用都屬于「你說我畫」,或者叫輸入關(guān)鍵詞就出圖。Disco Diffusion 非常火爆,但相比 DALL-E 和 Midjourney 就略帶「門檻」,要自己調(diào)代碼,調(diào)參數(shù),目前更火爆的應(yīng)用都是「傻瓜」型的,寫點文字就行。

▲ Somnai 用 Disco Diffusion 制作的視頻
玩「你說我畫」會上癮。Twitter 上的馬斯克、特朗普、斯嘉麗·約翰遜以及瑪麗蓮·夢露都要被「玩壞了」,個個都有「猛鬼街」的造型。國內(nèi)滴墨社區(qū)兒童節(jié)上線的「Domo 大畫家」,在我刻意「刁難」的情況下,給出的畫面還是饒有趣味。

▲我讓 Domo 畫了 2008 年諾貝爾經(jīng)濟(jì)學(xué)獎得主保羅·克魯格曼的一句話,“在市場經(jīng)濟(jì)下,你的支出就是我的收入”
輸出的作品效果如何,完全取決于 AI 模型。而打造 AI 模型,相當(dāng)于豪華軍備競賽。
目前拿得出手的「基石模型」,有 OpenAI 的 GPT-3 ,參數(shù)接近 2000 億,耗資超過 1000 萬美元;谷歌的 Switch Transformer ,參數(shù)超過 GPT-3 ;微軟和英偉達(dá)有 MT-NLG 模型,參數(shù)超 5000 億;華為盤古大模型,定位中文語言預(yù)訓(xùn)練模型,參數(shù)規(guī)模也達(dá)到千億級別。
2020 年 GPT-3 剛「誕生」的時候,就得名「下崗工人制造機(jī)」。其輕松通過了人工智能屆的底線試探——「圖靈測試」,所有問題對答如流。基于 GPT-3 模型開發(fā)出來的文字、翻譯、設(shè)計、計算等應(yīng)用,都能頂替人類的操作。
甚至有個人想讓 GPT-3 寫篇「論刷 Twitter 的重要性」的小論文,GPT-3 都給他寫得流暢自然,還用上了寫作者的高階操作「春秋筆法」,也就是陰陽怪氣。它說 Twitter 是「所有人都使用的、充斥著人身攻擊的社交軟件」。

▲拿到這張《草地上的午餐》(莫奈)的原圖,Dall-E 2 會據(jù)此創(chuàng)作出多張風(fēng)格類似、細(xì)節(jié)不同的畫面

▲《草地上的午餐》之 AI 再創(chuàng)作,理論上可以有無限幅
基石模型的優(yōu)點明顯。一是參數(shù)大、訓(xùn)練數(shù)據(jù)量大,不僅不會邊際效益遞減,反而極大地提高了 AI 自身的能力和運算突破性。二是使用的小樣本學(xué)習(xí)方法, AI 不用一遍遍「從頭開始學(xué)」,可以碎片化選取自己需要的數(shù)據(jù)來自動執(zhí)行。
基石模型就相當(dāng)于「通用技術(shù)」。1990 年代,經(jīng)濟(jì)歷史學(xué)家將「通用技術(shù)」比如蒸汽機(jī)、印刷機(jī)、電動機(jī)等,視為推動生產(chǎn)力長期發(fā)展的關(guān)鍵因素。「通用技術(shù)」包含核心技術(shù)快速迭代、跨部門的廣泛適用性和溢出效應(yīng)等特征,從而刺激產(chǎn)品、服務(wù)和商業(yè)模式不斷創(chuàng)新。
今天的基石模型,已然具備了同樣的特點。
神經(jīng)網(wǎng)絡(luò) 自我監(jiān)督學(xué)習(xí),神乎其技當(dāng)下,超過 80% 的人工智能研究都集中在基石模型上。像特斯拉也在構(gòu)建一個龐大的基石模型,為自動駕駛服務(wù)。
要理解斯坦福大學(xué)人工智能研究院院長李飛飛所說的「人工智能階段性的變化」,就要知道基石模型和過去的人工智能模型有何不同。
如今所有的機(jī)器學(xué)習(xí)模型都立足于「神經(jīng)網(wǎng)絡(luò)」——模仿腦細(xì)胞相互作用方式的編程上。它們的參數(shù)描述了虛擬神經(jīng)元之間連接的權(quán)重,模型通過反復(fù)試驗權(quán)重,被「訓(xùn)練」到能夠輸出開發(fā)者想要得到的特定內(nèi)容。

▲Dall-E 和 Dall-E 2 的清晰度對比
過去幾十年里,神經(jīng)網(wǎng)絡(luò)都處于實驗階段,沒什么能落地的。直到 2000 年代末、2010 年代初,超級計算機(jī)算力增強(qiáng),互聯(lián)網(wǎng)提供了足夠多的訓(xùn)練數(shù)據(jù),在硬件和數(shù)據(jù)的加持下,神經(jīng)網(wǎng)絡(luò)才開始完成文本翻譯、語音指令解釋、不同圖片中識別同一張臉等此前「不可能完成的任務(wù)」。
特別到了 2010 年代,機(jī)器學(xué)習(xí)和礦機(jī)一樣也用起了 GPU 。GPU 的特點是,有上千顆流處理器,可以進(jìn)行大量且重復(fù)的一般運算,而且還不貴,比啟動一次超級計算機(jī)便宜太多了。
突破出現(xiàn)在 2017 年。當(dāng)時谷歌的 BERT 模型使用了新型架構(gòu),不再按「慣例」、依照順序處理數(shù)據(jù),而是采用了同時「查看」所有數(shù)據(jù)的機(jī)制。
具體來說,就是 BERT 一類的模型,沒有用預(yù)先標(biāo)記的數(shù)據(jù)庫訓(xùn)練,用的是「自我監(jiān)督學(xué)習(xí)」技術(shù)。當(dāng)模型在無數(shù)的字節(jié)中挖掘時,能自己找到隱藏的單詞,或者根據(jù)上下文猜測意思——和我們從小到大做的考試題特別像!整個新方法非常接近人類大腦的學(xué)習(xí)機(jī)制,掃一眼就能找到自己感興趣的東西,不用逐字逐句地去處理、消化。

▲Dall-E 2 在左圖的基礎(chǔ)上,添加了一只粉色橡皮鴨(毫無 PS 痕跡)
經(jīng)過數(shù)十億次的猜測-比較-改進(jìn)-猜測的循環(huán)后,模型一般都能妙筆生花、才華過人。
不僅限于文字,神經(jīng)網(wǎng)絡(luò)和自我監(jiān)督學(xué)習(xí)技術(shù)均可以應(yīng)用在語言文字之外,包括圖片、視頻甚至大分子數(shù)據(jù)庫等等。像 DALL-E 圖形模型,猜測的不是下一個字母組合,而是下一個像素簇。
在大模型基礎(chǔ)上開發(fā)的應(yīng)用也是花樣繁多。除了上文提到的一系列文藝創(chuàng)作類應(yīng)用,谷歌旗下的 DeepMind 推出了 Gato ,可以玩視頻游戲、控制機(jī)械臂和寫作。Meta 的「世界模型」貌似要擱淺,本來是打算為元宇宙提供背景的。
酷東西或圖靈陷阱基石模型的繁榮,對芯片制造商肯定是好消息。積極參與制造基石模型的英偉達(dá),已經(jīng)是世界上最有價值的半導(dǎo)體設(shè)計商之一,市值為 4680 億美元。
初創(chuàng)公司也有望借此大展身手。Birch AI 會自動記錄與醫(yī)療保健相關(guān)的呼叫電話;Viable 會用它來篩選客戶反饋;Fable Studio 用 AI 創(chuàng)作互動故事;在 Elicit 上,人們可以靠 AI 工具從學(xué)術(shù)論文中找到自己研究的問題。

▲Midjourney 采用了拼貼風(fēng)
大公司也有大公司的玩法。IBM 的相關(guān)負(fù)責(zé)人表示,基石模型可以分析海量的企業(yè)數(shù)據(jù),甚至從車間傳感器讀數(shù)中找到消耗成本的蛛絲馬跡。埃森哲公司人工智能項目的負(fù)責(zé)人預(yù)測「工業(yè)基石模型」即將興起,為銀行、汽車制造商等傳統(tǒng)客戶提供更加精準(zhǔn)的分析服務(wù)。
雖然前景一片光明,AI 作畫也激發(fā)了大眾的熱情,但不少研究者還是建議「后退一步」。有人認(rèn)為,大模型依賴的大數(shù)據(jù),并不是完全發(fā)揮了作用,一部分只是在「隨機(jī)重復(fù)」;同時一些帶有偏見的問題會引發(fā)模型的「幻覺」。去年年初,GPT-3 在回答完形填空題「兩個 XXX(宗教人士)走進(jìn)了……」時,有高于 60% 的概率填寫「穆斯林」。
在「滴墨社區(qū)」刷「Domo 大畫家」的動態(tài)時,首頁偶爾也會看到有用戶給 AI 發(fā)出不雅指令,CEO 林澤浩告訴愛范兒記者,一般后臺關(guān)鍵詞篩選和人工篩選會同時進(jìn)行,保證社區(qū)的健康運轉(zhuǎn)。Dall-E 2 等 AI 作畫工具也面臨同樣的困境——和之前微軟小冰「口吐芬芳」同命相憐。

▲女人與貓,這一張 Midjourney 用了哪位著名畫家的風(fēng)格?請在評論區(qū)留言,答對有獎
斯坦福大學(xué)經(jīng)濟(jì)學(xué)家 Erik Brynjolfsson 擔(dān)心,對擁有類人能力的大模型的集體癡迷,很容易把整個社會帶進(jìn)「圖靈陷阱」。計算機(jī)做到了很多人類做不到的事情,如今也做到了人類能做到的事情——還比人類做得好,越來越多的人失去工作,財富和權(quán)力會更加集中,不平等逐漸加大。
他的擔(dān)心也有道理。大模型耗資巨大,一般人也投資不起,背后的支撐者,不是科技巨頭,就是國家。基石模型會成為一系列服務(wù)的基礎(chǔ)平臺,而平臺也有「馬太效應(yīng)」:贏家通吃,就算沒全吃掉,也給別人留不下什么了。

▲網(wǎng)友利用 Midjourney 創(chuàng)作的畫面,科幻風(fēng)格十足
藝術(shù)家們是真心喜愛這些「酷東西」的。英國作曲家 Reeps One(Harry Yeff)就給模型喂了幾小時的節(jié)拍器節(jié)奏,該模型學(xué)完后能對他的聲音做出節(jié)奏化的反應(yīng)。他預(yù)測「許多藝術(shù)家會使用這個工具來更好地完成自己的工作」。
作為一名記者,我也真心喜愛「科大訊飛」的語音轉(zhuǎn)錄應(yīng)用。在過去,整理兩小時的人物訪談錄音,足以令一個心智健康的成年人當(dāng)場崩潰。如今只需要坐等軟件出一個文本文檔即可,不能直接拿來當(dāng)「對話」,但當(dāng)素材看完全夠了。
最近我也在研究如何使用 GPT-3 來訓(xùn)練自己的寫作模型。說不定,下個星期四「近未來」欄目,就是我的 AI 寫的。
歡迎分享轉(zhuǎn)載→http://www.avcorse.com/read-396389.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖