作者|James
Hello各位打工人!現在相信有一個問題非常困擾大家:
今天到底星期幾?
踏入連休之後的7天班,不論是早上被設定的好多個鬧鐘群毆,還是假裝在電腦前聚精會神,心思卻跑到了九霄雲外。
上面這些由藤子·不二雄、鳥山明等日本泰斗級漫畫家帶來的畫作,肯定都能充分描繪你的現狀吧。
——哦,有一點我說錯了,上面這幾幅畫並不是由那些漫畫家本人畫出來的。創作它們的是內置了DALL-E 3的ChatGPT Plus。
雖然不是為了給祖國母親生日獻禮,但OpenAI確實是在剛剛過去的長假裡面,對Plus用戶灰度開放了下列新功能:
用必應搜索的能力,此前因效果不佳臨時下線,此番重新恢復;
默認模式允許上傳圖片,並且識別圖片內容;
加入了DALL-E 3文生圖模式。
其中,DALL-E 3還沒有普及到所有ChatGPT Plus訂戶中,不過娛樂資本論·視智未來手中的帳號已經是開通了上述所有能力的「完全體」了。
有的Plus用戶雖然續了費,但是並不能見到上面所有這些功能。此時,閱讀我們下面這篇簡單的介紹和上手指南就非常重要了。
可以說,這裡面每一個能力都是這大半年以來ChatGPT的用戶們期待已久的。但是它們實際上的效果如何,是否可以真正融入我們的日常工作流當中,又會不會對市場上的競品構成重大的威脅呢?
娛樂資本論·視智未來一向是各位文娛、內容產業讀者的貼心小夥伴,不論是科普,評測還是培訓,我們始終堅持一個原則:就像在實際的生產過程一樣來測試和使用AI工具,而不是單純追求讓它「炫技」。
是騾子是馬,我們現在就拉出來遛遛。
VOL.1
必應搜索
在進入大家都很關心的圖像能力之前,先來看下恢復上線的必應聯網模塊。
上個月,娛樂資本論·視智未來剛剛完成了第二輪文本大模型實用場景橫評。讀者們應該記得,在那次測試中,GPT-4不聯網時的表現依然穩定,然而當它使用VoxScript等插件聯網時,效果卻比一些國產大模型的表現還要差。
我們也分析了相關的原因,主要是官方與必應合作的聯網插件不能使用時,其他第三方插件的表現不穩定,而且參差不齊。
這次官方聯網的回歸,讓我們期望它會有比以前更好的表現,但實際上並沒有好太多,很難稱得上提供了全面和準確的答案。
而且,與使用插件聯網不同,這裡不再允許你查看它在回答問題時具體訪問了哪些網站。所以,結果不理想時也無法找出原因。
當然,GPT支持更長的提示詞和答案生成,而必應只支持幾百個字的短答案,但聯網還會占用GPT-4每3個小時50次的限額。所以有時你在必應官網用AI搜索,效果可能更好一些。
所以就是這樣,讓我們趕緊進入下面的重頭戲。
VOL.2
DALL-E 3繪圖
現在我們可以回顧一下本文開頭的三張圖。
這三張圖的最終效果都非常出色,可以說在這次更新之前,所有的文生圖工具中,只有Midjourney能夠達到這種水平。當然我們一直認為競爭對手達到MJ的高度是遲早的事情,但DALL-E 3的出現比我們想像的早得多。
當然,在ChatGPT中引入圖片生成,最大的改進不僅在於生成的效果,還在於生成的過程。
我們知道與文字相比,無論是SD還是MJ的提示詞,都更不能隨便寫,它們有更多規則、格式乃至「咒語」的要求,在生成圖片時起到了重要作用。像我們的AIGC大師課中就指出,有些繪畫風格、藝術家名稱、效果光線等都需要指定,而這些詞彙所醞釀出的結果就像煉丹一樣。
在如今的ChatGPT裡面,這些已經是過去的事情了。我們現在所使用的方法,會更接近要求一位人類畫師去做事,說的話也更接近自然語言,GPT-4承擔了轉譯的工作。
ChatGPT會根據用戶的需求,一次提供四個不同的真·提示詞,並將它們導入DALL-E中生成四張不同的圖片。這比單一提示詞生成四種變體更完善,還可以指定其中一張繼續進行微調,儘管效果不一定如人意。
讓我們來回顧文章開頭的畫作是怎樣生成的。
首先,當我們看到一張梗圖很有趣,於是想自己畫一張的時候,這是非常常見的使用場景。
不過,在DALL-E 3之前,我們似乎難以想像除了Midjourney還有什麼文生圖工具可以出來比較好的效果。
點開可以發現,每一張圖的prompt都各不相同。
儘管AI作圖嵌字問題還是沒完全解決,但你可以看出跟之前版本相比有了巨大的進步。此時我們甚至可以只用Windows自帶的「畫圖」來給它加上適當的字體。
其它圖片也類似:
很顯然,如果我們想使用傳統文生圖方法,生成提示詞是需要我們自己動腦的事情,但現在GPT已經承擔了這個重任。當你點擊具體的圖片時,可以看到它使用了哪些提示詞,並將其複製下來。在生成結果出現問題時,也可以通過分析提示詞構成來發現問題所在,以及是否有可能改進。
由於成圖的完成度非常高,圖像裁切不需要的部分,以及往裡面嵌字,甚至只需要使用Windows自帶的畫圖就可以完成。
在下面的測試中,我們發現,如果你的指令非常簡單,ChatGPT生成的作品或許有一些對東亞文化元素的刻板印象和挪用。例如:
請創作一幅中國慶祝三·八國際勞動婦女節的海報。主題是:「巾幗築夢心向黨,強國復興勇擔當」,但不需要在海報中出現文字。
接下來,我們嘗試用必應搜索給我們總結,怎樣優化提示詞,讓生成效果更貼近我們的需要。
儘管如此,如果你直接讓ChatGPT改圖,它依然大機率不會按照你的要求直接改動,這反映了DALL-E 3在識別prompt方面的局限。
如果你點開它更改過的prompt,就會發現不是提示詞的問題,GPT實際上已經盡力了。所以,一次生成的圖最好還是由人工在後期改動。
oil painting of a modern Shanghai ballerina, gracefully posing in front of iconic landmarks near the Bund. In the background, there's a plain red flag without any emblems, stars, or symbols, fluttering in the wind. The scene is dominated by red and gold hues, and a clear space at the bottom is reserved for potential text.
即使如此,我們也已經得到了幾張最終效果很好的圖片。
上述試用過程代表了一個總體趨勢,即prompt微調的作用大大降低,我們文生圖給AI下的指令將會越來越接近自然語言。
VOL.3
GPT-4 識圖
另一個最受歡迎的ChatGPT新功能,當然就是識別圖片的含義。
在一些近期的測試中,GPT-4是可以讀出一些幽默或者寓言故事中的潛台詞,分析畫面當中人物的心理和情緒。當然,這些都是重大的突破,但總體來說還是屬於「常規動作」。
我們想看看它還能不能做更好玩的事情--比如看X光片。
醫學影像行業是不是要被替代掉了?實際結果遠遠沒有這麼樂觀。
我給了GPT一張有問題的X光片(這裡不放原圖,因為那是我自己的X光片),人類醫生可以看到一顆劈裂牙和右下頜骨的一塊含牙囊腫,但GPT並沒有識別出任何問題。
回頭看一下上面那張網圖,它的問題是一樣的,它知道這是牙片,但除此之外就沒有然後了,它傾向於對看不出來、不確定的東西報喜不報憂,這點倒是跟「百度一下,我覺得我快掛了」完全相反。
看來,影像科室里看片的人類,目前還可以繼續高枕無憂。
在不這麼嚴肅的問題上,比如翻譯一個外文廣告牌,是可以勝任的。你可以將這個結果跟Jina.AI的同款產品做個對比。
翻譯確實是ChatGPT的長項,圖片識別更是讓這一長處如虎添翼。不過,它具體勝任到什麼程度,又取決於它基礎知識的積累,在不那麼熟悉的領域,比如翻譯維吾爾文,照樣「一本正經地胡說八道」。
接下來的測試在效果上可謂非常驚艷。我們在一個設計師常用的網站Dribbble上找了一些網頁和APP的效果圖,然後讓它直接生成一個在瀏覽器中真的能打開的網頁代碼。
它完成了這個任務--非常出色。
雖然沒有完全復刻效果圖,但如果我完全不會前端代碼,又想從零開始做,那麼它已經能讓我做出一個可用的東西。甚至因為它的實現與效果圖中細微的區別,還可以說它給原作「洗稿」了。這可能是運用GPT的發散思維能力的一個最佳案例。
經過4-5次提示詞調整後,成品如下:
可以說,動嘴修改的成功率遠高於之前預想,而且再怎麼說,也比不斷微調代碼要簡單多了。這樣一來,各位文字工作者們可以用前所未有的簡單方法,來試著搭建自己的作品集或個人網站。
VOL.4
誰要慌了?
回頭再看一看我們所做過的這些測試:
不需要懂英文,就可以用自然語言讓DALL-E 3作畫,效果逼近Midjourney;
可以識圖、在熱門語言之間翻譯圖像內容;
將一個畫出來的介面圖轉換為真正的網頁,不會前端技術也可以設計自己的網站……
這些進化,給人最大的感受就是意料之外,情理之中。仔細一思考就會發現,這些功能只是對原本GPT-4基礎能力的巧妙運用,將原本相互分離的不同模態結合在一起,就化腐朽為神奇了。
在識圖和繪圖時,GPT仍然會瞎編,因此仍然需要你的專業知識來補充那些它不掌握的領域,做事實核查,並決定如何剪裁和應用它的回答。
這進一步強化了我們對GPT的理解,它是一個為現有從業者提供的工具,可以增強你現有的能力,但不能自主產生知識,只能根據你的思路進行操作。
ChatGPT不會取代我們的大多數讀者,但是會更好地幫助我們。但是,當然也會有人看到這些進步之後感受到真實的恐慌。
「
1
比如我們一直在對比的Midjourney本尊:對於普通用戶,既然手頭已經有一個效果上與MJ相差不多的工具,數量又幾乎沒有限制,還不用額外掏錢,那為什麼還要再買MidJourney呢?這種搭配組合將用戶更深度地綁定在OpenAI的體系內,也讓GPT每月20美元的月費變得越來越物超所值。
「
2
比如各種國產大模型的開發者:作圖精度,語義理解這些,目前ChatGPT都是幾個最強的合在一起,讓GPT與國產大模型之間的差距似乎成了更加難以逾越的天塹。但是,開源領域仍然可以繼續追趕,類似於LLaMa的圖片應用LLaVA也出現了。
「
3
比如第三方整合各家服務的開發者們,可能需要重新思考自己的開發方向。例如,趁著不是所有大模型都有多模態的空當,可以在第三方應用中被智能地調用最適合的模型,以執行相關任務。這樣,用戶將能夠使用各個領域中的最優解,我們之前採訪過的Jina就是正在做這樣的工作。
我們期待第一方或者第三方服務,可以將現有分散在不同模態上的能力真正的組合起來,而不是說互相獨立地放置。
ChatGPT的進步說明,Openai或MJ樹立起來的壁壘並不是絕對無法攻破的,只是後來者需要花費幾個月、半年或一年的時間差來趕超。對於後來者來說,堅持下去而不倒閉,可能就是勝利的關鍵。