OpenAI於13日舉行線上發表會,推出新型人工智慧(AI)模型「GPT-4o」,能進行語言、文本和視覺推理,該模型不僅更聰明、更易於使用,且能評估使用者情緒,意味著其將更加像是真人。

OpenAI發表會於13日登場,由該公司技術總監穆拉蒂(Mira Murati)主持,揭曉了三項ChatGPT的更新,其一是一般用戶將可以免費造訪GPT Store,另外是推出適用於Mac電腦的桌機版App以及新模型「GPT-4o」。

其中尤以GPT-4o最為受到矚目,GPT-4o為GPT-4的進階版本,改進了GPT-4的能力,可透過文字、圖像、音訊的任意輸入組合來進行推理,並將即時生成文字、圖像、音訊的組合輸出內容,大大地改善了使用者體驗,讓對話更像與真人交談。

OpenAI執行長奧特曼(Sam Altman)更發文表示,與電腦交談從來沒有真正自然過,現在卻可以了。

穆拉蒂在演示時指出,相比於GPT-4 Turbo,GPT-4o的速度快了兩倍、成本降低了50%,而API速率限制、即用戶可發出的請求數量則提高了五倍。此外, GPT-4o最快可在232毫秒的時間內回應音訊輸入,而其平均反應時間也僅有320毫秒,與人類在對話中的反應時間相似。

在先前的GPT-3.5和GPT-4模型中,OpenAI使用三個獨立的模型實現對話,包含一個將音訊轉換為文字的模型、一個接收並輸出文字的模型,最後則是一個將文字轉換回音訊的模型,上述過程會使GPT失去大量訊息,因而無法直接觀察音調、多個說話者或背景噪音,亦無法輸出笑聲、歌唱或表達情感。

該公司在GPT-4o模型對此進行了調整,其所有輸入和輸出都由同一神經網路處理,因此延遲時間縮短,且能夠以自然、聽起來像人類的聲音進行對話,也能模仿機器人說話,甚至還能高歌一曲。

值得一提的是,新模型能依指令改變語調,擬人講睡前床邊故事,或以歌唱方式說故事。此外,該模型更可「聽聲翻譯」,穆拉蒂與Mark Chen分別以義大利文和英文交談,最後新模型成功將內容翻譯成更自語言,OpenAI團隊也展示新模型解決數學方程式、輔助編寫程式碼的能力。

OpenAI稱,GPT-4o為該公司第一個結合所有模式的版本,目前仍只在淺嚐並探索該模型的功能及局限性。

穆拉蒂在活動上宣布,GPT-4o模型將開放所有用戶免費使用,自今日起支援ChatGPT,一般用戶可免費使用,並針對付費用戶提供5倍的容量上限。未來幾周將會為ChatGPT Plus的用戶推出具新版語音模式的GPT-4o alpha版。

OpenAI本次發表會的另外一項更新是宣布增添桌面版ChatGPT App,將優先適用於Mac電腦,至於Windows電腦的版本則會於今年稍晚推出。此外,GPT Store將改為向一般用戶開放,不再僅限於付費用戶。

對於GPT-4o模型的問世,穆拉蒂除了感謝OpenAI專業團隊之外,更點名黃仁勳及輝達團隊提供的先進GPU,使GPT-4o模型演示成真。

#OpenAI #線上發表會 #ChatGPT #更新