(相關(guān)資料圖)
微軟德國(guó)公司的首席技術(shù)官安德烈亞斯·布勞恩透露,微軟將在下周推出GPT-4,它是一個(gè)多模態(tài)模型,可以處理文本、圖像、音頻和視頻。他表示,大型語(yǔ)言模型(LLM)已經(jīng)適用于幾乎所有語(yǔ)言,可以在一種語(yǔ)言中提出問(wèn)題,然后在另一種語(yǔ)言中得到答案。
此外,微軟的AI技術(shù)專家克萊門(mén)斯·希伯和霍爾格·肯恩提供了一些信息,其中肯恩解釋了多模態(tài)人工智能的概念,而希伯則提供了一些用例,包括將電話呼叫的語(yǔ)音直接記錄為文本等。微軟過(guò)去幾天發(fā)布了多模態(tài)語(yǔ)言大模型Kosmos-1和Visual ChatGPT的論文,希望將感知與LLM保持一致,讓單個(gè)AI模型既能看文字圖片,也能說(shuō)話。