技術(shù)
導(dǎo)讀:英偉達(dá)表示,該公司新發(fā)布的 GauGAN2 演示是“第一個(gè)在單個(gè) GAN 框架內(nèi)結(jié)合多種模式(文本、語義分割、草圖和樣式)”。
英偉達(dá)推出了其 GauGAN 模型的更新版本 GauGAN2。
GauGAN 是一個(gè) Microsoft Paint 風(fēng)格的平臺(tái),可以讓用戶創(chuàng)建風(fēng)景圖像,然后模型能夠?qū)⑺鼈冝D(zhuǎn)換為逼真的圖像。
新的 GauGAN2 可以僅使用文本生成圖像。
用戶可以輸入“冬天”、“有霧”或“彩虹”等短語,人工智能模型可以生成與所需描述符匹配的圖像。
“只需按一下按鈕,用戶就可以生成分割圖,這是一種顯示場(chǎng)景中物體位置的高級(jí)輪廓,”根據(jù) Nvidia 的公告。
“從那里,他們可以切換到繪圖,使用天空、樹木、巖石和河流等標(biāo)簽通過粗略的草圖調(diào)整場(chǎng)景,讓智能畫筆將這些涂鴉融入令人驚嘆的圖像中?!?/p>
最初的 GauGAN 可以追溯到 2019 年。它是在 Flickr 平臺(tái)上的公共圖像上進(jìn)行訓(xùn)練的。
第一個(gè)版本只接受了超過 100 萬張圖片的訓(xùn)練。然而,GauGAN2 接受了 10 倍的訓(xùn)練,并且可以理解與景觀相關(guān)的自然語言描述。
GauGAN 的第一次迭代被重新打包為 Nvidia Canvas,這是一款適用于任何 RTX GPU 用戶的測(cè)試版免費(fèi)應(yīng)用程序。
英偉達(dá)表示,該公司新發(fā)布的 GauGAN2 演示是“第一個(gè)在單個(gè) GAN 框架內(nèi)結(jié)合多種模式(文本、語義分割、草圖和樣式)”。
“這使得將藝術(shù)家的愿景變成高質(zhì)量的 AI 生成圖像變得更快、更容易。”
該公告沒有提及任何商業(yè)化計(jì)劃,也沒有提及它是否會(huì)與 Canvas 集成,并表示該演示“為藝術(shù)家展示了強(qiáng)大的圖像生成工具的未來可能性”。
英偉達(dá)的 GauGAN2 是在其最近的 GTC 活動(dòng)中無數(shù)次揭幕后不久推出的。
在那里,它展示了 Jetson AGX Orin,一個(gè)用于 AI 工作負(fù)載的小而強(qiáng)大的計(jì)算模塊,Riva Custom Voice,一個(gè)可以創(chuàng)建“類人”語音的軟件平臺(tái),以及 Omniverse Avatar,一個(gè)創(chuàng)建交互式 3D 表示的平臺(tái)人。