微軟研發(fā)繪圖機器人根據(jù)文字描述畫出相應圖像

2018-01-22 15:33:05 來源：網(wǎng)易智能工作室

微軟近日推出了一項新的模仿類似藝術家的人工智能技術—一個“繪圖機器人”。機器人能夠根據(jù)文字描述創(chuàng)建一個與之相對應的圖像，而且它也增加了細節(jié)，這些細節(jié)甚至超越了本身而不僅僅在所對應的文字里出現(xiàn)的內容。“這些現(xiàn)象可以說明，人工智能具有自己的想象力”，一名在微軟公司的工作人員說道。

“如果你在必應引擎去搜索關于一只鳥的信息，你會得到一個與鳥類相關的圖片。但是在這里，圖片是由計算機逐個像素地從頭開始創(chuàng)建的，“微軟公司在華盛頓州雷蒙德市微軟研究實驗室深度學習技術中心的首席研究員兼研究經(jīng)理何曉東在微軟最近的一篇公告中表示。 “這些鳥可能在現(xiàn)實世界中都不存在，而它們只是代表了我們研發(fā)的人工智能對鳥類想象力的一個方面的描述。”

研究人員說，機器人能夠生成各種圖像，包括從“普通的田園場景”，如放牧家畜，甚至包括對“浮動雙層巴士”的想象圖。

微軟方面表示，該機器人已經(jīng)在配對圖像和標題的數(shù)據(jù)集上進行了培訓，該培訓能夠使其理解如何將相應的單詞與圖像進行匹配。例如，當標題上寫著“鳥”時，它先學會畫一只鳥，然后通過機器學習來理解鳥的圖像應該是什么樣的。

何曉東說：“這是我們相信機器可以學習的根本原因之一。”

繪圖機器人的技術由兩個機器學習模型組成，一個是從文本描述生成圖像，另一個是使用文本描述來判斷生成圖像的真實性。前者試圖從后者獲得虛擬的照片，但后者不想被愚弄。所以通過互相之間內部的“競爭”，兩者結合起來便能夠共同創(chuàng)造更高質量的圖像。

它尤其擅長從更復雜的句子中繪制圖像，而其他技術可能會從標有“鳥”的標題中畫出一只鳥，例如，如果您要求它畫一只綠色的皇冠，黃色的翅膀和紅色的肚皮，那么質量就會下降。在微軟研發(fā)該項技術之前，一般的結果便是生成一個模糊的“綠黃色微紅的鳥”，微軟的工作人員解釋說。

尤其有趣的是，當沒有提到具體的細節(jié)時，機器人如何填補信息空白。事實就是，基本上，由于其能夠記憶訓練數(shù)據(jù)，它會擁有一點自己的常識來發(fā)展想象力。在搜索鳥類的這個例子中，即使沒有在文本中說明，機器人通常會畫一只坐在樹枝上的鳥，因為最初賦予它進行學習記憶的圖像通常顯示類似的東西。

根據(jù)最近的一篇研究報告，微軟方面還指出，與現(xiàn)有技術相比，這種新型機器人生成的圖像質量相較以前提升了近三倍。

當然，這不是第一個研發(fā)出來的與藝術相結合的人工智能技術。

這兩者結合有時會產生出色的結果，比如Google的人工智能機器生成的圖像展現(xiàn)了其具有藝術表現(xiàn)力的潛能。谷歌還有一個神經(jīng)網(wǎng)絡，可以猜測你正在繪制什么，他們還擁有一個自動繪圖機器人，并定期地詳細介紹它如何在幫助機器進行繪制的研究。

Facebook也一直在開發(fā)神經(jīng)網(wǎng)絡來制作飛機，汽車和動物等小圖片，甚至用它從照片中創(chuàng)建自己的Bitmoji形象。

對于微軟來說，教一個機器人根據(jù)文本來畫出相對應的圖像這項技術代表著它已經(jīng)達到了在這個計算機視覺和自然語言處理領域所需要的技術。

這包括CaptionBot的自動寫入照片字幕的開發(fā)，以及可以回答人們詢問圖像的問題的技術，如圖中對象的位置或屬性，這是對盲人有幫助的事物。