スプートニク日本
研究では人工知能の2つの分野を組み合わせることに成功。アルゴリズムはテキスト記述からイメージを生成する機械学習モデルと、生成されたイメージの信頼性を元のテキストを用いて判断するもう1つのモデルから成る。
2016年、同社は写真へのキャプションを付ける「CaptionBot」を開発したが、今回の開発は逆に機能する。テキストを基に絵を生成する。これはより一層困難だという。
絵を描くためにはキャプションの大まかな意味を理解するだけでなく、個々のディティールに注意を向ける必要がある。マイクロソフトのブログには、「注意は人間の概念です。私たちは注意の数学的モデルを構築しました」とある。ニューラル・ネットワークはテキストを個々の単語に分割し、それを具体的な画像の分野と突き合わせる。
ニューラル・ネットワークはまた、いわゆる「常識」を再現する。例えば、以前学習した画像に依拠して、テキストに別の指定がない限り、指定しなくても枝にとまる鳥を描写する。
関連ニュース