10億回の対戦をさせて自ら戦略を編み出していくOpenAIの「RoboSumo」がスゴい。

f:id:n2i-t:20171117103509p:plain

OpenAIの実験では、単純なヒューマノイドロボットが歩く方法さえ知らずにアリーナに入りました。彼らには、試行錯誤を通して学ぶ能力と、移動することを学び、相手を打ち負かすという目標を備えていました。

f:id:n2i-t:20171117104334p:plain

ロボットは自分自身をより安定させるためリングから落ちる相手を騙すなどの戦略を策定しました。研究者は、試合中に戦略を適応させるための新しい学習アルゴリズムを開発し、対戦相手が戦術を変えることができる時期を予測することさえ可能にしました。

f:id:n2i-t:20171117103747p:plain

OpenAIのこれらの開発にイーロン・マスク氏が投資しているなど、注目の集まる開発であることは間違いない。

それにしても歩くこともできない人工知能が、相手を倒すための戦略を学んで学習していくとはなんともすごい。驚くことは、い合って複雑性が増すことにより、学習の進捗を早めることができる可能性があると考えていること。

強化学習ソフトウェアにさらに複雑な問題を与えて自力で解決させるよりも、そのほうが効果的なのだという。

今回の記事は、この点が非常に興味深い内容だった。

www.youtube.com