2017年11月にGoogleの研究員であるジェフリー・ヒントン氏が、CNNの欠点を克服したという「カプセルネットワーク」(CapsNet)を発表しました。CapsNetがどのようなものか、オライリーの記事を読むとよくわかるようになっています。
これは興味深い記事でした。左下の写真から羊を検索しようとすると、どうしても集合のまとまりとして羊を認識していたものを、個別で見分けることが可能になるというものです。
考え方は簡単で、下の三角形と四角形で例をあげています。
三角形と四角形で表されるオブジェクトは家とボートです。
同じ図形を使っていますが、三角形の向きが違うことによって家に見えたりボートに見えたりするテクニックを使っています。
三角形と四角形の向きを関連づけて調べることによって、複雑な物体でも認識できるようになります。それが以下の家とボートが複雑にくっついた図です。
ぱっと見は、人間でも一瞬まよってしまう図形の組み合わせですが、三角形の向きと四角形の向きの関連性を見極めることによって、この図形は家とボートが組み合わさったものであることを識別することができました。
これがカプセルネットワークです。
シンプルなアイデアですが言われればなるほど!と納得してしまいますね。これで同じオブジェクトが集合体でてきても、瞬時に人間を数えたり車を数えたりできますね。