人は、複数の会話が進行していてなおかつ騒音が多い場所でも、自分の聞き取りたい声を聞き取る能力がありますよね。
一般にカクテルパーティー効果と呼ばれています。
これをGoogleがディープラーニングで再現するという試み。
米Googleは4月11日(現地時間)、会話や騒音が多い中などの動画から、1人の人の声を分離するディープラーニングモデルについての論文「Looking to Listen at the Cocktail Party」を発表した。
サンプルの動画では、2人の男性がステージで同時に同じくらいの声量で話しているものを、一人ずつの声に切り分けて字幕をつけることに成功
サンプル動画が転載元の記事にありますので、よければ見てみてください。
動画の音源はステレオではなく、ディープラーニングモデルが音声を切り分けている。このモデルでは音声だけでなく映像が重要で、例えば人物の口が動き出したことを検出してどちらの声かを判断しているという。
モデルの構築のために、YouTube上の動画約10万本に人工的な雑音などを追加し、それらの動画で話している人の顔と音声を切り分けるという学習を繰り返させた。
この技術は動画のキャプション追加に役立ちそうだ。Googleは、将来的には同社の様々なサービスで利用していく計画としている。
------------------------------------------------------------------------
N2iでは、企業向け人工知能の受託開発や
人工知能を使ったビックデータ解析を行っています。
【ご相談・お問い合わせ】はこちら
------------------------------------------------------------------------