大阪電気通信大学

座談会の生放送で話者別にリアルタイムで字幕を作成するための音源分離法と話者分析法の検討

研究目的

 たくさんの人が同時に話すような環境で、それぞれの話している内容を字幕に起こす方法について検討しました。また誰の声かを判別できれば、話している人の注釈や字幕のフォントなどを変更できると考えて、声を判別する手法の検討も行いました。

研究内容

 たくさんの音が入った音声からそれぞれの音を取り出す技術を音源分離と言います。この研究では[1]を参考に、2台のスマートフォンから読み上げの音声を流して録音したものを使用し、既存の3種類の音源分離手法の性能の比較を行いました。比較方法は、元の音声の台本と分離した音声を文字起こししものを比較したときの文字数の一致率です。文字起こしのツールはlineクローバノート[2]になります。

 また、声から話している人を当てる分析を話者分析といいます。この研究では、2種類の既存の分析手法と機械学習に用いる音声の加工方法3種類を、組み合わせたものを的中率で比較する。

音源分離の3種類の手法

  • 遅延和アレイDSBF

 マイクに届くまでの時間差の遅延を与えることで同相化し,それらを加算することで強調する。

 分離できる音源の数はマイクの数以下。

  • MVDR(最小分散無歪)

 目的方位以外の音源のパワーを最小化を行う。

 分離できる音源の数はマイクの数以下。

  • 音のスパース性に基づく分析

 マイクからみて左右の方向ごとに音源を分離。

 時間周波数ごとに支配的な音声が一つであると仮定する。

話者分析の手法と加工方法

  • LPC分析
    • 声道を音響管を組み合わせたものとして特徴量を抽出する。
  • MFCC分析
    • 人間の聴覚特性を考慮した分析を行う。
  • 編集なし
    • 音声を編集せずに用いる
  • 圧縮データ
    • 音量の低い部分を削除する
  • 時分割
    • 2秒ごとに分割

結果

  • 音源分離

音のスパース性に基づく分析が最も正答率が高位という結果になりました。

 左から桃太郎、右から浦島太郎を流して録音した音声を「スパース性に基づく音源分離」を行い、それぞれ文字起こししたものです。脱字や文字の誤変換は、正しく認識されなかったものです。

文字起こし1:スパース性 左側の音声(桃太郎)

桃太郎昔、昔あるところにおじいさんとおばあさんが住んでいました。おいさんは、山へしばかりに、 おばあさんは川へ洗濯に行きました すると、大きなが流れてきました。なんと大きな桃ジャロ家に持って帰ろう
と、おばあさんは背中に担いで帰っていきました。

桃を切ろうとすると、桃から大きな赤ん坊が出てきました。
おっとたまげた2人は驚いたけれどもとても幸せでした。

なんという名前にしましょうかもから

文字起こし2:スパース性 左側の音声(浦島太郎)

浦島太郎、 昔、昔あるところに浦島太郎という心優しい漁師が住んでいました ある日のことです浜辺を歩いていると、1匹の亀が子供たちにいじめられているのを見ました

そこで、浦島太郎は亀を助けてやりました数日過ぎたある日、 いつものように釣りをしていると、亀が海から出てきました。浦島太郎さん 僕はこの間あなたに助けられた亀ですお姫様が、あなたを流行場にお連れしなさいというので、お迎えに参りました。

  • 話者分析

MFCC分析と圧縮データの場合が最も良い結果となった。

参考文献

[1]戸上 真人, Pythonで学ぶ音源分離, 株式会社インプレス, 2020.
[2]line, “「あの時はこう言ってたよね?」がなくなる世界へ。,” line, [オンライン]. Available: https://clovanote.line.me/.

作者プロフィール

山田 風雅

情報学科 3年 北嶋研究室所属です。

コメント