概要
我が国では、全国各地に監視カメラが設置され、監視以外にも新技術を活用した歩行者量計測手法[1]と組み合わせて、交通量調査やまちの観光地の賑わいの分析にも活用されている。特に近年では、コロナ禍による観光客の減少もあり、観光客の老若男女ごとの挙動の変化を分析し、施策を練る必要がある。ただし、監視カメラは保存期間が定められているため、長期にわたる比較分析ができない。既存手法では、マスキングを施し、個人を特定できないように加工できる。しかし、マスキング後の映像では、分析に必要な個人属性を特定できない。そこで、本研究では、深層学習を用いて映像中の人物属性を推定し、人物属性に合わせたマスキングを施し、付近に属性情報を可視化することで、プライバシーを保護しつつ、分析に供する映像に加工する手法を提案する。
提案手法
提案手法の処理フロー図を図1に示す。入力データは、撮影した動画像、出力データは、マスキングを施しつつ、人物属性を付与した加工後の動画像とする。

a) 被写体検出・追跡機能
本機能では、YOLOv5[2]とDeepSort[3]を用いて人物の位置を検出・追跡する。また、検出した人物は次の2つの方法で切り出す。1つ目は、マスキングを施すために、図2の人物を囲う緑枠のように、検出したバウンディングボックスのまま切り出す。2つ目は、人物属性の推定をするために、図2の人物を囲う赤枠のように、バウンディングボックスを正方形に変形させて切り出す。

b) 人物属性推定機能
本機能では、VGG16[4]を用いて追跡した人物の正方形画像群を対象に人物属性を推定する。まず、事前に推定する属性ごとに教師データを用意し、VGG16を用いて学習モデルを構築する。次に、学習モデルを用いて各画像ごとの属性を推定する。最後に、画像群の推定結果から多数決を行い、最多の属性を追跡対象の推定結果とする。
c) マスキング機能
本機能では、DensePose[5]を用いて人物ごとの属性に応じたマスキングを施し、付近に属性情報を可視化する(図3参照)。

実証実験
実験内容
本実験では、提案手法の有用性を確認するため、既存手法であるVision Transformer[6]による人物属性の推定精度と比較する。比較する属性は性別とし、評価対象は男女それぞれ30人ずつ写り込んだ動画像とする。男性と認識した場合は青色、女性と認識した場合はピンクういろの服を着せたマスキングを施す。学習モデルを構築する際に利用する画像と実験に利用する入力動画像は、2階から1階におよそ斜め45度で見下ろして撮影したものを利用する。また、学習モデルの構築には、男女それぞれの画像2,314枚に対して反転処理を行ってデータ拡張し、それぞれの合計4,628枚の画像でモデルを構築した。
結果と考察
既存手法と提案手法の評価結果を表1、各手法による出力の一部画像を図4と図5に示す。表の正解率の平均から既存手法より提案手法の方が高精度であることがわかる。このことから、提案手法の有用性を確認できた。各正答率を確認すると、女性の正答率は既存手法が大きく低下していることが確認できる。これは、男女ともにマスクを装着しており、服装も類似しているために女性と判断するための特長が少なかったことが原因と考えられる。以上のことから、既存手法は画像全体の特長から総合的に、提案手法は画像内の局所的な特長から男女を判断するように学習したと推察される。
本実験では、2階から1階へ見下ろす環境に限定しているため、異なる角度から撮影した場合の検証はされていない。そのため、多種多様な条件で撮影した動画像を用いて同様の検証実験を実施することで、提案手法の優位性を確認する必要がある。



おわりに
本研究では、深層学習を用いて映像中の人物属性を推定し、人物属性に合わせたマスキングを施し、付近に属性情報を可視化することで、プライバシーを保護しつつ、後世の分析に供する映像に加工する手法を提案した。そして、実証実験により、提案手法の有用性を確認できた。今後は、多種多様な条件で撮影した動画像を用いることで、提案手法の汎用性を向上可能か確認する予定である。
参考文献
[1]
[2]
[3]
[4]
[5]
[6]
国土交通省都市局都市計画課:まちの活性化を測る歩行者量調査のガイドライン(ver1.1), https://www.mlit.go.jp/common/001282666.pdf, 2023.01.20.
Ultralytics:Yolov5, https://github.com/ultralytics/yolov5, 2023.01.20.
N.Wojke, A.Bewley, D.Paulus:SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC, IEEE, ICIP, pp.3645-3649, 2017.
K.Simonyan, A.Zisserman: VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE
RECOGNITION, ICLR, 2015.
R.A.Güler, N.Neverova, I.Kokkinos:DensePose: Dense Human Pose Estimation In The Wild, IEEE/CFV, CVPR, pp.7297-7306, 2018.
A.Dosovitskiy, L.Beyer, A.Kolesnikov, D.Weissenborn, X.Zhai, T.Unterthiner, M.Dehghani, M.Minderer, G.Heigold, S.Gelly, J.Uszkoreit, N.Houlsby:An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale, ICLR, 2021
コメント