欧州委員会 研究報告書「フォレンジックスにおけるクラスタリングと教師なし分類」
こんにちは、丸山満彦です。
欧州委員会のEU Science Hubから「Clustering and Unsupervised Classification in Forensics(フォレンジックスにおけるクラスタリングと教師なし分類)」という報告書が公表されていますね。
報告書自体は2020年に作成されていたようですね。。。
● EU Commission - EU Science Hub - Publications
・2021.03.22 Clustering and Unsupervised Classification in Forensics
Abstract: | 概要 |
Nowadays, crime investigators collect an ever increasing amount of potential digital evidence from suspects, continuously increasing the need for techniques of digital forensics. Often, digital evidence will be in the form of mostly unstructured and unlabeled data and seemingly uncorrelated information. Manually sorting out and understanding this type of data constitutes a considerable challenge, sometimes even a psychological burden, or at least a prohibitively time consuming activity. Therefore, forensic research should explore and leverage the capabilities of cluster algorithms and unsupervised machine learning to-wards creating robust and autonomous analysis tools for criminal investigators faced with this situation. This report presents a first comprehensive study from theory to practice on the specific case of video forensics. | 今日、犯罪捜査官が容疑者から収集する潜在的なデジタル証拠の量は増え続けており、デジタル・フォレンジックの技術の必要性が継続的に高まっている。多くの場合、デジタル証拠は、ほとんどが構造化されておらず、ラベル付けされていないデータや、一見すると相関性のない情報の形をしている。このようなデータを手作業で整理し、理解することは、かなりの困難を伴い、時には心理的負担にもなり、少なくとも法外に時間のかかる作業となる。そのため,フォレンジック研究では,このような状況に直面している犯罪捜査官のために,クラスター・アルゴリズムや教師なし機械学習の能力を探求し,活用して,ロバストで自律的な分析ツールを作成する必要がある。本レポートでは、ビデオ・フォレンジックという具体的なケースについて、理論から実践までの初めての包括的な研究を紹介する。 |
・[PDF] Clustering and Unsupervised Classification in Forensics
Abstract | 概要 |
1 Introduction | 1 はじめに |
1.1 Definition of Clustering. | 1.1 クラスタリング(Clustering)の定義 |
1.2 Clustering and Classification. | 1.2 クラスタリングと分類 |
2 Background: Methods and Algorithms | 2 背景 方法とアルゴリズム |
2.1 Clustering Problem Categories | 2.1 クラスタリングの問題カテゴリ |
2.2 Overview of algorithms and methods | 2.2 アルゴリズムと手法の概要 |
2.2.1 Classical approaches | 2.2.1 古典的アプローチ |
2.2.1.1 K-Means based algorithms | 2.2.1.1 K-Meansベースのアルゴリズム |
2.2.1.2 Hierarchical algorithms | 2.2.1.2 階層型アルゴリズム |
2.2.2 Probabilistic Models for Clustering | 2.2.2 クラスタリングのための確率的モデル |
2.2.2.1 Gaussian Mixture Models with the EM algorithm. | 2.2.2.1 EMアルゴリズムを用いたガウシアン混合モデル |
2.2.2.2 Other Probabilistic Models | 2.2.2.2 その他の確率論的モデル |
2.2.3 Modern Machine learning models and stand alone developments. | 2.2.3 最新の機械学習モデルと単独での開発 |
2.2.4 Dimensionality Reduction. | 2.2.4 次元の削減 |
2.2.5 Cluster validity, model checking and hyperparameter optimization | 2.2.5 クラスタの有効性、モデルチェック、ハイパーパラメータの最適化 |
2.2.5.1 Evaluating test data | 2.2.5.1 テストデータの評価 |
2.3 Problems and Challenges | 2.3 問題点と課題 |
3 Research Workshop at JRC | 3 JRCでの研究ワークショップ |
4 Forensic Application Case | 4 フォレンジックアプリケーションケース |
4.1 The data sets. | 4.1 データセット |
4.1.1 Controlled recordings. | 4.1.1 コントロールされた録画 |
4.1.2 Live recordings | 4.1.2 ライブレコーディング |
4.2 Audio-based clustering of video recordings | 4.2 映像記録の音声によるクラスタリング |
4.2.1 Audio features | 4.2.1 音声の特徴 |
4.2.1.1 GMM Training for Clean Speech | 4.2.1.1 クリーンスピーチのためのGMMトレーニング |
4.2.1.2 Blind microphone response estimation | 4.2.1.2 ブラインドマイク応答推定 |
4.2.2 Experimental evaluation | 4.2.2 実験的評価 |
4.2.2.1 Settings | 4.2.2.1 設定 |
4.2.2.2 Test run protocol. | 4.2.2.2 テスト実行プロトコル |
4.2.2.3 Inter-model audio clustering | 4.2.2.3 モデル間音声クラスタリング |
4.2.2.4 All-model audio clustering. | 4.2.2.4 全モデルの音声クラスタリング |
4.3 Image-based clustering of video recordings. | 4.3 ビデオ録画の画像ベースのクラスタリング |
4.3.1 SPN Features Extraction. | 4.3.1 SPN特徴量の抽出 |
4.3.1.1 Noise extraction in DWT domain. | 4.3.1.1 DWT領域でのノイズ抽出。 |
4.3.1.2 Attenuation of saturated pixels. | 4.3.1.2 飽和したピクセルの減光。 |
4.3.1.3 Estimate SPN using Maximum Likelihood Estimator. | 4.3.1.3 最尤推定法によるSPNの推定。 |
4.3.1.4 SPN normalization. | 4.3.1.4 SPNの正規化。 |
4.3.1.5 Convert SPN to grayscale. | 4.3.1.5 SPNをグレースケールに変換する。 |
4.3.1.6 Wiener filtering for JPEG compression artifacts removal | 4.3.1.6 JPEG圧縮アーチファクト除去のためのウィーナーフィルタリング |
4.3.2 Experimental settings | 4.3.2 実験設定 |
4.3.3 Results on still images | 4.3.3 静止画での結果 |
4.3.4 Results on video frames | 4.3.4 ビデオフレームでの結果 |
4.4 Explorative Case: Model based Clustering with unknown number of classes. | 4.4 Explorative Case: クラスの数が不明なモデルベースのクラスタリング |
4.4.1 Model Comparison Results | 4.4.1 モデルの比較結果 |
4.5 Conclusions of the applications case | 4.5 応用事例の結論 |
5 Outlook and Next Activities | 5 展望と次の活動 |
References | 参考文献 |
List of abbreviations and definitions | 略語と定義の一覧 |
« 欧州委員会 ホライゾン・ヨーロッパ 戦略計画2021-2024 持続可能な未来のための研究・イノベーションの優先事項を設定 at 2021.03.15 | Main | ENISA Microsoft Exchangeの脆弱性に関するレポートを公開 »
Comments