北海道大学大学院情報科学研究科

パターン認識

[Papers] [Softwares]

私たちの研究は以下の2点に重点を置いています。

  • 高性能・高速な識別をクラスの空間的構造に基づいて開発すること
  • 特徴とサンプルの空間に調和を見い出すこと

識別子の構成

与えられた問題に最もふさわしい識別子を構成することを目的とします。これまでに、線形、二次、区分的線形[Tenmo98a]、非線形[Sato98]、k最近隣法[Masu98]、混合分布に基づく識別子[Tenmo98c]、射影学習を用いた識別子[Kazuki10]などの多くの識別子を検討・改良を行ってきました。また、超矩形を用いた高性能な識別子を開発しています[Mine98a]。その発展形の一つとして、超矩形を凸包へと拡張した識別子の構成方法についても研究を重ねています[tetsuji09,tetsuji10,tetsuji_2011]。最近では、クラス毎に異なる特徴集合を用いて識別子を構成する手法も検討しています[Kazu03]。

凸包によるマージン最大化識別子

 

追跡型体積プロトタイプの検討

膨大なデータをそのままに保存することはいかにも非効率である。そこで、代表的なデータのみを保持する試みは多くみられる。しかし、有限個の点集合では分布を適切に表現できないという問題がある。 そこで本研究では「点」でなく「体積のある楕円体」を少数選んで集約することを提案している。さらに、時系列データは時々刻々と平均や分散が変化するものが多いので、忘却機構を入れて適切に追跡できるようにした。

追跡型体積プロトタイプ(細かな緑がデータ点、楕円がプロトタイプ)

 

高速PC最近隣識別子

最近隣法はデータ数が多い場合に理論的にとても良い識別方法である。しかし、計算量がデータ数に比例してしまう。また、次元数に関しても比例する。そこで、高速に計算できる各種の近似法(正解ではないものの正解に近い解を見つける)が提案されている。しかし、それらのほとんどは高次元データに関して速度的な改善が見られない。 そこでPC(確率的に正しい)フレームワークに注目し、高い確率で正解を出力するアルゴリズムを提案し、その計算量がデータ数に対して劣線形になることを示した。実験では、これまでのどの方法よりも早い。

PC最近隣法(質問点(黒点)に対して二つの線の間だけ探索すればよい。a:データ数少 b:データ数大)


特徴選択

パターン認識分野において,認識に用いる特徴の数が多くなるとその認識精度や速度が低下してしまい,また次元の呪いの効果が顕著になるという問題も生じます. そこで認識フェーズに入る前に,特徴集合から認識に効果的である部分集合を取り出し, 認識精度や速度の向上を目指す枠組みが特徴選択(次元削減)になります. 特徴選択で抽出される特徴集合は,特定の識別子とセットで用いられる場合(識別子依存)と,そうでない場合(識別子独立)があります. 特徴の部分集合の良さを評価する際には,一般的には識別子の仮定は置かれないほうが好ましいです.そこで,識別子独立な特徴選択について検討を行なっています. また,近年では扱うデータが多様化し,例えば巷で話題のビッグデータのような,規模がとても大きいデータや,気象データや交通データといった見るべき性質が刻々と変化する時系列データといったものの解析が必要になってきています. そういったデータに対しても,特徴選択を行うことは,そのデータの解析の効率をよくすることに繋がります.

現在本研究室では,認識対象となるデータが時間変化する場合やデータ数が膨大な場合でも,リアルタイム性を維持しながら識別子独立な特徴選択を行う研究をしています. 本研究室で研究している体積プロトタイプを用いることで,分布が時間経過で徐々に変化する様を追跡でき,逐次特徴選択を行えるように開発をしています[tsukioka2014].

上の図は,グラフ中央のクラスタと,その外周を移動するクラスタによる体積プロトタイプの追従を表しています.赤色のクラスと黄色のクラスとのダイバージェンスを逐次計算することで, その時刻毎に有用な特徴集合を選出しています.


Multi-label Classification

近年,マルチラベル分類はテキスト分類,画像アノテーション,バイオインフォマティクスといった様々な分野で必要とされててきている. マルチクラス分類とは異なり,マルチラベル分類は,一つのデータに複数のレベルが割り当てられることを考える. 例を挙げると,ニュース記事の分類問題を考える.あるニュース記事のタイトルが”ウクライナ系の銀行がクリミナ半島での活動を停止”であった場合,”ヨーロッパ”,”経済”,”政治”といったラベルが割り当てられることが考えられる. このようなマルチラベル問題はそのデータにつけられるラベルの数が定まっていないという点で非常に難しい問題である.(担当: Sun Lu)

例,マルチクラス分類とマルチレベル分類

(a) マルチクラス問題,完全な分類が困難な二つのクラスに属するデータ点 (b) マルチレベル問題,* は二つのクラスに同時に属している.このように一つのデータ点が複数のクラスに属することを許す.

PAGETOP
Copyright © 情報認識学研究室 All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.