分類問題において、クラス間のサンプル数の偏りが大きい場合があります。このようなデータから学習した識別子では少数派クラスの分類は上手くいきません。希少疾患の診断や異常検知などの、少数派クラスの分類が重要な場合にはこれが問題となり、これをインバランス問題と呼んでいます。インバランス問題は、極端にクラス数が多く、サンプル数が極端に少ない少数派クラスを多く含む場合にはロングテイル問題とも呼ばれます。本研究室では、ロングテイル問題に適用できる手法を研究しています。
分類問題において、クラス間のサンプル数の偏りが大きい場合があります。このようなデータから学習した識別子では少数派クラスの分類は上手くいきません。希少疾患の診断や異常検知などの、少数派クラスの分類が重要な場合にはこれが問題となり、これをインバランス問題と呼んでいます。インバランス問題は、極端にクラス数が多く、サンプル数が極端に少ない少数派クラスを多く含む場合にはロングテイル問題とも呼ばれます。本研究室では、ロングテイル問題に適用できる手法を研究しています。