カテゴリ型変数とは何か？分類問題と教師あり学習の基礎解説

機械学習を学んでいると、「カテゴリ型変数」や「分類問題」といった言葉に出会います。初めて聞くと意味が分かりにくいですが、日常の例で考えると理解しやすくなります。この記事ではカテゴリ型変数の意味と、分類問題との関係を解説します。

カテゴリ型変数とは何か

カテゴリ型変数は、値がいくつかのカテゴリ（種類）に分かれる変数のことです。数字の大小ではなく、ラベルとして扱われます。

例えば、天気の情報を表す「晴れ」「雨」「曇り」や、動物の種類「猫」「犬」「鳥」などがカテゴリ型変数です。数字で表すこともありますが、その数値に順序や大小の意味はありません。

分類問題は、データからカテゴリ型変数を予測する手法です。例えば、メールが「迷惑メール」か「通常メール」かを予測したり、画像から動物の種類を判別する場合などです。

教師あり学習に含まれる理由は、入力データ（特徴量）と正解ラベル（カテゴリ型変数）を使ってモデルを学習させるためです。

カテゴリ型変数は分類する対象ですが、数値型変数は連続的な値で、回帰問題で予測されます。例えば、株価や温度の予測は回帰問題にあたります。

一方で、カテゴリ型変数は離散的で有限な値をとるため、分類問題に使われます。

日常生活の例で言うと、映画のジャンル「アクション」「コメディ」「ホラー」や、飲み物の種類「コーヒー」「紅茶」「ジュース」などもカテゴリ型変数です。これらの値を予測することが分類問題にあたります。

カテゴリ型変数はラベルや種類で表される変数で、分類問題ではこれを予測することが目的です。数値の大小ではなくカテゴリの種類を扱う点が特徴で、教師あり学習の一部として機械学習モデルに使われます。

理解のポイントは、値が離散的で分類対象であることです。身近な例を考えながら学ぶと、より理解しやすくなります。