データ型は、統計の重要な概念であり、統計的測定値をデータに正しく適用し、したがってそれに関する特定の仮定を正し このブログ記事では、機械学習プロジェクトの中で最も過小評価されている部分の一つである適切な探索的データ分析(EDA)を行うために、知っておく,

Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- 統計的手法
- 概要
測定スケールとも呼ばれるさまざまなデータタイプをよく理解することは、特定のデータタイプに対してのみ特定の統計的測定を使用できるため、探索的データ分析(EDA)を行うための重要な前提条件です。
また、適切な可視化方法を選択するには、どのデータ型を扱っているかを知る必要があります。 データ型は、さまざまな型の変数を分類する方法と考えてください。 変数の主なタイプについて説明し、それぞれの例を見ていきます。, 我々は時々測定スケールとしてそれらを参照します。
カテゴリデータ
カテゴリデータは特性を表します。 したがって、人の性別、言語などのようなものを表すことができます。 カテゴリデータは、数値を取ることもできます(例:女性の場合は1、男性の場合は0)。 これらの数字には数学的な意味がありません。
ノミナルデータ
ノミナル値は離散単位を表し、定量的な値を持たない変数にラベルを付けるために使用されます。 それらを”ラベル”と考えてください。 順序のないノミナルデータに注意してください。, したがって、値の順序を変更しても意味は変わりません。 P>

左の機能それは、人が結婚しているかどうかを説明することは、二つのカテゴリのみを含む名目尺度の一種である”二分”と呼ばれるでしょう。
序数データ
序数値は、離散単位および順序単位を表します。, したがって、順序が重要であることを除いて、公称データとほぼ同じです。 あなたは以下の例を見ることができます:

高校は高校と大学の違いよりも異なります。 これは序数データの主な制限であり、値の違いは実際には分かっていません。, そのため、通常、順序尺度は、幸福、顧客満足度などの数値以外の特徴を測定するために使用されます。
数値データ
その値が別個で別個である場合、離散データについて話します。 言い換えれば、データが特定の値のみを取ることができる場合、離散データについて話します。 このタイプのデータは測定できませんが、数えることができます。 基本的には、分類に分類できる情報を表します。 例としては、100コインフリップの頭の数が挙げられます。,
あなたは離散データを扱っているかどうかを次の二つの質問をすることによって確認することができます:あなたはそれを数えることができ、
連続データ
連続データは測定値を表すため、それらの値はカウントできませんが、測定できます。 例としては、実数行の間隔を使用して記述できる人の高さが挙げられます。
間隔データ
間隔値は、同じ差を持つ順序付けられた単位を表します。, したがって、順序付けられた数値を含む変数があり、値間の正確な違いがわかっている場合は、間隔データについて話します。 例としては、以下のような特定の場所の温度を含む機能があります。

<区間値データの問題は、それらが"真のゼロ"を持っていないということです。 つまり、私たちの例に関しては、温度がないようなものはないことを意味します。, 区間データを使用すると、加算および減算はできますが、乗算、除算、または比率を計算することはできません。 真のゼロが存在しないため、多くの記述的および推論的な統計を適用することはできません。
比率データ
比率の値は、同じ差を持つ順序付けられた単位でもあります。 比率値は間隔値と同じであり、それらの差は絶対ゼロであるという違いがあります。 良い例は、身長、体重、長さなどです。,

なぜデータ型が重要なのですか?
統計的手法は特定のデータ型でのみ使用できるため、データ型は重要な概念です。 連続データをカテゴリデータとは異なる方法で分析する必要があります。 従ってあなたが扱っているデータのタイプを知っている、分析の正しい方法を選ぶことを可能にする。,
すべてのデータ型をもう一度見直しますが、今回はどのような統計的手法を適用できるかについて説明します。 ここで説明する内容を適切に理解するには、記述統計の基礎を理解する必要があります。 あなたがそれらを知らないなら、あなたはそれについての私のブログ記事(9分読む)を読むことができます:https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9。
統計的手法
公称データを扱う場合、次の方法で情報を収集します。
頻度:頻度は、一定期間またはデータセット内で何かが発生する速度です。,
割合:頻度を事象の総数で割ることによって、割合を簡単に計算することができます。 (例えば、何かが起こった頻度を、それが起こる可能性のある頻度で割ったもの)
パーセンテージ。
視覚化メソッド:ノミナルデータを視覚化するには、円グラフまたは棒グラフを使用できます。

データサイエンスでは、一つのホットエンコーディングを使用することができます。ノミナルデータを数値フィーチャに変換する。,
序数データ
序数データを扱うときは、ノミナルデータと同じ方法を使用できますが、いくつかの追加ツールにアクセスすることもできます。 したがって、順序データを頻度、比率、パーセンテージで要約することができます。 また、円グラフや棒グラフで視覚化することもできます。 さらに、百分位数、中央値、モード、および四分位間範囲を使用してデータを要約することもできます。
データサイエンスでは、序数データを数値フィーチャに変換するために、一つのラベルエンコーディングを使用できます。,
連続データ
連続データを扱うときは、ほとんどの方法を使用してデータを記述できます。 百分位数、中央値、四分位間範囲、平均、モード、標準偏差、および範囲を使用してデータを要約できます。
視覚化メソッド:
連続データを視覚化するには、ヒストグラムまたは箱ひげ図を使用できます。 ヒストグラムを使用すると、分布の中心傾向、変動性、モダリティ、尖度をチェックできます。 外れ値がある場合、ヒストグラムは表示できないことに注意してください。 これが箱ひげ図も使用する理由です。,

概要
この記事では、統計全体で使用されるさまざまなデータ型を検出しました。 離散&連続データの違いを学習し、公称、序数、間隔、および比の測定スケールが何であるかを学習しました。 さらに、どのデータ型でどの統計的測定値を使用でき、どのデータ型が正しい視覚化方法であるかがわかりました。, また、どのメソッドでカテゴリ変数を数値変数に変換できるかを学びました。 これにより、特定のデータセットに対して探索的分析の大部分を作成できるようになります。
Resources
この投稿は最初に私のブログ(https://machinelearning-blog.com)で公開されました。
Leave a Reply