데이터 형식은 중요한 통계의 개념,필요로 하는 것을 이해하고,올바르게 적용한 통계적인 측정 데이터에 따라서 정확하게 결정에 대한 가정을니다. 이 블로그 게시물을 소개합니다 다른 데이터 형식을 알아야할을 수행하는,적절한 예비 데이터 분석(EDA),중 하나입의 대부분의 과소 평가되는 부품의 기계 학습 프로젝트입니다.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- 통계적 방법
- 요약
좋은 이해의 다른 데이터의 유형이라고도 측정,중요한 전제 조건을 하기를 위한 예비 데이터 분석(EDA),사용할 수 있으므로 특정한 통계적인 측정을 위해서만 특정 데이터 형식입니다.또한 올바른 시각화 방법을 선택하기 위해 다루는 데이터 유형을 알아야합니다. 데이터 유형을 다른 유형의 변수를 분류하는 방법으로 생각하십시오. 우리는 변수의 주요 유형을 논의하고 각각에 대한 예를 살펴볼 것입니다., 우리는 때때로 그것들을 측정 척도로 참조 할 것입니다.
범주형 데이터
범주형 데이터는 특성을 나타냅니다. 따라서 사람의 성별,언어 등과 같은 것을 나타낼 수 있습니다. 범주 형 데이터는 숫자 값을 취할 수도 있습니다(예:여성의 경우 1,남성의 경우 0). 그 숫자는 수학적 의미가 없다는 점에 유의하십시오.
명목상 데이터
명목상 값을 나타내는 개별 단위는 레이블을 지정하는 데 사용되는 변수가 없는 양이 많은 값입니다. 그냥”라벨”이라고 생각하십시오. 순서가없는 명목상의 데이터에주의하십시오., 따라서 그 값의 순서를 변경한다면 의미는 변하지 않을 것입니다. 당신이 볼 수있는 두 가지 예 명목 아래의 기능:
왼쪽 기능을 설명하는 사람은 결혼을 것”이라는 이분법”,는 유형의 공칭 것만 포함하는 두가지 종류로 제공하고 있습니다.
서수 데이터
서수 값은 이산 및 정렬 된 단위를 나타냅니다., 따라서 주문 문제라는 점을 제외하고는 명목상의 데이터와 거의 동일합니다. 당신이 볼 수 있는 아래 예제:
참고 사이의 차이가 초등 및 고등학교과 다른 차이는 고등학교 및 대학도 있습니다. 이것은 서수 데이터의 주요 제한 사항이며,값 간의 차이는 실제로 알려지지 않았습니다., 그 때문에 서수 척도는 일반적으로 행복,고객 만족 등과 같은 숫자가 아닌 기능을 측정하는 데 사용됩니다.
수치 데이터
우리는 그 값이 구별되고 분리 된 경우 이산 데이터를 말합니다. 다른 말로하면:데이터가 특정 값에만 걸릴 수 있다면 우리는 이산 데이터에 대해 말합니다. 이 유형의 데이터는 측정 할 수 없지만 계산할 수 있습니다. 기본적으로 분류로 분류 할 수있는 정보를 나타냅니다. 예는 100 코인 플립의 헤드 수입니다.,
이산 데이터를 다루고 있는지 여부에 관계없이 다음 두 가지 질문을 통해 확인할 수 있습니다.
연속 데이터
연속 데이터는 측정을 나타내므로 값을 계산할 수는 없지만 측정 할 수 있습니다. 예를 들어 실제 숫자 줄에 간격을 사용하여 설명 할 수있는 사람의 높이 일 것입니다.
간격 데이터
간격 값은 동일한 차이가 있는 정렬된 단위를 나타냅니다., 그러므로 우리가 말하는 간격의 데이터를 때 우리는 포함하는 변수는 숫자 값은 주문하고 우리가 알고 정확한 차이점 사이의 값이다. 예 것을 포함하는 기능의 온도는 지정된 장소 당신 같은 아래에 볼 수 있습니다:
문제 간격으로 값 데이터는지”진실로”. 즉,우리의 예와 관련하여 온도가없는 것과 같은 것이 없다는 것을 의미합니다., 간격 데이터를 사용하면 더하고 뺄 수 있지만 비율을 곱하거나 나누거나 계산할 수는 없습니다. 진정한 제로가 없기 때문에 설명적이고 유추적인 통계를 많이 적용 할 수 없습니다.
비율 데이터
비율 값도 동일한 차이를 갖는 정렬 된 단위입니다. 비율 값은 간격 값과 동일하며 차이는 절대 0 을 갖습니다. 좋은 예는 신장,체중,길이 등입니다.,
왜 데이터 형식은 중요합니까?
데이터 유형은 통계적 방법이 특정 데이터 유형에서만 사용될 수 있기 때문에 중요한 개념입니다. 연속 데이터를 범주형 데이터와 다르게 분석해야 합니다 그렇지 않으면 잘못된 분석이 발생합니다. 따라서 다루는 데이터의 유형을 알면 올바른 분석 방법을 선택할 수 있습니다.,
우리는 지금 모든 데이터의 유형이 다시 그러나 이 시간에 관해서 어떤 통계적 방법을 적용할 수 있습니다. 우리가 지금 논의 할 내용을 제대로 이해하려면 설명 통계의 기초를 이해해야합니다. 당신이 그들을 모르는 경우에,당신은 그것에 관하여 나의 블로그 포스트(9min 읽기)를 읽을 수있다:https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
통계적 방법
때와 함께 다루고 있는 nominal 데이터를 통해 정보를 수집
주파수:주파수는 속도는 무언가를 통해 발생하는 기간 내에서 또는 사용합니다.,
비율:빈도를 총 이벤트 수로 나누어 비율을 쉽게 계산할 수 있습니다. (예:일이 얼마나 자주 발생했는지 빈도로 나눈 값)
백분율.
시각화 방법:시각화하 공칭할 수 있는 데이터를 사용하는 파이 차트 또는 바 차트.
에서 데이터,과학 중 하나를 사용할 수 있습니다 뜨거운 인코딩을 변환하는 nominal 데이터로 숫자 기능입니다.,
순서 데이터
를 처리하는 경우 서수 데이터를 동일하게 사용할 수 있습니 같은 방법으로 데이터,하지만 당신은 또한 일부에 대한 액세스는 추가 도구입니다. 따라서 빈도,비율,백분율로 서수 데이터를 요약 할 수 있습니다. 그리고 파이와 막대 차트로 시각화 할 수 있습니다. 또한 백분위 수,중앙값,모드 및 쿼터 간 범위를 사용하여 데이터를 요약 할 수 있습니다.
데이터 과학에서는 하나의 레이블 인코딩을 사용하여 서수 데이터를 숫자 기능으로 변환 할 수 있습니다.,
연속 데이터
연속 데이터를 다루는 경우 가장 많은 방법을 사용하여 데이터를 설명 할 수 있습니다. 백분위 수,중앙값,쿼터 간 범위,평균,모드,표준 편차 및 범위를 사용하여 데이터를 요약 할 수 있습니다.
시각화 방법:
시각화하기 위해 지속적인 데이터를 사용할 수 있습니다 히스토그램 또는 박스-줄거리입니다. 히스토그램을 사용하면 분포의 중심 경향,가변성,양식 및 첨도를 확인할 수 있습니다. 히스토그램에 이상치가 있으면 표시 할 수 없습니다. 이것이 박스 플롯도 사용하는 이유입니다.,
요약
이 게시물에,당신은 발견은 다양한 데이터 유형에 걸쳐 사용되는 통계입니다. 당신이 배운 사이의 차이를 분리된&지속적인 데이터와 무엇을 배운 명목상,서수,간격,그리고 비율,측정니다. 또한 이제 어떤 데이터 유형에서 사용할 수있는 통계 측정과 올바른 시각화 방법을 알 수 있습니다., 또한 메소드 범주 형 변수를 숫자 변수로 변환 할 수있는 방법을 배웠습니다. 이를 통해 주어진 데이터 집합에 대한 탐색 분석의 큰 부분을 만들 수 있습니다.
Resources
이 게시물은 처음에 내 블로그(https://machinelearning-blog.com)에 게시되었습니다.피>
Leave a Reply