typy danych są ważnym pojęciem statystyki, które należy rozumieć, aby prawidłowo zastosować pomiary statystyczne do danych, a tym samym poprawnie sformułować pewne założenia na ich temat. Ten wpis na blogu wprowadzi cię w różne typy danych, które musisz znać, aby wykonać właściwą analizę danych eksploracyjnych (Eda), która jest jedną z najbardziej niedocenianych części projektu uczenia maszynowego.,
Table of Contents:
- Introduction to Data Types
- Categorical Data (Nominal, Ordinal)
- Numerical Data (Discrete, Continuous, Interval, Ratio)
- Why Data Types are important?,
- Metody statystyczne
- podsumowanie
dobra znajomość różnych typów danych, zwanych również skalami pomiarowymi, jest kluczowym warunkiem przeprowadzenia eksploracyjnej analizy danych (Eda), ponieważ można korzystać z niektórych pomiarów statystycznych tylko dla określonych typów danych.
musisz również wiedzieć, z jakim typem danych masz do czynienia, aby wybrać odpowiednią metodę wizualizacji. Pomyśl o typach danych jako o sposobie kategoryzowania różnych typów zmiennych. Omówimy główne typy zmiennych i przyjrzymy się przykładowi dla każdego z nich., Czasami będziemy nazywać je skalami pomiarowymi.
dane kategoryczne
dane kategoryczne reprezentują cechy. Dlatego może reprezentować takie rzeczy jak płeć, język Itp. Dane kategoryczne mogą również przyjmować wartości liczbowe (przykład: 1 Dla Kobiet I 0 dla mężczyzn). Zauważ, że te liczby nie mają znaczenia matematycznego.
dane nominalne
wartości nominalne reprezentują dyskretne jednostki i są używane do oznaczania zmiennych, które nie mają wartości ilościowej. Pomyśl o nich jak o „etykietkach”. Należy pamiętać, że dane nominalne, które nie mają zamówienia., Dlatego, jeśli chcesz zmienić kolejność jego wartości, znaczenie nie zmieni. Poniżej można zobaczyć dwa przykłady nominalnych funkcji:
dane porządkowe
wartości porządkowe reprezentują jednostki dyskretne i uporządkowane., Jest więc prawie taka sama jak dane nominalne, z tym, że to porządkowanie spraw. Możesz zobaczyć przykład poniżej:
zauważ, że różnica między podstawówką a liceum jest inna niż różnica między liceum a college ' em. Jest to główne ograniczenie danych porządkowych, różnice między wartościami nie są tak naprawdę znane., Z tego powodu, skale porządkowe są zwykle używane do pomiaru nie-numerycznych funkcji, takich jak szczęście, zadowolenie klienta i tak dalej.
dane liczbowe
mówimy o danych dyskretnych, jeśli ich wartości są różne i oddzielne. Innymi słowy: mówimy o danych dyskretnych, jeśli dane mogą przyjmować tylko pewne wartości. Tego typu danych nie można zmierzyć, ale można je zliczyć. Zasadniczo reprezentuje informacje, które można sklasyfikować w klasyfikacji. Przykładem jest liczba głów w 100 rzutach monet.,
Możesz sprawdzić zadając następujące dwa pytania, Czy masz do czynienia z danymi dyskretnymi, czy nie: czy możesz je policzyć i czy można je podzielić na mniejsze i mniejsze części?
dane ciągłe
dane ciągłe przedstawiają pomiary i dlatego ich wartości nie mogą być zliczane, ale mogą być mierzone. Przykładem może być wysokość osoby, którą można opisać za pomocą interwałów na linii liczb rzeczywistych.
dane interwałów
wartości interwałów reprezentują uporządkowane jednostki, które mają taką samą różnicę., Dlatego mówimy o danych interwałowych, gdy mamy zmienną, która zawiera wartości liczbowe, które są uporządkowane i gdzie znamy dokładne różnice między wartościami. Przykładem może być funkcja, która zawiera temperaturę danego miejsca, jak można zobaczyć poniżej:
problem z danymi wartości interwałów polega na tym, że nie mają one „prawdziwego zera”. Oznacza to w odniesieniu do naszego przykładu, że nie ma czegoś takiego jak brak temperatury., Za pomocą danych interwałowych możemy dodawać i odejmować, ale nie możemy mnożyć, dzielić ani obliczać współczynników. Ponieważ nie ma prawdziwego zera, nie można zastosować wielu opisowych i wnioskujących statystyk.
dane współczynnika
wartości współczynnika są również uporządkowanymi jednostkami, które mają tę samą różnicę. Wartości współczynnika są takie same jak wartości interwału, z tą różnicą, że mają ZERO bezwzględne. Dobrymi przykładami są wzrost, waga, długość itp.,
dlaczego typy danych są ważne?
typy danych są ważnym pojęciem, ponieważ metody statystyczne mogą być używane tylko z pewnymi typami danych. Musisz analizować dane ciągłe inaczej niż dane kategoryczne, w przeciwnym razie spowodowałoby to błędną analizę. Dlatego znajomość rodzajów danych, z którymi masz do czynienia, pozwala wybrać właściwą metodę analizy.,
przejdziemy teraz ponownie do każdego typu danych, ale tym razem w odniesieniu do tego, jakie metody statystyczne mogą być stosowane. Aby właściwie zrozumieć, o czym będziemy teraz rozmawiać, musisz zrozumieć podstawy statystyki opisowej. Jeśli ich nie znasz, możesz przeczytać mój wpis na blogu (9min) na ten temat: https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9.
Metody statystyczne
Kiedy masz do czynienia z danymi nominalnymi, zbierasz informacje poprzez:
częstotliwości: Częstotliwość to szybkość, z jaką coś występuje w danym okresie czasu lub w zbiorze danych.,
proporcja: możesz łatwo obliczyć proporcję, dzieląc częstotliwość przez całkowitą liczbę zdarzeń. (np. jak często coś się stało podzielone przez jak często mogło się zdarzyć)
metody wizualizacji: do wizualizacji danych nominalnych można użyć wykresu kołowego lub słupkowego.
w data science można użyć jednego kodowania hot, aby przekształcić dane nominalne w funkcję numeryczną.,
dane porządkowe
gdy masz do czynienia z danymi porządkowymi, możesz używać tych samych metod, jak w przypadku danych nominalnych, ale masz również dostęp do niektórych dodatkowych narzędzi. Dlatego możesz podsumować swoje dane porządkowe z częstotliwościami, proporcjami, procentami. Możesz go zwizualizować za pomocą wykresów kołowych i słupkowych. Dodatkowo możesz użyć percentyli, mediany, trybu i przedziału międzykwartylowego do podsumowania danych.
W Data Science można użyć jednego kodowania etykiet, aby przekształcić dane porządkowe w funkcję numeryczną.,
dane ciągłe
gdy masz do czynienia z danymi ciągłymi, możesz użyć większości metod do opisania swoich danych. Możesz podsumować swoje dane za pomocą percentyli, mediany, przedziału międzykwartylowego, średniej, trybu, odchylenia standardowego i zakresu.
metody wizualizacji:
aby wizualizować dane ciągłe, możesz użyć histogramu lub wykresu pudełkowego. Za pomocą histogramu można sprawdzić centralną tendencję, zmienność, modalność i kurtozę rozkładu. Zauważ, że histogram nie może pokazać, jeśli masz jakieś wartości odstające. Dlatego też używamy również działek pudełkowych.,
podsumowanie
w tym poście odkryłeś różne typy danych, które są używane w statystykach. Poznałeś różnicę między dyskretnymi& ciągłymi danymi i dowiedziałeś się, czym są nominalne, porządkowe, przedziałowe i proporcyjne skale pomiarowe. Co więcej, teraz wiesz, jakich pomiarów statystycznych możesz użyć, dla jakiego typu danych i które są właściwymi metodami wizualizacji., Nauczyłeś się również, za pomocą jakich metod można przekształcić zmienne kategoryczne w zmienne liczbowe. Umożliwia to tworzenie dużej części analizy rozpoznawczej na danym zbiorze danych.
zasoby
ten post został pierwotnie opublikowany na moim blogu (https://machinelearning-blog.com).
Leave a Reply