celem tego postu jest dostarczenie kompletnego i uproszczonego wyjaśnienia głównej analizy składowej, a zwłaszcza odpowiedzi na to, jak to działa Krok po kroku, tak aby każdy mógł ją zrozumieć i wykorzystać, bez konieczności posiadania silnego zaplecza matematycznego.
PCA jest w rzeczywistości szeroko rozpowszechnioną metodą w Internecie i istnieje kilka świetnych artykułów na ten temat, ale tylko kilka z nich przechodzi od razu do sedna i wyjaśnia, jak to działa, nie zagłębiając się zbytnio w szczegóły techniczne i „dlaczego” rzeczy., Dlatego postanowiłem zrobić własny post, aby zaprezentować go w sposób uproszczony.
zanim przejdziemy do wyjaśnienia, ten post dostarcza logicznych wyjaśnień tego, co PCA robi na każdym kroku i upraszcza stojące za nim pojęcia matematyczne, takie jak standaryzacja, KOWARIANCJA, wektory własne i wartości własne, nie koncentrując się na tym, jak je obliczyć.
Co To jest analiza składowa?,
Główna Analiza składowa, lub PCA, jest metodą redukcji wymiarowości, która jest często stosowana w celu zmniejszenia wymiarowości dużych zbiorów danych, poprzez przekształcenie dużego zestawu zmiennych w mniejszy, który nadal zawiera większość informacji w dużym zestawie.
zmniejszenie liczby zmiennych zbioru danych naturalnie odbywa się kosztem dokładności, ale sztuką w redukcji wymiarowości jest wymiana trochę dokładności na prostotę., Ponieważ mniejsze zbiory danych są łatwiejsze do zbadania i wizualizacji, a analizowanie danych jest znacznie łatwiejsze i szybsze dla algorytmów uczenia maszynowego bez zbędnych zmiennych do przetwarzania.
podsumowując, idea PCA jest prosta — zmniejszyć liczbę zmiennych zbioru danych, zachowując przy tym jak najwięcej informacji.
krok po kroku Wyjaśnienie PCA
Krok 1: standaryzacja
celem tego kroku jest standaryzacja zakresu ciągłych zmiennych początkowych, tak aby każda z nich w równym stopniu przyczyniła się do analizy.,
mówiąc dokładniej, powodem, dla którego kluczowe znaczenie ma przeprowadzenie standaryzacji przed PCA, jest to, że ten ostatni jest dość wrażliwy na wariancje zmiennych początkowych. Oznacza to, że jeśli istnieją duże różnice między zakresami zmiennych początkowych, te zmienne z większymi zakresami będą dominować nad tymi z małymi zakresami (na przykład zmienna, która waha się od 0 do 100 będzie dominować nad zmienną, która waha się od 0 do 1), co doprowadzi do stronniczych wyników. Tak więc przekształcenie danych do porównywalnych skal może zapobiec temu problemowi.,
matematycznie można to zrobić poprzez odjęcie średniej i podzielenie przez odchylenie standardowe dla każdej wartości każdej zmiennej.
Po zakończeniu standaryzacji wszystkie zmienne zostaną przekształcone do tej samej skali.
Krok 2: Obliczanie macierzy kowariancji
celem tego kroku jest zrozumienie, w jaki sposób zmienne zestawu danych wejściowych różnią się od średniej względem siebie, lub innymi słowy, aby sprawdzić, czy istnieje jakaś zależność między nimi., Ponieważ czasami zmienne są silnie skorelowane w taki sposób, że zawierają zbędne informacje. Więc, aby zidentyfikować te korelacje, obliczamy macierz kowariancji.
macierz kowariancji jest macierzą symetryczną p × p (gdzie p jest liczbą wymiarów), która ma jako zapis kowariancje związane ze wszystkimi możliwymi parami zmiennych początkowych., Na przykład, dla 3-wymiarowego zbioru danych z 3 zmiennymi X, y i z, macierz kowariancji jest macierzą 3×3 z tego:
ponieważ KOWARIANCJA zmiennej z nią samą jest jej wariancją (COV(a, a)=var(a)), w głównej przekątnej (od lewej do prawej) mamy w rzeczywistości wariancje każdej zmiennej początkowej., A ponieważ KOWARIANCJA jest przemienna(Cov(a,b)=COV (b,a)), zapisy macierzy kowariancji są symetryczne względem głównej przekątnej, co oznacza, że górna i dolna część trójkąta są równe.
Co kowariancje, które mamy jako dane macierzy mówią nam o korelacjach między zmiennymi?,
to znak kowariancji ma znaczenie:
- if positive then : dwie zmienne zwiększają się lub zmniejszają razem (skorelowane)
- if negative then : jedna wzrasta, gdy druga maleje (odwrotnie skorelowane)
teraz, gdy wiemy, że macierz kowariancji jest nie więcej niż tabelą, która podsumowuje korelacje między wszystkimi możliwymi parami zmiennych, przejdźmy do następnego kroku.,
Krok 3: Oblicz wektory własne i wartości własne macierzy kowariancji w celu identyfikacji głównych składników
wektory własne i wartości własne są pojęciami algebry liniowej, które musimy obliczyć z macierzy kowariancji w celu określenia głównych składników danych. Zanim przejdziemy do wyjaśnienia tych pojęć, najpierw zrozummy, co rozumiemy przez główne składniki.
składowe Podstawowe to nowe zmienne, które są konstruowane jako kombinacje liniowe lub mieszaniny zmiennych początkowych., Kombinacje te są wykonywane w taki sposób, że nowe zmienne (tj. główne składniki) są nieskorelowane i większość informacji w początkowych zmiennych jest ściskana lub kompresowana do pierwszych składników. Tak więc, idea jest 10-wymiarowe dane daje 10 głównych składników, ale PCA stara się umieścić maksymalną możliwą informację w pierwszym komponencie, a następnie maksimum pozostałych informacji w drugim i tak dalej, aż coś jak pokazano na wykresie piargu poniżej.,
organizowanie informacji w głównych komponentach w ten sposób pozwoli zmniejszyć wymiarowość bez utraty dużej ilości informacji, a to poprzez odrzucenie komponenty o niskiej informacji i biorąc pod uwagę pozostałe komponenty jako nowe zmienne.,
ważną rzeczą do uświadomienia jest to, że główne składniki są mniej interpretowalne i nie mają żadnego rzeczywistego znaczenia, ponieważ są skonstruowane jako liniowe kombinacje zmiennych początkowych.
mówiąc geometrycznie, główne składniki reprezentują Kierunki danych, które wyjaśniają maksymalną ilość wariancji, to znaczy linie, które wychwytują większość informacji z danych., Zależność między wariancją i informacji tutaj, jest to, że im większa wariancja niesiona przez linię, tym większy rozrzut punktów danych wzdłuż niego, a większy rozrzut wzdłuż linii, tym więcej informacji ma. Mówiąc prościej, wystarczy pomyśleć o głównych komponentach jako o nowych osiach, które zapewniają najlepszy kąt widzenia i oceny danych, tak aby różnice między obserwacjami były lepiej widoczne.
Zarejestruj się za darmo, aby uzyskać więcej takich historii.,
jak PCA konstruuje główne komponenty
ponieważ w danych jest tyle głównych komponentów, ile zmiennych, główne komponenty są konstruowane w taki sposób, że pierwszy główny komponent odpowiada największej możliwej wariancji w zbiorze danych. Na przykład, załóżmy, że wykres punktowy naszego zbioru danych jest jak pokazano poniżej, Czy możemy odgadnąć pierwszy główny składnik ?, Tak, jest to w przybliżeniu linia, która pasuje do fioletowych znaków, ponieważ przechodzi przez początek i jest to linia, w której projekcja punktów (czerwonych kropek) jest najbardziej rozłożona. Lub matematycznie mówiąc, jest to linia, która maksymalizuje wariancję (średnia kwadratowych odległości od rzutowanych punktów (czerwone kropki) do początku).
drugi główny składnik jest obliczany w ten sam sposób, pod warunkiem, że jest nieskorelowany (tj. prostopadły do) pierwszego głównego składnika i że odpowiada następnej najwyższej wariancji.,
trwa to do momentu obliczenia całkowitej liczby głównych składników p, równej pierwotnej liczbie zmiennych.
teraz, gdy zrozumieliśmy, co rozumiemy przez główne komponenty, wróćmy do wektorów własnych i wartości własnych. Najpierw musisz o nich wiedzieć, że zawsze występują w parach, tak aby każdy wektor własny miał wartość własną. A ich liczba jest równa liczbie wymiarów danych. Na przykład dla trójwymiarowego zbioru danych są 3 zmienne, dlatego są 3 wektory własne z 3 odpowiadającymi im wartościami własnymi.,
bez dalszych ceregieli, to wektory własne i wartości własne stoją za całą magią wyjaśnioną powyżej, ponieważ wektory własne macierzy kowariancji są w rzeczywistości kierunkami osi, w których występuje największa wariancja (większość informacji) i które nazywamy składnikami głównymi. A wartości własne to po prostu współczynniki dołączone do wektorów własnych, które dają wielkość wariancji przenoszonej w każdym składniku głównym.
sortując wektory własne według ich wartości własnych, od najwyższej do najniższej, otrzymujesz główne składniki w kolejności znaczenia.,
przykład:
Załóżmy,że nasz zbiór danych jest 2-wymiarowy z 2 zmiennymi x, y i że wektory własne i wartości własne macierzy kowariancji są następujące:
Jeśli uszeregujemy wartości własne w porządku malejącym, otrzymamy λ1>λ2, co oznacza, że wektor, który odpowiada pierwszemu składowi głównemu (PC1), to v1, a ten, który odpowiada drugiemu składowi (PC2), to v2.,
Po uzyskaniu głównych składników, aby obliczyć procent wariancji (informacji) dla każdego składnika, dzielimy wartość własną każdego składnika przez sumę wartości własnych. Jeśli zastosujemy to na powyższym przykładzie, okaże się, że PC1 i PC2 zawierają odpowiednio 96% i 4% wariancji danych.
Krok 4: Wektor funkcji
jak widzieliśmy w poprzednim kroku, obliczanie wektorów własnych i porządkowanie ich według wartości własnych w porządku malejącym, pozwala nam znaleźć główne składniki w kolejności znaczenia., W tym kroku wybieramy, czy zachować wszystkie te składniki, czy odrzucić te o mniejszym znaczeniu (o niskich wartościach własnych) i z pozostałymi tworzymy macierz wektorów, którą nazywamy wektorami funkcji.
Tak więc wektor funkcji jest po prostu macierzą, która ma jako kolumny własne wektory składników, które zdecydujemy się zachować. To sprawia, że jest to pierwszy krok w kierunku zmniejszenia wymiarowości, ponieważ jeśli zdecydujemy się zachować tylko P eigenvectors (składniki) z n, końcowy zestaw danych będzie miał tylko P Wymiary.,
przykład:
kontynuując przykład z poprzedniego kroku, możemy utworzyć wektor funkcji z obydwoma wektorami Eigenvector v1 i v2:
lub odrzucić eigenvector v2, który jest wektorem o mniejszym znaczeniu, i utworzyć wektor funkcji tylko z v1:
odrzucenie Eigenvector v2 zmniejszy wymiarowość o 1, a w konsekwencji spowoduje utratę informacji w końcowym zestawie danych., Ale biorąc pod uwagę, że v2 niosło tylko 4% informacji, strata nie będzie zatem ważna i nadal będziemy mieli 96% informacji, które są przenoszone przez v1.
tak więc, jak widzieliśmy w przykładzie, to do ciebie należy wybór, czy zachować wszystkie składniki, czy odrzucić te o mniejszym znaczeniu, w zależności od tego, czego szukasz. Ponieważ jeśli po prostu chcesz opisać swoje dane w kategoriach nowych zmiennych (głównych składników), które są nieskorelowane bez dążenia do zmniejszenia wymiarowości, pomijanie mniej istotnych składników nie jest potrzebne.,
ostatni krok: przekształcenie danych wzdłuż osi głównych składników
w poprzednich krokach, oprócz standaryzacji, nie wprowadzasz żadnych zmian w danych, po prostu wybierasz główne składniki i tworzysz wektor funkcji, ale zestaw danych wejściowych pozostaje zawsze pod względem oryginalnych osi (tj. pod względem początkowych zmiennych).,
w tym kroku, który jest ostatnim, celem jest wykorzystanie wektora funkcji utworzonego przy użyciu wektorów własnych macierzy kowariancji, aby zmienić orientację danych z oryginalnych osi na te reprezentowane przez główne składniki(stąd nazwa analiza głównych składników). Można tego dokonać mnożąc transpozycję oryginalnego zbioru danych przez transpozycję wektora funkcji.
* * *
Zakaria Jaadi jest analitykiem danych i inżynierem uczenia maszynowego. Sprawdź więcej jego treści na tematy związane z nauką o danych na nośniku.
Leave a Reply