tämän jälkeen on tarjota täydellisen ja yksinkertaistettu selitys Principal Component Analysis, ja erityisesti vastata, miten se toimii askel askeleelta, niin että jokainen voi ymmärtää sen ja käyttää sitä, ei välttämättä ole vahva matemaattinen tausta.
PCA on todella laajalti katettu menetelmä webissä, ja on olemassa joitakin suuria artikkeleita siitä, mutta vain harvat heistä mennä suoraan asiaan ja selittää, miten se toimii ilman sukeltaa liikaa teknisiin yksityiskohtiin ja ”miksi” asioita., Siksi päätin tehdä oman postini esittääkseni sen yksinkertaistetusti.
Ennen saada selitys, tämä viesti tarjoaa loogisia selityksiä, mitä PCA tekee jokainen askel ja yksinkertaistaa matemaattisia käsitteitä sen takana, kuten standardointi, kovarianssi, ominaisvektorit ja ominaisarvot ilman keskittyen siihen, miten laskea niitä.
mikä on pääkomponenttianalyysi?,
pääkomponenttianalyysi, tai KUMPPANUUS-ja yhteistyösopimuksen, on dimensionality vähentäminen menetelmä, jota käytetään usein vähentää dimensionaalisuus suuria tietomääriä, muuttamalla suuri joukko muuttujia pienempään yksi, joka vielä sisältää useimmat tiedot suuri joukko.
tietokokonaisuuden muuttujien määrän vähentäminen tapahtuu luonnollisesti tarkkuuden kustannuksella, mutta dimensionaalisuuden vähentämisessä juju on vaihtaa hieman tarkkuutta yksinkertaisuuteen., Koska pienempiä tietomääriä on helpompi tutkia ja visualisoida ja tehdä analysoimalla tietoa paljon helpompi ja nopeampi kone oppimisen algoritmeja, ilman ylimääräisiä muuttujia prosessi.
yhteenvetona, ajatus PCA on yksinkertainen — vähentää muuttujien tietojen joukko, säilyttäen mahdollisimman paljon tietoa.
Askel askeleelta Selitys PCA
Askel 1: Standardointi
tavoitteena tässä vaiheessa on yhtenäistää alueen jatkuva alkuperäiset muuttujat niin, että jokainen heistä vaikuttaa osaltaan myös analyysin.,
tarkemmin, miksi se on tärkeää suorittaa standardointi ennen KUMPPANUUS-ja yhteistyösopimuksen, on, että jälkimmäinen on varsin herkkä osalta varianssit alkuperäisen muuttujia. Että on, jos välillä on suuria eroja alueiden alkuperäiset muuttujat, näiden muuttujien kanssa suurempi vaihtelee hallitsevat yli ne, joilla on pienet alueet (esimerkiksi muuttuja, joka vaihtelee välillä 0 ja 100 hallitsevat yli muuttuja, joka vaihtelee välillä 0 ja 1), joka johtaa harhaisiin tuloksiin. Tietojen muuttaminen vertailukelpoisiksi asteikoiksi voi siis estää tämän ongelman.,
Matemaattisesti tämä voidaan tehdä vähentämällä keskiarvo ja jakamalla keskihajonta kunkin arvo jokaisella muuttujalla.
Kun standardointi on tehty, kaikki muuttujat muunnetaan samaan mittakaavaan.
Vaihe 2: Kovarianssi-Matriisin laskenta
tavoitteena tässä vaiheessa on ymmärtää, miten muuttujat input data set ovat vaihtelevat keskiarvo suhteessa toisiinsa, tai toisin sanoen, nähdä, jos siellä on jokin suhde toisiinsa., Koska joskus muuttujat korreloivat voimakkaasti siten, että ne sisältävät turhaa tietoa. Jotta voimme tunnistaa nämä korrelaatiot, laskemme kovarianssimatriisin.
kovarianssimatriisi on p × p symmetrinen matriisi (missä p on määrä mitat), joka on kuin merkinnät covariances liittyvät kaikki mahdolliset paria alkuperäiset muuttujat., Esimerkiksi 3-ulotteinen data set kanssa 3 muuttujat x -, y -, ja z kovarianssi-matriisi on 3×3 matriisi tästä:
Koska muuttujan kovarianssi itsensä kanssa on sen varianssi (Cov(a,a)=Var(a)), tärkein lävistäjä (Ylhäältä vasemmalta alas oikealle) meillä on varianssit kunkin alkuperäisen muuttujan., Ja koska kovarianssi on kommutatiivinen (Cov(a,b)=Cov(b,a)), merkinnät kovarianssimatriisi on symmetrinen tärkein lävistäjä, mikä tarkoittaa, että ylemmän ja alemman kolmion osat ovat tasa-arvoisia.
Mitä ne kovarianssit, joita meillä on matriisin merkinnöinä, kertovat meille muuttujien välisestä korrelaatiosta?,
Se on itse asiassa merkki kovarianssi, että asiat :
- jos se on positiivinen niin : kaksi muuttujaa lisätä tai vähentää yhdessä (korreloi)
- jos negatiiviset : Yksi lisää, kun muut vähennykset (Kääntäen verrannollinen)
Nyt, että me tiedämme, että kovarianssimatriisi ei ole enemmän kuin taulukko, joka yhteenvedot väliset korrelaatiot kaikki mahdolliset paria muuttujia, siirrytään seuraavaan vaiheeseen.,
Vaihe 3: Laskea ominaisvektorit ja ominaisarvot kovarianssimatriisi tunnistaa tärkeimmät komponentit
Ominaisvektorit ja ominaisarvot ovat lineaarialgebran käsitteitä, että meidän täytyy laskea päässä kovarianssimatriisi jotta voidaan määrittää tärkeimmät komponentit tiedot. Ennen kuin päästään näiden käsitteiden selitykseen, niin ensin ymmärretään, mitä tarkoitamme pääkomponenteilla.
Pääasiallinen osat ovat uusia muuttujia, jotka ovat rakennettu kuin lineaarisia yhdistelmiä tai seoksia, alkuperäisen muuttujia., Nämä yhdistelmät ovat tehty siten, että uusia muuttujia (eli principal components) ovat uncorrelated ja suurin osa tiedoista kuluessa alkuperäisen muuttujia on puristettu tai puristettu ensimmäiset osat. Niin, ajatus on 10-ulotteinen data antaa sinulle 10 tärkeimmistä osista, mutta PCA yrittää laittaa mahdollisimman paljon tietoa ensimmäisen osan, sitten enintään loput tiedot toisen ja niin edelleen, kunnes ottaa jotain näkyy kuvaruutukohdistimen juoni alla.,
Järjestää tiedot tärkeimmistä osista tämä tapa, voit vähentää dimensionality ilman menettää paljon tietoa, ja tämä luopumalla osia, joilla on alhainen tieto-ja kun otetaan huomioon jäljellä olevat osat kuin uusia muuttujia.,
tärkeä asia ymmärtää on, että tärkeimmät osat ovat vähemmän tulkittavaa ja ei ole mitään todellista merkitystä, koska ne ovat rakennettu kuin lineaarisia yhdistelmiä alkuperäisen muuttujia.
Geometrisesti ottaen, rehtori osat edustavat ohjeet ja tiedot, jotka selittävät maksimaalinen määrä varianssi, joka on sanoa, linjat, jotka keräävät eniten tietoa tiedot., Suhde varianssi ja tiedot täällä, on, että mitä suurempi varianssi kuljettaa linja, suurempi hajonta mittauspisteiden pitkin, ja suurempi hajonta pitkin linjaa, sitä enemmän tietoa se on. Yksinkertaisesti sanottuna ajatelkaa pääkomponentteja uusina akseleina, jotka tarjoavat parhaan näkökulman nähdä ja arvioida tietoja, jotta havaintojen erot näkyvät paremmin.
Rekisteröidy nopeasti ilmaiseksi saada enemmän tietoa tiede tarinoita, kuten tämä.,
Miten PCA Rakentaa Principal Components
Koska on olemassa niin monia tärkeimmistä osista, koska on olemassa muuttujia, tiedot, keskeiset komponentit on rakennettu siten, että ensin principal component osuus on suurin mahdollinen varianssi data set. Esimerkiksi oletetaan, että scatter juoni meidän tietokokonaisuus on esitetty alla, voimmeko arvata ensimmäinen pääkomponentti ?, Kyllä, se on noin linja, joka vastaa violetti markkaa, koska se menee läpi alkuperää ja se on linja, jossa projektio pistettä (punaiset pisteet) on kaikkein levittää. Tai matemaattisesti puhuminen, se on linja, joka maksimoi varianssi (keskimääräinen potenssiin etäisyydet ennustettu pistettä (punaiset pisteet) alkuperää).
toinen tärkeä komponentti on laskettu samalla tavalla, sillä edellytyksellä, että se korreloi kanssa (eli kohtisuorassa) ensimmäinen pääkomponenttianalyysi ja että sen osuus on seuraavaksi suurin varianssi.,
Tämä jatkuu, kunnes yhteensä p principal components on laskettu, yhtä suuri kuin alkuperäinen määrä muuttujia.
nyt kun ymmärsimme, mitä tarkoitamme pääkomponenteilla, palataan eigenvektoreihin ja eigenvaluesiin. Ensinnäkin sinun täytyy tietää niistä on, että ne tulevat aina pareittain, jotta jokainen eigenvector on eigenvalue. Ja niiden määrä on yhtä suuri kuin tietojen mittojen määrä. Esimerkiksi 3-ulotteinen data set, on 3 muuttujat, siksi on 3 ominaisvektorit 3 vastaavat ominaisarvot.,
pitemmittä puheitta, se on ominaisvektorit ja ominaisarvot, jotka ovat takana kaikki taika edellä, koska ominaisvektorit ja kovarianssimatriisi ovat todella suuntiin akselit, joilla on suurin varianssi(eniten tietoa) ja että me kutsumme Rehtori Osia. Ja ominaisarvot ovat yksinkertaisesti kertoimet kiinnitetty ominaisvektorit, joka antaa määrä varianssi kuljettaa jokainen Pääasiallinen Komponentti.
ranking ominaisvektorit, jotta niiden ominaisarvot, suurimmasta pienimpään, saat tärkeimmät komponentit, jotta merkitys.,
Esimerkki:
oletetaan, että meidän tiedot set on 2-ulotteinen ja 2 muuttujat x,y ja että ominaisvektorit ja ominaisarvot ja kovarianssimatriisi ovat seuraavat:
Jos me listalla ominaisarvot laskevassa järjestyksessä, saamme λ1>λ2, mikä tarkoittaa, että eigenvector, joka vastaa ensimmäisen pääasiallinen komponentti (PC1) on v1 ja yksi, joka vastaa toisen komponentin (PC2) isv2.,
sen Jälkeen, kun rehtori komponentteja, laskea prosenttiosuus varianssin (tiedot) osuus, jonka jokainen osa, me jakaa ominaisarvo kunkin komponentin summa ominaisarvot. Jos sovellamme tätä yllä olevaan esimerkkiin, havaitsemme, että PC1 ja PC2 kantavat vastaavasti 96% ja 4% tietojen varianssista.
Vaihe 4: Feature Vector
Kuten näimme edellisessä vaiheessa, computing ominaisvektorit ja tilaamalla ne niiden ominaisarvot laskevassa järjestyksessä, jotta voimme löytää tärkeimmät komponentit, jotta merkitys., Tässä vaiheessa, mitä teemme on, valita pitää kaikki nämä komponentit tai hylätä ne vähemmän merkitystä (Alhainen eigenvalues), ja muodostaa jäljelle jääneiden kanssa matriisi vektoreita, että kutsumme ominaisuus vektori.
niin, ominaisuusvektori on yksinkertaisesti matriisi, jossa on sarakkeina niiden komponenttien eigenvektorit, jotka päätämme pitää. Tämä on se ensimmäinen askel kohti dimensionality vähentäminen, koska jos me päätämme pitää vain p ominaisvektorit (osat), n, lopullinen tietoaineisto on vain p mitat.,
Esimerkki:
Jatkaa esimerkiksi edellisessä vaiheessa, voimme joko muodossa ominaisuus vektori molemmat ominaisvektorit v1 ja v2:
Tai hävitä eigenvector v2, joka on yksi vähemmän merkitystä, ja muodostavat ominaisuus vektori v1 vain:
Heitetään eigenvector v2 vähentää dimensionality 1, ja näin ollen aiheuttaa tietojen häviämisen lopullinen data set., Mutta koska v2 oli mukanaan vain 4% tietojen menetys on siis ollut tärkeä ja meillä on vielä 96% tietoa, että toteutetaan v1.
Niin, kuten näimme esimerkiksi, se on jopa voit valita, haluatko säilyttää kaikki komponentit tai hävitä niitä, vähemmän merkitystä, riippuen siitä, mitä etsit. Koska jos haluat vain kuvaile tietosi kannalta uusia muuttujia (principal components), jotka ovat uncorrelated ilman pyrkimällä vähentämään dimensionality, jättämällä pois vähemmän merkittäviä osia ei tarvita.,
Viimeinen Vaihe: Uudelleenlaadittu Tiedot Sekä tärkeimmät Osat, Akselit
edellisissä vaiheissa, lukuun ottamatta standardointi, et tee mitään muutoksia tietoja, voit valita vain tärkeimmät osat ja muodostavat ominaisuus vektori, mutta lähtötietoja asettaa pysyy aina kannalta alkuperäisen akselin (en.e alkuperäisiin muuttujiin).,
tässä vaiheessa, joka on viimeinen, tavoitteena on käyttää piirrevektorin muodostettu käyttämällä ominaisvektorit ja kovarianssimatriisi, suunnata tietoja alkuperäisestä akselit niitä edustaa tärkeimmät komponentit (tästä nimi Principal Components Analysis). Tämä voidaan tehdä kertomalla alkuperäisten tietojen transpositio ominaisuusvektorin transpositiolla.
* * *
Zakaria Jaadi on data scientist ja koneoppimisen insinööri. Tutustu enemmän Hänen sisältöä datatieteen aiheista Medium.
Leave a Reply