A cél, ez a poszt célja egy teljes, illetve egyszerűsített magyarázata Principal Component Analysis, különösen, hogy a választ, hogyan működik, lépésről lépésre, úgy, hogy mindenki meg tudja érteni, hogy használni, anélkül, hogy egy erős matematikai háttér.
a PCA valójában egy széles körben lefedett módszer az interneten, és van néhány nagyszerű cikk róla, de csak kevesen mennek egyenesen a lényegre, és elmagyarázzák, hogyan működik anélkül, hogy túl sokat merítenének a dolgok technikájába és “miért”., Ez az oka annak, hogy úgy döntöttem, hogy saját posztomat készítem, hogy egyszerűsített módon bemutassam.
Mielőtt a magyarázat, ez a post nyújt logikus magyarázatot, hogy mi PCA csinál minden egyes lépés pedig leegyszerűsíti a matematikai fogalmak mögött, mint a szabványosítás, covariance, eigenvectors, valamint az egész nélkül összpontosít, hogyan kell kiszámítani őket.
mi a fő komponens elemzés?,
a főkomponens-elemzés vagy a PCA egy dimenziócsökkentő módszer, amelyet gyakran használnak a nagy adatkészletek dimenzióinak csökkentésére, egy nagy változókészlet kisebbre történő átalakításával, amely még mindig tartalmazza a nagy készletben lévő információk nagy részét.
az adatkészlet változóinak számának csökkentése természetesen a pontosság rovására megy, de a dimenziócsökkentés trükkje az, hogy egy kis pontosságot kereskedjen az egyszerűség érdekében., Mivel a kisebb adatkészleteket könnyebb felfedezni, vizualizálni, és az adatok elemzését sokkal könnyebbé és gyorsabbá tenni a gépi tanulási algoritmusok számára, idegen változók nélkül.
összefoglalva, a PCA ötlete egyszerű-csökkentse az adatkészlet változóinak számát, miközben a lehető legtöbb információt megőrzi.
A PCA
1. lépés: szabványosítás
ennek a lépésnek a célja a folyamatos kezdeti változók tartományának szabványosítása, hogy mindegyikük egyformán hozzájáruljon az elemzéshez.,
pontosabban, az oka annak, hogy kritikus a szabványosítás végrehajtása a PCA előtt, az, hogy ez utóbbi meglehetősen érzékeny a kezdeti változók eltérései tekintetében. Vagyis, ha nagy különbségek vannak a kezdeti változók tartományai között, akkor a nagyobb tartományokkal rendelkező változók dominálnak a kis tartományokkal rendelkezőknél (például egy 0 és 100 közötti változó dominál egy 0 és 1 közötti változó felett), ami elfogult eredményekhez vezet. Tehát az adatok összehasonlítható skálákra történő átalakítása megakadályozhatja ezt a problémát.,
matematikailag ezt úgy lehet megtenni, hogy kivonjuk az átlagot, és elosztjuk az egyes változók minden egyes értékére vonatkozó szórással.
a szabványosítás elvégzése után az összes változó ugyanarra a skálára változik.
2. lépés: Covariance Matrix computation
ennek a lépésnek az a célja, hogy megértsük, hogyan változnak a bemeneti adatkészlet változói az egymáshoz viszonyított átlagtól, vagy más szavakkal, hogy lássuk, van-e kapcsolat közöttük., Mert néha a változók nagymértékben korrelálnak oly módon, hogy redundáns információkat tartalmaznak. Tehát ezeknek a korrelációknak a azonosítása érdekében kiszámítjuk a kovariancia mátrixot.
a kovarianciamátrix egy p × p szimmetrikus mátrix (ahol p a dimenziók száma), amely bejegyzésként tartalmazza a kezdeti változók összes lehetséges párjához kapcsolódó kovariánsokat., Például egy 3-dimenziós adatok szett 3 változókat x, y, z, a covariance mátrix egy 3×3-as mátrix ezt:
Mivel a covariance egy változó önmagával, a variancia (Cov(a,a)=Var(a)), a fő átlós (bal Felső, jobb alsó) valójában a varianciák minden kezdeti változó., Mivel a kovariancia kommutatív (Cov (a, b)=Cov (b,a))), A kovarianciamátrix bejegyzései szimmetrikusak a fő átlóhoz képest, ami azt jelenti, hogy a felső és az alsó háromszög részek egyenlőek.
mit mondanak a kovariánsok, amelyek a mátrix bejegyzéseként vannak, a változók közötti korrelációkról?,
tulajdonképpen a jele, hogy a covariance, ami számít :
- ha pozitív, akkor a két változó növelése vagy csökkentése együtt (korrelált)
- ha negatív, akkor : Egy nő, ha a másik csökken (Fordítottan korrelált)
Most, azt tudjuk, hogy a covariance mátrix nem több, mint egy táblázat, hogy összefoglalókat az összefüggések között az összes lehetséges pár változókat is, hadd menjen a következő lépésre.,
3. lépés: számítsuk ki a kovarianciamátrix eigenvektorait és eigenértékeit, hogy azonosítsuk a fő komponenseket
az Eigenvektorok és az eigenértékek azok a lineáris algebra fogalmak, amelyeket a kovarianciamátrixból kell kiszámolnunk az adatok fő összetevőinek meghatározásához. Mielőtt megismernénk ezeknek a fogalmaknak a magyarázatát, először értsük meg, mit értünk a fő összetevők alatt.
a fő összetevők olyan új változók, amelyek a kezdeti változók lineáris kombinációi vagy keverékei., Ezek a kombinációk történik, oly módon, hogy az új változók (azaz, fő alkatrészek) szabálytalan alakzat, valamint a legtöbb információt belül az eredeti változók facsart vagy tömörítve az első alkatrészek. Tehát az ötlet 10 dimenziós adat 10 fő összetevőt ad, de a PCA megpróbálja a lehető legnagyobb információt elhelyezni az első komponensben, majd a maximális fennmaradó információt a másodikban stb., amíg valami hasonló nem jelenik meg az alábbi scree-telken.,
Szervező információk a fő összetevők, így lehetővé teszi, hogy csökkentse a kiterjedés anélkül, hogy elveszítené a sok információt, majd ezt öntsük a komponensek alacsony információkat, valamint figyelembe véve, a fennmaradó elemek, mint az új változók.,
fontos dolog, amit itt fel kell ismernünk, hogy a fő összetevők kevésbé értelmezhetők, és nincs valódi jelentésük, mivel a kezdeti változók lineáris kombinációiként vannak felépítve.
geometriailag elmondható, hogy a fő komponensek az adatok azon irányait képviselik, amelyek a variancia maximális mennyiségét magyarázzák, vagyis azokat a sorokat, amelyek az adatok legtöbb információját rögzítik., A variancia és az információ közötti kapcsolat itt az, hogy minél nagyobb a vonal által hordozott variancia, annál nagyobb az adatpontok diszperziója, és minél nagyobb a szórás egy vonal mentén, annál több információ van. Egyszerűen fogalmazva, csak gondolj a fő összetevőkre, mint új tengelyekre, amelyek a legjobb szöget biztosítják az adatok megtekintéséhez és értékeléséhez, hogy a megfigyelések közötti különbségek jobban láthatóak legyenek.
iratkozzon fel ingyenesen, hogy több ilyen adattudományi történetet kapjon.,
Hogyan PCA Konstrukciók a Fő Alkatrészek
Mint annyi fő alkotórészek, mint változó adatok, fő összetevők kialakítani, oly módon, hogy az első fő összetevője beszámoló a lehető legnagyobb eltérés a meghatározott adatokat. Tegyük fel például, hogy adatkészletünk szórási rajza az alábbiakban látható, kitalálhatjuk-e az első fő összetevőt ?, Igen, nagyjából az a vonal, amely megfelel a lila jeleknek, mert átmegy az eredeten, és ez az a vonal, amelyben a pontok vetülete (piros pontok) a leginkább elterjedt. Vagy matematikailag, ez a vonal maximalizálja a varianciát (a négyzet távolságának átlaga a vetített pontoktól (piros pontok) az eredetig).
a második fő komponenst ugyanúgy számítják ki, azzal a feltétellel, hogy nem kapcsolódik (azaz merőleges) az első fő komponenshez, és hogy a következő legnagyobb varianciát adja.,
Ez addig folytatódik, amíg a változók eredeti számával megegyező, összesen p főkomponenst nem számítanak ki.
most, hogy megértettük, mit értünk a fő összetevők alatt, térjünk vissza az eigenvektorokhoz és az eigenértékekhez. Amit először tudnia kell róluk, az az, hogy mindig párban jönnek, hogy minden egyes eigenvektornak legyen egy sajátértéke. Számuk megegyezik az adatok méreteinek számával. Például egy 3-dimenziós adatkészlet esetében 3 változó van, ezért 3 eigenvektor van 3 megfelelő eigenértékkel.,
minden további Nélkül, az eigenvectors, valamint az egész, akik mögött a mágikus kifejtettük, mert a eigenvectors a Covariance mátrix valójában az irányban, hogy a tengely, ahol a variancia(a legtöbb információt), valamint, hogy felhívjuk Fő Összetevők. Az eigenértékek pedig egyszerűen az eigenvektorokhoz kapcsolódó együtthatók, amelyek az egyes fő komponensekben hordozott variancia mennyiségét adják.
az eigenvektorok rangsorolásával az egenértékek sorrendjében, a legmagasabbtól a legalacsonyabbig, a fő komponenseket a jelentőség sorrendjében kapja meg.,
példa:
tegyük fel,hogy adatkészletünk 2 dimenziós, 2 x, y változóval, és hogy a kovariáns mátrix eigenvektorai és eigenértékei a következők:
Ha az eigenértékeket csökkenő sorrendben rangsoroljuk, akkor λ1>λ2, ami azt jelenti, hogy az első fő komponensnek (PC1) megfelelő eigenvektor V1, a második komponensnek (PC2) megfelelő v2.,
miután a fő összetevők, kiszámításához a százalékos variancia (információ) elszámolt minden egyes komponens, osztjuk a eigenvalue az egyes komponensek összegével eigenvalues. Ha ezt a fenti példában alkalmazzuk, azt találjuk, hogy a PC1, illetve a PC2 az adatok varianciájának 96% – át, illetve 4% – át hordozza.
4. lépés: Feature Vector
ahogy az előző lépésben láttuk, az eigenvektorok számítása és sorrendje az eigenértékek szerint csökkenő sorrendben lehetővé teszi számunkra, hogy a fő komponenseket a jelentőség sorrendjében találjuk meg., Ez a lépés, amit teszünk, az, hogy szeretné-e tartani ezeket az összetevőket, vagy törölheti azokat a kisebb jelentőségű (alacsony egész), de formában, a többi a mátrix vektorok hívjuk Funkció vektor.
tehát a jellemző vektor egyszerűen egy mátrix, amely oszlopként tartalmazza az összetevők eigenvektorait, amelyeket úgy döntünk, hogy megtartunk. Ez teszi az első lépést a dimenziócsökkentés felé, mert ha úgy döntünk, hogy csak a P eigenvektorokat (komponenseket) tartjuk N-ből, akkor a végső adatkészletnek csak p méretei lesznek.,
Példa:
Folytatva a példát az előző lépésben, akkor sem alkotnak egy funkció vektor mind a eigenvectors v1 v2:
Vagy dobja ki a eigenvector v2, amely az egyik kisebb jelentőséggel bír, így alkotnak egy funkció vektor v1 csak:
a Halak a eigenvector v2 csökkenti kiterjedés által, 1,, következésképpen, mert egy információ elvesztése, a végleges adatok beállítása., Tekintettel azonban arra, hogy a v2 csak az információk 4% – át hordozta, a veszteség ezért nem lesz fontos, és továbbra is a v1 által szállított információk 96% – a lesz.
Tehát, amint azt a példában láttuk, Ön dönti el, hogy megtartja-e az összes összetevőt, vagy eldobja-e a kisebb jelentőségű komponenseket, attól függően, hogy mit keres. Mert ha csak az adatokat olyan új változókkal (fő összetevőkkel) szeretné leírni, amelyek nem kapcsolódnak egymáshoz anélkül, hogy csökkentenék a dimenzióosságot, akkor nincs szükség kisebb jelentős összetevők elhagyására.,
Utolsó Lépés: Átdolgozás az Adatok Mentén a Fő Alkatrészek, Tengelyek
az előző lépéseket, eltekintve a szabványosítás nem módosítja az adatokat, csak válassza ki a fő összetevők alkotják a funkciót vektor, de a bemeneti adatsor marad mindig a tekintetben, hogy az eredeti tengely (én.e, tekintve, hogy az eredeti változók).,
ebben a lépésben, amely az utolsó, a cél az, hogy a kovarianciamátrix eigenvektoraival kialakított jellemző vektort használjuk, hogy az adatokat az eredeti tengelyektől a fő komponensek által ábrázolt elemekhez igazítsuk (innen a fő komponensek elemzése). Ezt úgy lehet megtenni, hogy megszorozzuk az eredeti adatkészlet átültetését a jellemző vektor átültetésével.
* * *
Zakaria Jaadi adattudós és gépi tanulási mérnök. Nézze meg több tartalmát az adattudományi témákban a médiumon.
Leave a Reply