Lo scopo di questo post è quello di fornire una spiegazione completa e semplificata dell’analisi dei componenti principali, e soprattutto di rispondere a come funziona passo dopo passo, in modo che tutti possano capirlo e farne uso, senza necessariamente avere un forte background matematico.
PCA è in realtà un metodo ampiamente coperto sul web, e ci sono alcuni grandi articoli su di esso, ma solo pochi di loro vanno dritti al punto e spiegano come funziona senza immergersi troppo nei tecnicismi e il ‘perché’ delle cose., Questo è il motivo per cui ho deciso di creare il mio post per presentarlo in modo semplificato.
Prima di arrivare alla spiegazione, questo post fornisce spiegazioni logiche di ciò che PCA sta facendo in ogni passaggio e semplifica i concetti matematici dietro di esso, come standardizzazione, covarianza, autovettori e autovalori senza concentrarsi su come calcolarli.
Che cos’è l’analisi dei componenti principali?,
Principal Component Analysis, o PCA, è un metodo di riduzione della dimensionalità che viene spesso utilizzato per ridurre la dimensionalità di grandi insiemi di dati, trasformando un grande insieme di variabili in uno più piccolo che contiene ancora la maggior parte delle informazioni nel grande insieme.
Ridurre il numero di variabili di un set di dati viene naturalmente a scapito della precisione, ma il trucco nella riduzione della dimensionalità è quello di scambiare un po ‘ di precisione per semplicità., Poiché i set di dati più piccoli sono più facili da esplorare e visualizzare e rendono l’analisi dei dati molto più semplice e veloce per gli algoritmi di apprendimento automatico senza variabili estranee da elaborare.
Quindi, per riassumere, l’idea di PCA è semplice: ridurre il numero di variabili di un set di dati, preservando il maggior numero possibile di informazioni.
Spiegazione passo passo di PCA
Fase 1: Standardizzazione
Lo scopo di questa fase è quello di standardizzare l’intervallo delle variabili iniziali continue in modo che ognuna di esse contribuisca ugualmente all’analisi.,
Più specificamente, il motivo per cui è fondamentale eseguire la standardizzazione prima del PCA, è che quest’ultimo è abbastanza sensibile per quanto riguarda le varianze delle variabili iniziali. Cioè, se ci sono grandi differenze tra gli intervalli delle variabili iniziali, quelle variabili con intervalli più grandi domineranno su quelle con intervalli piccoli (ad esempio, una variabile che varia tra 0 e 100 dominerà su una variabile che varia tra 0 e 1), il che porterà a risultati distorti. Quindi, trasformare i dati in scale comparabili può prevenire questo problema.,
Matematicamente, questo può essere fatto sottraendo la media e dividendo per la deviazione standard per ogni valore di ogni variabile.
Una volta completata la standardizzazione, tutte le variabili verranno trasformate nella stessa scala.
Passaggio 2: Calcolo della matrice di covarianza
Lo scopo di questo passaggio è capire come le variabili del set di dati di input variano dalla media l’una rispetto all’altra, o in altre parole, per vedere se c’è qualche relazione tra loro., Perché a volte le variabili sono altamente correlate in modo tale da contenere informazioni ridondanti. Quindi, per identificare queste correlazioni, calcoliamo la matrice di covarianza.
La matrice di covarianza è una matrice simmetrica p × p (dove p è il numero di dimensioni) che ha come voci le covarianze associate a tutte le possibili coppie delle variabili iniziali., Per esempio, per un 3-dimensionale set di dati con 3 variabili x, y, e z, la matrice di covarianza è un 3×3 matrice di questo:
Dal momento che la covarianza di una variabile con se stessa è la sua varianza (Cov(a,a)=Var(a)), in diagonale principale (in Alto a sinistra a in basso a destra) in realtà abbiamo le varianze di ogni variabile iniziale., E poiché la covarianza è commutativa(Cov(a,b)=Cov (b,a)), le voci della matrice di covarianza sono simmetriche rispetto alla diagonale principale, il che significa che le porzioni triangolari superiore e inferiore sono uguali.
Cosa ci dicono le covarianze che abbiamo come voci della matrice sulle correlazioni tra le variabili?,
È in realtà il segno della covarianza che conta :
- se positivo : le due variabili aumentare o diminuire insieme (correlato)
- se negativo : Uno aumenta quando le altre variazioni in diminuzione (Inversamente correlata)
Ora, sappiamo che la matrice di covarianza non è più di una tabella che riassume le correlazioni tra tutte le possibili coppie di variabili, passiamo alla fase successiva.,
Passo 3: Calcolare gli autovettori e gli autovalori della matrice di covarianza per identificare le componenti principali
Gli autovettori e gli autovalori sono i concetti di algebra lineare che dobbiamo calcolare dalla matrice di covarianza per determinare le componenti principali dei dati. Prima di arrivare alla spiegazione di questi concetti, capiamo prima cosa intendiamo per componenti principali.
I componenti principali sono nuove variabili costruite come combinazioni lineari o miscele delle variabili iniziali., Queste combinazioni sono fatte in modo tale che le nuove variabili (cioè i componenti principali) non siano correlate e la maggior parte delle informazioni all’interno delle variabili iniziali viene compressa o compressa nei primi componenti. Quindi, l’idea è che i dati dimensionali 10 ti diano 10 componenti principali, ma PCA cerca di inserire la massima informazione possibile nel primo componente, quindi la massima informazione rimanente nel secondo e così via, fino ad avere qualcosa di simile mostrato nella trama di ghiaioni qui sotto.,
l’Organizzazione delle informazioni in componenti principali in questo modo, vi permetterà di ridurre la dimensionalità senza perdere troppa informazione, eliminando i componenti a basso informazioni e considerando i restanti componenti come nuove variabili.,
Una cosa importante da realizzare qui è che le componenti principali sono meno interpretabili e non hanno alcun significato reale poiché sono costruite come combinazioni lineari delle variabili iniziali.
Geometricamente parlando, componenti principali rappresentano le direzioni dei dati che spiegano una quantità massima di varianza, vale a dire, le linee che catturano la maggior parte delle informazioni dei dati., La relazione tra varianza e informazione qui è che, maggiore è la varianza trasportata da una linea, maggiore è la dispersione dei punti di dati lungo di essa, e maggiore è la dispersione lungo una linea, maggiore è l’informazione che ha. Per dirla semplicemente, basta pensare ai componenti principali come nuovi assi che forniscono l’angolo migliore per vedere e valutare i dati, in modo che le differenze tra le osservazioni siano meglio visibili.
Iscriviti gratuitamente per ottenere più storie di scienza dei dati come questa.,
Come PCA costruisce i componenti principali
Poiché ci sono tanti componenti principali quante sono le variabili nei dati, i componenti principali sono costruiti in modo tale che il primo componente principale rappresenti la più grande varianza possibile nel set di dati. Ad esempio, supponiamo che il grafico a dispersione del nostro set di dati sia come mostrato di seguito, possiamo indovinare il primo componente principale ?, Sì, è approssimativamente la linea che corrisponde ai segni viola perché passa attraverso l’origine ed è la linea in cui la proiezione dei punti (punti rossi) è la più diffusa. O matematicamente parlando, è la linea che massimizza la varianza (la media delle distanze quadrate dai punti proiettati (punti rossi) all’origine).
La seconda componente principale viene calcolata allo stesso modo, a condizione che non sia correlata (cioè perpendicolare a) alla prima componente principale e che rappresenti la successiva più alta varianza.,
Questo continua fino a quando un totale di componenti principali p sono stati calcolati, pari al numero originale di variabili.
Ora che abbiamo capito cosa intendiamo per componenti principali, torniamo agli autovettori e agli autovalori. Quello che devi prima sapere su di loro è che vengono sempre a coppie, in modo che ogni autovettore abbia un autovalore. E il loro numero è uguale al numero di dimensioni dei dati. Ad esempio, per un set di dati 3-dimensionale, ci sono 3 variabili, quindi ci sono 3 autovettori con 3 autovalori corrispondenti.,
Senza ulteriori indugi, sono gli autovettori e gli autovalori che sono dietro a tutta la magia spiegata sopra, perché gli autovettori della matrice di Covarianza sono in realtà le direzioni degli assi in cui c’è la maggior varianza(la maggior parte delle informazioni) e che chiamiamo Componenti principali. E gli autovalori sono semplicemente i coefficienti collegati agli autovettori, che danno la quantità di varianza trasportata in ogni Componente principale.
Classificando i tuoi autovettori in ordine di autovalori, dal più alto al più basso, ottieni i componenti principali in ordine di significatività.,
Esempio:
supponiamo che il nostro set di dati è di 2-dimensionale con 2 variabili x,y e che gli autovettori e autovalori della matrice di covarianza sono come segue:
Se si evidenziano gli autovalori, in ordine decrescente, abbiamo λ1>λ2, il che significa che l’autovettore corrispondente alla prima componente principale (PC1) è v1 e quello che corrisponde alla seconda componente (PC2) isv2.,
Dopo avere i componenti principali, per calcolare la percentuale di varianza (informazione) rappresentata da ciascun componente, dividiamo l’autovalore di ciascun componente per la somma degli autovalori. Se applichiamo questo sull’esempio sopra, troviamo che PC1 e PC2 trasportano rispettivamente il 96% e il 4% della varianza dei dati.
Passo 4: Feature Vector
Come abbiamo visto nel passaggio precedente, calcolare gli autovettori e ordinarli in base ai loro autovalori in ordine decrescente, ci consente di trovare i componenti principali in ordine di significatività., In questo passaggio, quello che facciamo è scegliere se mantenere tutti questi componenti o scartare quelli di minore importanza (di autovalori bassi) e formare con i restanti una matrice di vettori che chiamiamo vettore di funzionalità.
Quindi, il feature vector è semplicemente una matrice che ha come colonne gli autovettori dei componenti che decidiamo di mantenere. Questo lo rende il primo passo verso la riduzione della dimensionalità, perché se scegliamo di mantenere solo gli autovettori p (componenti) da n, il set di dati finale avrà solo dimensioni p.,
Esempio:
Continuando con l’esempio del passaggio precedente, si può formare una funzione vettoriale con entrambi gli autovettori v1 e v2:
O scartare l’autovettore v2, che è quella di minore rilevanza, e la forma di una funzione vettoriale con v1 solo:
Scartando l’autovettore v2 ridurre la dimensionalità da 1, e, di conseguenza, causare una perdita di informazioni nel finale di set di dati., Ma dato che v2 trasportava solo il 4% delle informazioni, la perdita non sarà quindi importante e avremo ancora il 96% delle informazioni trasportate da v1.
Quindi, come abbiamo visto nell’esempio, sta a te scegliere se mantenere tutti i componenti o scartare quelli di minore importanza, a seconda di cosa stai cercando. Perché se vuoi solo descrivere i tuoi dati in termini di nuove variabili (componenti principali) che non sono correlate senza cercare di ridurre la dimensionalità, non è necessario escludere componenti meno significativi.,
Ultimo passo: Rifusione dei dati Lungo gli assi dei componenti principali
Nei passaggi precedenti, a parte la standardizzazione, non si apportano modifiche ai dati, basta selezionare i componenti principali e formare il vettore di funzionalità, ma il set di dati di input rimane sempre in termini di assi originali (cioè in termini di variabili iniziali).,
In questa fase, che è l’ultima, l’obiettivo è quello di utilizzare il feature vector formato utilizzando gli autovettori della matrice di covarianza, per riorientare i dati dagli assi originali a quelli rappresentati dalle componenti principali (da cui il nome Principal Components Analysis). Questo può essere fatto moltiplicando la trasposizione del set di dati originale per la trasposizione del vettore di funzionalità.
* * *
Zakaria Jaadi è uno scienziato di dati e ingegnere di apprendimento automatico. Scopri di più del suo contenuto su argomenti di scienza dei dati su Medium.
Leave a Reply