el propósito de este post es proporcionar una explicación completa y simplificada del análisis de componentes principales, y especialmente para responder cómo funciona paso a paso, para que todos puedan entenderlo y hacer uso de él, sin necesariamente tener una sólida formación matemática.
PCA es en realidad un método ampliamente cubierto en la web, y hay algunos grandes artículos sobre él, pero solo unos pocos de ellos van directamente al grano y explican cómo funciona sin sumergirse demasiado en los tecnicismos y el ‘por qué’ de las cosas., Esa es la razón por la que decidí hacer mi propio post para presentarlo de una manera simplificada.
antes de llegar a la explicación, este post proporciona explicaciones lógicas de lo que PCA está haciendo en cada paso y simplifica los conceptos matemáticos detrás de él, como estandarización, covarianza, vectores propios y valores propios sin centrarse en cómo calcularlos.
¿Qué es el análisis de componentes principales?,
El análisis de componentes principales, o PCA, es un método de reducción de dimensionalidad que se usa a menudo para reducir la dimensionalidad de grandes conjuntos de datos, transformando un gran conjunto de variables en uno más pequeño que aún contiene la mayor parte de la información en el conjunto grande.
reducir el número de variables de un conjunto de datos viene naturalmente a expensas de la precisión, pero el truco en la reducción de la dimensionalidad es cambiar un poco de precisión por simplicidad., Porque los conjuntos de datos más pequeños son más fáciles de explorar y visualizar y hacen que el análisis de datos sea mucho más fácil y rápido para los Algoritmos de aprendizaje automático sin que se procesen variables extrañas.
para resumir, la idea de PCA es simple: reducir el número de variables de un conjunto de datos, mientras se preserva la mayor cantidad de información posible.
explicación paso a paso del ACP
Paso 1: estandarización
El objetivo de este paso es estandarizar el rango de las variables iniciales continuas para que cada una de ellas contribuya igualmente al análisis.,
más específicamente, la razón por la que es fundamental realizar la estandarización antes del PCA, es que este último es bastante sensible con respecto a las varianzas de las variables iniciales. Es decir, si hay grandes diferencias entre los rangos de las variables iniciales, aquellas variables con rangos más grandes dominarán sobre aquellas con rangos pequeños (por ejemplo, una variable que varía entre 0 y 100 dominará sobre una variable que varía entre 0 y 1), lo que conducirá a resultados sesgados. Por lo tanto, la transformación de los datos a escalas comparables puede prevenir este problema.,
matemáticamente, esto se puede hacer restando la media y dividiendo por la desviación estándar para cada valor de cada variable.
Una vez realizada la estandarización, todas las variables se transformarán a la misma escala.
Paso 2: Cálculo de matriz de covarianza
el objetivo de este paso es comprender cómo las variables del conjunto de datos de entrada varían de la media con respecto a la otra, o en otras palabras, para ver si hay alguna relación entre ellas., Porque a veces, las variables están altamente correlacionadas de tal manera que contienen información redundante. Así, con el fin de identificar estas correlaciones, calculamos la matriz de covarianza.
la matriz de covarianzas es una matriz simétrica p × p (donde p es el número de dimensiones) que tiene como entradas las covarianzas asociadas con todos los pares posibles de las variables iniciales., Por ejemplo, para un conjunto de datos tridimensionales con 3 variables x, Y Y z, la matriz de covarianza es una matriz 3×3 de esto de:
dado que la covarianza de una variable consigo misma es su varianza (COV(a, a)=var(a)), en la diagonal principal (de arriba a abajo a la derecha) realmente tenemos las varianzas de cada variable inicial., Y dado que la covarianza es conmutativa(Cov(A,b)=Cov (b,a)), las entradas de la matriz de covarianza son simétricas con respecto a la diagonal principal, lo que significa que las porciones triangulares superior e inferior son iguales.
¿Qué nos dicen las covarianzas que tenemos como entradas de la matriz sobre las correlaciones entre las variables?,
en realidad es el signo de la covarianza lo que importa:
- Si es positivo entonces: las dos variables aumentan o disminuyen juntas (correlacionadas)
- Si es negativo entonces: una aumenta cuando la otra disminuye (inversamente correlacionada)
ahora, que sabemos que la matriz de covarianza no es más que una tabla que resume las correlaciones entre todos los posibles pares de variables, pasemos al siguiente paso.,
Paso 3: Calcular los vectores propios y los valores propios de la matriz de covarianza para identificar los componentes principales
Los vectores propios y los valores propios son los conceptos de álgebra lineal que necesitamos calcular a partir de la matriz de covarianza para determinar los componentes principales de los datos. Antes de llegar a la explicación de estos conceptos, primero entendamos qué entendemos por componentes principales.
los componentes principales son nuevas variables que se construyen como combinaciones lineales o mezclas de las variables iniciales., Estas combinaciones se hacen de tal manera que las nuevas variables (es decir, los componentes principales) no están correlacionadas y la mayor parte de la información dentro de las variables iniciales se comprime o comprime en los primeros componentes. Por lo tanto, la idea es que los datos de 10 dimensiones le dan 10 componentes principales, pero PCA intenta poner la máxima información posible en el primer componente, luego la máxima información restante en el segundo y así sucesivamente, hasta tener algo como se muestra en el diagrama de pedregales a continuación.,
organizar la información en los componentes principales de esta manera, le permitirá reducir la dimensionalidad sin perder mucha información, y esto descartando componentes con baja información y considerando los componentes restantes como sus nuevas variables.,
una cosa importante a tener en cuenta aquí es que, los componentes principales son menos interpretables y no tienen ningún significado real ya que se construyen como combinaciones lineales de las variables iniciales.
geométricamente hablando, los componentes principales representan las direcciones de los datos que explican una cantidad máxima de varianza, es decir, las líneas que capturan la mayor parte de la información de los datos., La relación entre la varianza y la información aquí, es que, cuanto mayor es la varianza llevada por una línea, mayor es la dispersión de los puntos de datos a lo largo de ella, y cuanto mayor es la dispersión a lo largo de una línea, más la información que tiene. En pocas palabras, piense en los componentes principales como nuevos ejes que proporcionan el mejor ángulo para ver y evaluar los datos, de modo que las diferencias entre las observaciones sean mejor visibles.
regístrate gratis para obtener más datos de la ciencia historias como esta.,
cómo PCA construye los componentes principales
Como hay tantos componentes principales como variables en los datos, los componentes principales se construyen de tal manera que el primer componente principal representa la mayor varianza posible en el conjunto de datos. Por ejemplo, supongamos que el gráfico de dispersión de nuestro conjunto de datos es como se muestra a continuación, ¿podemos adivinar el primer componente principal ?, Sí, es aproximadamente la línea que coincide con las marcas púrpuras porque atraviesa el origen y es la línea en la que la proyección de los puntos (puntos rojos) es la más extendida. O matemáticamente hablando, es la línea que maximiza la varianza (el promedio de las distancias cuadradas desde los puntos proyectados (puntos rojos) hasta el origen).
El segundo componente principal se calcula de la misma manera, con la condición de que no esté correlacionado con (es decir, perpendicular a) el primer componente principal y que tenga en cuenta la siguiente varianza más alta.,
esto continúa hasta que se haya calculado un total de componentes principales de p, igual al número original de variables.
ahora que entendemos lo que queremos decir con componentes principales, volvamos a los vectores propios y los valores propios. Lo que primero necesitas saber sobre ellos es que siempre vienen en pares, para que cada vector propio tenga un valor propio. Y su número es igual al número de dimensiones de los datos. Por ejemplo, para un conjunto de datos de 3 dimensiones, hay 3 variables, por lo tanto hay 3 vectores propios con 3 valores propios correspondientes.,
sin más preámbulos, son los vectores propios y los valores propios los que están detrás de toda la magia explicada anteriormente, porque los vectores propios de la matriz de covarianza son en realidad las direcciones de los ejes donde hay más varianza(más información) y que llamamos componentes principales. Y autovalores son simplemente los coeficientes Unidos a autovectores, que dan la cantidad de varianza llevada en cada componente Principal.
al clasificar sus vectores propios en orden de sus valores propios, de mayor a menor, obtiene los componentes principales en orden de importancia.,
ejemplo:
supongamos que nuestro conjunto de datos es de 2 dimensiones con 2 variables x,y y que los vectores propios y los valores propios de la matriz de covarianza son los siguientes:
Si clasificamos los valores propios en orden descendente, obtenemos λ1>λ2, lo que significa que el vector propio que corresponde al primer componente principal (PC1) es v1 y el que corresponde al segundo componente (PC2) isv2.,
después de tener los componentes principales, para calcular el porcentaje de varianza (información) que representa cada componente, dividimos el valor propio de cada componente por la suma de los valores propios. Si aplicamos esto en el ejemplo anterior, encontramos que PC1 y PC2 llevan respectivamente el 96% y el 4% de la varianza de los datos.
Paso 4: Vector de características
Como vimos en el paso anterior, calcular los vectores propios y ordenarlos por sus valores propios en orden descendente, nos permite encontrar los componentes principales en orden de importancia., En este paso, lo que hacemos es elegir si mantener todos estos componentes o descartar los de menor importancia (de valores propios bajos), y formar con los restantes una matriz de vectores que llamamos vector de entidad.
por lo tanto, el vector de entidad es simplemente una matriz que tiene como columnas los vectores propios de los componentes que decidimos mantener. Esto lo convierte en el primer paso hacia la reducción de la dimensionalidad, porque si elegimos mantener solo los vectores propios p (componentes) fuera de n, el conjunto de Datos final tendrá solo dimensiones P.,
Ejemplo:
siguiendo con el ejemplo del paso anterior, podemos formar una función vectorial de los vectores propios v1 y v2:
O descartar el autovector v2, que es el de menor importancia, y la forma de una función vectorial con la v1 solo:
Descartando el autovector v2 reducir la dimensionalidad por 1, y, en consecuencia, provocar una pérdida de información en el conjunto final de datos., Pero dado que v2 llevaba solo el 4% de la información, la pérdida no será importante y todavía tendremos el 96% de la información que lleva v1.
entonces, como vimos en el ejemplo, depende de usted elegir si desea mantener todos los componentes o descartar los de menor importancia, dependiendo de lo que esté buscando. Porque si solo desea describir sus datos en términos de nuevas variables (componentes principales) que no están correlacionadas sin tratar de reducir la dimensionalidad, no es necesario omitir componentes menos significativos.,
último paso: refundir los datos a lo largo de los ejes de los componentes principales
en los pasos anteriores, aparte de la estandarización, no realiza ningún cambio en los datos, solo selecciona los componentes principales y forma el vector de entidad, pero el conjunto de datos de entrada permanece siempre en términos de los ejes originales (es decir, en términos de las variables iniciales).,
en este paso, que es el último, el objetivo es utilizar el vector de entidad formado mediante los vectores propios de la matriz de covarianza, para reorientar los datos de los ejes originales a los representados por los componentes principales (de ahí el nombre de análisis de componentes principales). Esto se puede hacer multiplicando la transposición del conjunto de datos original por la transposición del vector de entidad.
* * *
Zakaria Jaadi es un científico de datos y aprendizaje automático ingeniero. Echa un vistazo a más de su contenido sobre temas de Ciencia de datos en Medium.
Leave a Reply