O objetivo deste post é para fornecer uma completa e explicação simplificada de Análise de Componente Principal, e, especialmente, para responder como funciona passo a passo, de modo que todos possam entender e fazer uso dele, sem necessariamente ter uma forte formação matemática.
PCA é na verdade um método amplamente coberto na web, e existem alguns grandes artigos sobre isso, mas apenas alguns deles vão direto ao ponto e explicar como ele funciona sem mergulhar muito nas tecnicalidades e o “porquê” das coisas., Essa é a razão pela qual eu decidi fazer meu próprio post para apresentá-lo de uma forma simplificada.
Antes de chegar à explicação, este post fornece explicações lógicas do que o PCA está fazendo em cada passo e simplifica os conceitos matemáticos por trás dele, como padronização, covariância, autovetores e autovalores sem se concentrar em como computá-los.
Qual é a principal Análise de componentes?,
Principal Component Analysis, ou PCA, é um método de redução de dimensionalidade que é frequentemente usado para reduzir a dimensionalidade de grandes conjuntos de dados, transformando um grande conjunto de variáveis em um menor que ainda contém a maior parte da informação no conjunto grande.
reduzir o número de variáveis de um conjunto de dados naturalmente vem à custa da precisão, mas o truque na redução de dimensionalidade é trocar um pouco de precisão por simplicidade., Porque conjuntos de dados menores são mais fáceis de explorar e visualizar e tornar a análise de dados muito mais fácil e mais rápida para algoritmos de aprendizagem de máquinas sem variáveis externas para processar.
de modo a resumir, a ideia de PCA é simples — reduzir o número de variáveis de um conjunto de dados, preservando o máximo de informação possível.
passo a passo explicação de PCA
Passo 1: padronização
o objetivo deste passo é padronizar a gama das variáveis iniciais contínuas de modo que cada uma delas contribua igualmente para a análise.,
mais especificamente, a razão pela qual é fundamental realizar padronização antes do PCA, é que este último é bastante sensível em relação às variâncias das variáveis iniciais. Isto é, se existem grandes diferenças entre as gamas de variáveis iniciais, essas variáveis com gamas maiores dominarão sobre aquelas com pequenas gamas (por exemplo, uma variável que varia entre 0 e 100 irá dominar sobre uma variável que varia entre 0 e 1), o que levará a resultados tendenciosos. Assim, transformar os dados em escalas comparáveis pode prevenir este problema.,matematicamente, isto pode ser feito subtraindo a média e dividindo pelo desvio padrão para cada valor de cada variável.
Uma vez que a padronização é feita, todas as variáveis serão transformadas para a mesma escala.
Passo 2: computação de matriz de covariância
o objetivo deste passo é entender como as variáveis do conjunto de dados de entrada estão variando da média em relação uns aos outros, ou em outras palavras, para ver se existe alguma relação entre eles., Porque, às vezes, as variáveis estão altamente correlacionadas de tal forma que elas contêm informação redundante. Então, a fim de identificar essas correlações, computamos a matriz de covariância.
a matriz de covariância é uma matriz simétrica p × p (onde p é o número de dimensões) que tem como entradas as covariâncias associadas com todos os pares possíveis das variáveis iniciais., Por exemplo, para um 3-dimensional do conjunto de dados com 3 variáveis x, y e z, a matriz de covariância é um 3×3 da matriz a partir de:
Desde a covariância de uma variável com ela mesma é a sua variação (Cov(a,a)=Var(a)), na diagonal principal (Superior esquerdo para o canto inferior direito) na verdade, temos os desvios de cada iniciais das variáveis., E como a covariância é comutativa(Cov (A,b)=Cov (b, A)), as entradas da matriz de covariância são simétricas em relação à diagonal principal, o que significa que as porções triangulares superior e inferior são iguais.
O que as covariâncias que temos como entradas da matriz nos dizem sobre as correlações entre as variáveis?,
É, na verdade, o sinal da covariância que importa :
- se positivo, então : as duas variáveis de aumento ou diminuição (correlacionada)
- se negativo, então : Um aumenta o outro diminui (Inversamente correlacionada)
Agora, que sabemos que a matriz de covariância não é mais do que uma tabela que resumos as correlações entre todos os pares possíveis de variáveis, vamos passar para o próximo passo.,
Step 3: Compute the eigenvectors and eigenvalues of the covariance matrix to identify the principal components
Eigenvectors and eigenvalues are the linear algebra concepts that we need to compute from the covariance matrix in order to determine the principal components of the data. Antes de chegar à explicação destes conceitos, vamos primeiro entender o que queremos dizer com componentes principais.
os principais componentes são novas variáveis que são construídas como combinações lineares ou misturas das variáveis iniciais., Estas combinações são feitas de tal forma que as novas variáveis (ou seja, componentes principais) são não-correlacionadas e a maior parte da informação dentro das variáveis iniciais é comprimida ou comprimida nos primeiros componentes. Então, a idéia é Dados 10-dimensionais dá-lhe 10 Componentes principais, mas PCA tenta colocar a máxima informação possível no primeiro componente, em seguida, máximo restante informação no segundo e assim por diante, até ter algo como mostrado no gráfico scree abaixo.,
Organizar a informação em componentes principais deste modo, vai permitir-lhe para reduzir a dimensionalidade sem perder muita informação, e esta rejeitando os componentes com baixa informação e considerando os demais componentes, como o seu novo variáveis.,
Uma coisa importante para perceber aqui é que, os componentes principais são menos interpretáveis e não têm nenhum significado real, uma vez que eles são construídos como combinações lineares das variáveis iniciais.
geometricamente falando, os principais componentes representam as direções dos dados que explicam uma quantidade máxima de variância, ou seja, as linhas que capturam a maior parte da informação dos dados., A relação entre variância e informação aqui, é que, quanto maior a variância transportada por uma linha, maior a dispersão dos pontos de dados ao longo dela, e quanto maior a dispersão ao longo de uma linha, mais a informação que ela tem. Para colocar tudo isso simplesmente, basta pensar nos principais componentes como novos eixos que fornecem o melhor ângulo para ver e avaliar os dados, para que as diferenças entre as observações sejam mais visíveis.
Inscreva-se gratuitamente para obter mais histórias de ciência dos dados como esta.,
Como PCA Constrói os Principais Componentes
não existem muitos componentes principais, pois há variáveis nos dados, principais componentes são construídos de tal forma que o primeiro componente principal é a responsável pela maior possível variação no conjunto de dados. Por exemplo, vamos supor que o gráfico de dispersão do nosso conjunto de dados é como mostrado abaixo, podemos adivinhar o primeiro componente principal ?, Sim, é aproximadamente a linha que corresponde às marcas roxas porque passa pela origem e é a linha na qual a projeção dos pontos (pontos vermelhos) é a mais espalhada. Ou matematicamente falando, é a linha que maximiza a variância (a média das distâncias ao quadrado dos pontos projetados (pontos vermelhos) para a origem).
o segundo componente principal é calculado da mesma forma, com a condição de que não seja correlacionado com (i.e., perpendicular a) o primeiro componente principal e que seja responsável pela variância mais elevada seguinte.,
isto continua até que um total de P principais componentes tenham sido calculados, igual ao número original de variáveis.
Agora que entendemos o que entendemos por componentes principais, vamos voltar para autovetores e autovalores. O que você primeiro precisa saber sobre eles é que eles sempre vêm em pares, para que cada autovetor tenha um autovalue. E seu número é igual ao número de dimensões dos dados. Por exemplo, para um conjunto de dados tridimensional, existem 3 variáveis, portanto existem 3 autovetores com 3 autovalores correspondentes.,
Sem mais delongas, é autovetores e autovalores que estão por trás de toda a magia explicado acima, porque os autovetores da matriz de Covariância são, na verdade, as direções dos eixos, onde há mais de variância(mais informações) e que chamamos de Componentes Principais. E autovalores são simplesmente os coeficientes ligados a autovetores, que dão a quantidade de variância transportada em cada componente Principal.
ordenando os seus autovectores por ordem dos seus autovalores, mais alto a mais baixo, obtém os componentes principais por ordem de significado.,
Exemplo:
suponhamos que o nosso conjunto de dados é 2-dimensional com 2 variáveis x,y e que os autovetores e autovalores da matriz de covariância são as seguintes:
Se nós classificamos os autovalores em ordem decrescente, obtemos λ1>λ2, o que significa que o eigenvector que corresponde ao primeiro componente principal (PC1) é v1 e o que corresponde ao segundo componente (PC2) isv2.,
Depois de ter os principais componentes, para calcular a percentagem de variância (informação) contabilizada por cada componente, dividimos o valor eigen de cada componente pela soma dos valores eigen. Se aplicarmos isso no exemplo acima, descobrimos que PC1 e PC2 carregam respectivamente 96% e 4% da variância dos dados.
Passo 4: vector de recurso
como vimos no passo anterior, computando os autovectores e ordenando-os pelos seus autovalores em ordem descendente, permite-nos encontrar os componentes principais por ordem de significado., Neste passo, o que fazemos é, escolher se devemos manter todos esses componentes ou descartar aqueles de menor significado (de baixos autovalores), e formar com os restantes uma matriz de vetores que chamamos de vetores de recurso.
assim, o vetor de recursos é simplesmente uma matriz que tem como colunas os autovetores dos componentes que decidimos manter. Isto faz dele o primeiro passo para a redução da dimensionalidade, porque se optarmos por manter apenas p autovectores (componentes) fora de n, o conjunto de dados final terá apenas P dimensões.,
Exemplo:
Continuando com o exemplo da etapa anterior, podemos formar um recurso vetor com ambos os autovetores v1 e v2:
Ou descartar o eigenvector v2, que é o de menor importância, e formar um recurso vetor com v1 só:
Descartar o eigenvector v2 irá reduzir a dimensionalidade por 1, e, consequentemente, causar uma perda de informação no conjunto final de dados., Mas dado que o v2 estava carregando apenas 4% da informação, a perda não será, portanto, importante e ainda teremos 96% da informação que é transportada por v1.
assim, como vimos no exemplo, cabe a você escolher se deve manter todos os componentes ou descartar os de menor significado, dependendo do que você está procurando. Porque se você só quer descrever seus dados em termos de novas variáveis (componentes principais) que não estão correlacionadas sem procurar reduzir a dimensionalidade, deixando de fora Componentes menos significativos não é necessário.,
Último Passo: a Reformulação de Dados ao Longo de Componentes Principais Eixos
Nas etapas anteriores, para além da padronização, que você não faça quaisquer alterações nos dados, basta selecionar o de componentes principais e a forma que o recurso de vetor, mas o conjunto de dados de entrada permanece sempre em termos de original eixos (que eu.e, nos termos da inicial de variáveis).,
nesta etapa, que é a última, o objetivo é usar o vetor de recursos formado usando os autovetores da matriz de covariância, para reorientar os dados dos eixos originais para os representados pelos principais componentes (daí a análise dos componentes principais do nome). Isto pode ser feito multiplicando a transposição do conjunto de dados originais pela transposição do vetor de recursos.
* *
Zakaria Jaadi é um cientista de dados e engenheiro de aprendizagem de máquinas. Confira mais de seu conteúdo sobre temas de Ciência de dados em meio.
Leave a Reply