le but de cet article est de fournir une explication complète et simplifiée de L’analyse en composantes principales, et surtout de répondre à son fonctionnement étape par étape, afin que chacun puisse la comprendre et l’utiliser, sans nécessairement avoir une solide formation mathématique.
la PCA est en fait une méthode largement couverte sur le web, et il y a d’excellents articles à ce sujet, mais seuls quelques-uns d’entre eux vont droit au but et expliquent comment cela fonctionne sans trop plonger dans les technicalités et le « pourquoi » des choses., C’est la raison pour laquelle j’ai décidé de faire mon propre post pour présenter de manière simplifiée.
avant d’en arriver à l’explication, cet article fournit des explications logiques de ce que fait PCA à chaque étape et simplifie les concepts mathématiques sous-jacents, comme la normalisation, la covariance, les vecteurs propres et les valeurs propres sans se concentrer sur la façon de les calculer.
Qu’est-ce que L’analyse en composantes principales?,
L’analyse en composantes principales, ou PCA, est une méthode de réduction de la dimensionnalité qui est souvent utilisée pour réduire la dimensionnalité de grands ensembles de données, en transformant un grand ensemble de variables en une plus petite qui contient encore la plupart des informations du grand ensemble.
La réduction du nombre de variables d’un ensemble de données se fait naturellement au détriment de la précision, mais l’astuce de la réduction de la dimensionnalité consiste à échanger un peu de précision contre de la simplicité., Parce que les petits ensembles de données sont plus faciles à explorer et à visualiser et rendent l’analyse des données beaucoup plus facile et plus rapide pour les algorithmes d’apprentissage automatique sans variables étrangères à traiter.
Donc, pour résumer, l’idée de l’APC est simple: réduire le nombre de variables d’un ensemble de données, tout en préservant autant d’informations que possible.
explication pas à pas de la PCA
Étape 1: normalisation
l’objectif de cette étape est de normaliser la gamme des variables initiales continues afin que chacune d’entre elles contribue également à l’analyse.,
plus précisément, la raison pour laquelle il est essentiel d’effectuer la normalisation avant la PCA, est que cette dernière est assez sensible en ce qui concerne les variances des variables initiales. Autrement dit, s’il existe de grandes différences entre les plages de variables initiales, les variables avec des plages plus grandes domineront sur celles avec de petites plages (par exemple, une variable comprise entre 0 et 100 dominera sur une variable comprise entre 0 et 1), ce qui entraînera des résultats biaisés. Ainsi, la transformation des données à des échelles comparables peut éviter ce problème.,
Mathématiquement, cela peut être fait en soustrayant la moyenne et en divisant par l’écart-type pour chaque valeur de chaque variable.
Une fois la normalisation effectuée, toutes les variables seront transformées à la même échelle.
Étape 2: Calcul de la matrice de Covariance
le but de cette étape est de comprendre comment les variables de l’ensemble de données d’entrée varient par rapport à la moyenne les unes par rapport aux autres, ou en d’autres termes, de voir s’il existe une relation entre elles., Parce que parfois, les variables sont fortement corrélées de telle sorte qu’elles contiennent des informations redondantes. Ainsi, afin d’identifier ces corrélations, nous calculons la matrice de covariance.
la matrice de covariance est une matrice symétrique p × p (où p est le nombre de dimensions) qui a comme entrées les covariances associées à toutes les paires possibles des variables initiales., Par exemple, pour un ensemble de données tridimensionnelles avec 3 variables x, y et z, la matrice de covariance est une matrice 3×3 de ceci à partir de:
puisque la covariance d’une variable avec elle-même est sa variance (COV(a, a)=Var(a)), dans la diagonale principale (de haut en bas à droite) nous avons en fait les variances de chaque variable initiale., Et puisque la covariance est commutative (Cov(a,b)=Cov(b,a)), les entrées de la matrice de covariance sont symétriques par rapport à la diagonale principale, ce qui signifie que les parties triangulaires supérieure et inférieure sont égales.
Qu’est-ce que les covariances que nous avons comme entrées de la matrice nous disent sur les corrélations entre les variables?,
c’est en fait le signe de la covariance qui compte:
- si positif alors : les deux variables augmentent ou diminuent ensemble (corrélées)
- si négatif alors : L’une augmente quand l’autre diminue (inversement corrélée)
maintenant, que nous savons que la matrice de covariance n’est pas plus qu’une table qui résume les corrélations entre toutes les paires de variables possibles, passons à l’étape suivante.,
Étape 3: calculer les vecteurs propres et les valeurs propres de la matrice de covariance pour identifier les composantes principales
Les vecteurs propres et les valeurs propres sont les concepts d’algèbre linéaire que nous devons calculer à partir de la matrice de covariance afin de déterminer les composantes principales des données. Avant d’arriver à l’explication de ces concepts, comprenons d’abord ce que nous entendons par Composants principaux.
les composantes principales sont de nouvelles variables qui sont construites comme des combinaisons linéaires ou des mélanges des variables initiales., Ces combinaisons sont faites de telle sorte que les nouvelles variables (c.-à-d. les composantes principales) ne sont pas corrélées et que la plupart des informations contenues dans les variables initiales sont compressées ou compressées dans les premières composantes. Donc, l’idée est que les données à 10 dimensions vous donnent 10 Composants principaux, mais PCA essaie de mettre le maximum d’informations possibles dans le premier composant, puis le maximum d’informations restantes dans le second et ainsi de suite, jusqu’à avoir quelque chose comme indiqué dans le tracé d’éboulis ci-dessous.,
organiser les informations dans les composants principaux de cette façon, vous permettra de réduire la dimensionnalité sans perdre beaucoup d’informations, et ce en écartant les composants avec des informations faibles et en considérant les composants restants comme vos nouvelles variables.,
Une chose importante à réaliser ici est que les composants principaux sont moins interprétables et n’ont pas de signification réelle car ils sont construits comme des combinaisons linéaires des variables initiales.
Géométriquement parlant, les composantes principales représentent les directions des données qui expliquent un montant maximum de variance, c’est-à-dire les lignes qui capture la plupart des informations de données., La relation entre la variance et de l’information ici, c’est que, plus la variance porté par une ligne, plus la dispersion des points de données le long d’elle, et plus la dispersion le long d’une ligne, plus les informations qu’il possède. Pour dire tout cela simplement, il suffit de penser aux composants principaux comme de nouveaux axes qui fournissent le meilleur angle pour voir et évaluer les données, afin que les différences entre les observations soient mieux visibles.
inscrivez-vous gratuitement pour obtenir plus de données en sciences des histoires comme ça.,
comment PCA construit les composantes principales
comme il y a autant de composantes principales que de variables dans les données, les composantes principales sont construites de telle manière que la première composante principale représente la plus grande variance possible dans l’ensemble de données. Par exemple, supposons que le nuage de points de notre ensemble de données est comme indiqué ci-dessous, pouvons-nous deviner le premier composant principal ?, Oui, c’est approximativement la ligne qui correspond aux marques violettes car elle passe par l’origine et c’est la ligne dans laquelle la projection des points (points rouges) est la plus étalée. Ou mathématiquement parlant, c’est la ligne qui maximise la variance (la moyenne des distances au carré des points projetés (points rouges) à l’origine).
la deuxième composante principale est calculée de la même manière, à la condition qu’elle ne soit pas corrélée avec (c’est-à-dire perpendiculaire à) la première composante principale et qu’elle tienne compte de la variance la plus élevée suivante.,
cela continue jusqu’à ce qu’un total de P composantes principales ait été calculé, égal au nombre initial de variables.
maintenant que nous avons compris ce que nous entendons par Composants principaux, revenons aux vecteurs propres et aux valeurs propres. Ce que vous devez d’abord savoir à leur sujet, c’est qu’ils viennent toujours par paires, de sorte que chaque vecteur propre a une valeur propre. Et leur nombre est égal au nombre de dimensions des données. Par exemple, pour un ensemble de données à 3 dimensions, il y a 3 variables, donc il y a 3 vecteurs propres avec 3 valeurs propres correspondantes.,
sans plus tarder, ce sont les vecteurs propres et les valeurs propres qui sont derrière toute la magie expliquée ci-dessus, car les vecteurs propres de la matrice de Covariance sont en fait les directions des axes où il y a le plus de variance(le plus d’informations) et que nous appelons composantes principales. Et les valeurs propres sont simplement les coefficients attachés aux vecteurs propres, qui donnent la quantité de variance portée dans chaque composante principale.
en classant vos vecteurs propres par ordre de leurs valeurs propres, du plus haut au plus bas, vous obtenez les composants principaux par ordre de signification.,
exemple:
supposons que notre ensemble de données est à 2 dimensions avec 2 variables x,y et que les vecteurs propres et les valeurs propres de la matrice de covariance sont les suivants:
Si nous classons les valeurs propres par ordre décroissant, nous obtenons λ1>λ2, ce qui signifie que le vecteur propre qui correspond à la première composante principale (PC1) est V1 et celui qui correspond à la deuxième composante (PC2) est V2.,
Après avoir les composantes principales, pour calculer le pourcentage de variance (information) pris en compte par chaque composante, nous divisons la valeur propre de chaque composante par la somme des valeurs propres. Si nous appliquons cela sur l’exemple ci-dessus, nous constatons que PC1 et PC2 portent respectivement 96% et 4% de la variance des données.
Étape 4: vecteur D’entités
Comme nous l’avons vu à l’étape précédente, le calcul des vecteurs propres et leur classement par leurs valeurs propres dans l’ordre décroissant, nous permettent de trouver les composants principaux par ordre de signification., Dans cette étape, ce que nous faisons est de choisir de conserver tous ces composants ou de rejeter ceux de moindre importance (de faibles valeurs propres), et de former avec les autres une matrice de vecteurs que nous appelons vecteur D’entités.
donc, le vecteur d’entités est simplement une matrice qui a comme colonnes les vecteurs propres des composants que nous décidons de conserver. Cela en fait la première étape vers la réduction de la dimensionnalité, car si nous choisissons de ne garder que p vecteurs propres (composants) hors de n, l’ensemble de données final n’aura que des dimensions p.,
exemple:
En continuant avec l’exemple de l’étape précédente, nous pouvons soit former un vecteur caractéristique avec les deux vecteurs propres V1 et v2:
ou ignorer le vecteur propre v2, Qui est celui de moindre importance, et former un vecteur caractéristique avec v1 seulement:
le rejet du vecteur propre v2 réduira la dimensionnalité de 1 et entraînera par conséquent une perte d’informations dans l’ensemble de données final., Mais étant donné que v2 ne transportait que 4% des informations, la perte ne sera donc pas importante et nous aurons toujours 96% des informations portées par v1.
Donc, comme nous l’avons vu dans l’exemple, c’est à vous de choisir de conserver tous les composants ou les jeter celles de moindre importance, en fonction de ce que vous cherchez. Parce que si vous voulez simplement décrire vos données en termes de nouvelles variables (composantes principales) qui ne sont pas corrélées sans chercher à réduire la dimensionnalité, il n’est pas nécessaire de laisser de côté les composantes moins significatives.,
dernière étape: refondre les données le long des Axes des composants principaux
dans les étapes précédentes, en dehors de la normalisation, vous n’apportez aucune modification sur les données, vous sélectionnez simplement les composants principaux et formez le vecteur d’entités, mais l’ensemble de données d’entrée reste toujours en termes d’axes,
dans cette étape, qui est la dernière, l’objectif est d’utiliser le vecteur caractéristique formé à l’aide des vecteurs propres de la matrice de covariance, pour réorienter les données des axes d’origine vers celles représentées par les composantes principales (d’où le nom D’analyse des composantes principales). Cela peut être fait en multipliant la transposition de l’ensemble de données d’origine par la transposition du vecteur d’entités.
* * *
Zakaria Jaadi est un scientifique des données et ingénieur en apprentissage automatique. Découvrez plus de son contenu sur les sujets de science des données sur Medium.
Leave a Reply