목적이 포스트를 제공하는 것이 완전하고 간단한 설명의 주성분 분석 및 특히 대답을 어떻게 작동 단계별로,그래서 모든 사람들이 그것을 이해할 수 있고,그것의 사용없이 강한 수학적 배경입니다.
PCA 실제로 널리 덮여 방법을 사용하면 웹에서 몇 가지 좋은 기사에 대해 그만 있지만,그들 중 몇 가지로 이동하는 방법을 설명 없이 작동 다이빙으로 너무 많은 전문하고’왜’라는 것입니다., 그것이 내가 단순화 된 방식으로 제시하기 위해 내 자신의 게시물을 만들기로 결정한 이유입니다.
을 받기 전에 대한 설명이 포스트를 제공합 논리적인 설명이 무엇 PCA 에서 각 단계 및 단순화하는 수학적 개념의 뒤에 그것으로,표준화,공분산,고유 벡터와 고유값이 없이는 방법에 초점을 맞추고 계산하는 그들.
주성분 분석이란?,
주요 구성 요소는 분석,또는 PCA 은 차원을 감소하는 방법을 자주 사용을 줄이는 차원의 큰 데이터 세트에 의하여,변수의 변수로 작은 하나는 여전히 포함하는 정보의 대부분에서 설정합니다.
의 수를 줄이는 변수의 데이터 세트가 자연스럽게 서비스를 제공하는 데 도움이 됩니의 정확성,하지만 속에서 차원 감소입니다 무역에 약간의 정확성에 대한 단순합니다., 기 때문에 작은 데이터 세트를 쉽게 탐구하고 시각화하고 데이터 분석 훨씬 빠르고 쉽게 기계 학습 알고리즘이 없이는 불필요한 변수하는 과정입니다.
그래서 요약하면,PCA 의 아이디어는 간단합니다-가능한 한 많은 정보를 보존하면서 데이터 세트의 변수 수를 줄입니다.
단계별로 설명 PCA
1 단계:표준화
목적의 이 단계에 표준화의 범위의 지속적인 초기 변수 그래서 각자가 그들에게 동등하게 기여 분석.,
더 구체적으로,그 이유는 왜 중요한지를 수행하는 표준화하기 전에 PCA 고,후자는 매우 민감한 분산의 초기 변수입니다. 는 경우,큰 차이가 있는 범위 사이의 초기 변수는 이들 변수를 가진 큰 범위를 지배하게 될 것이다 이 사람들과 작은 범위(예를 들어,이 변수는 범위 0~100 을 통해 지배하는 변수 범위 0~1)로 이어질 것입니다 바이어스 결과입니다. 따라서 데이터를 비교 가능한 스케일로 변환하면이 문제를 방지 할 수 있습니다.,
수학적으로 이것은 평균을 빼고 각 변수의 각 값에 대한 표준 편차로 나누어 수행 할 수 있습니다.
표준화가 완료되면 모든 변수가 동일한 스케일로 변환됩니다.
2 단계:공분산 행렬계산
목적의 이 단계 방법을 이해하는 변수에 입력된 데이터를 설정하는 다양한 의미에서 서로에 대하여,또는 다른 말로하는 경우,어떤 관계가 있다., 때로는 변수가 중복 정보를 포함하는 방식으로 높은 상관 관계가 있기 때문입니다. 따라서 이러한 상관 관계를 식별하기 위해 공분산 행렬을 계산합니다.
공분산 행렬은 p×p 대칭 매트릭스(p 은 차원 수)는 항목으로 공분산과 관련된 모든 가능한 한 쌍의 초기 변수입니다., 예를 들어,3 차원 데이터 설정 변수 3x,y,z,공분산 행렬은 3×3 매트릭스의에서 이것:
이후의 공분산 변수와 자체의 분산(Cov(a)=Var(a)),주 대각선(왼쪽에서 오른쪽) 우리는 실제로는 분산의 각각의 초기 변수입니다., 그리고 이후 공분산은 commutative(Cov(a,b)=Cov(b a)),이 항목의 공분산 행렬은 대칭과 관련하여 주요 대각선을 의미하는,상단 및 하단 삼각형은 부분이 동일합니다.
우리가 행렬의 항목으로 가지고있는 공변량은 변수 간의 상관 관계에 대해 무엇을 말해 줍니까?,
그것이 실제로 표시의 공분산하는 사항:
- 경우 긍정적인 다음:두 변수를 증가 또는 감소 함께(상관)
- 경우에 부정적인:다음 중 하나이 증가할 때 다른 감소(반비례 상관)
지금 우리가 알고 있는 그 공분산 행렬은 더 이상하는 테이블이 요약 사이의 상관 관계를 가능한 모든 쌍의 변수,하자 다음 단계로 넘어가면 됩니다.,
3 단계:계산하는 고유 벡터 고유값 및 공분산 행렬의 식별 주요 구성 요소
고유 벡터와 고유값은 선형대수학 개념을 우리가 필요로 하는 계산서 공분산 행렬 순서를 확인하려 주요 구성 요소의 데이터입니다. 이러한 개념의 설명에 도착하기 전에,먼저 우리가 주요 구성 요소에 의해 무엇을 의미하는지 이해하자.
주성분은 초기 변수의 선형 조합 또는 혼합물로 구성된 새로운 변수입니다., 이러한 조합과 같은 방법으로 수행하는 새로운 변수(즉,주성)은 상관성이 없고 정보의 대부분에 초기 변수는 압착 또는 압축으로 첫 번째 구성 요소입니다. 그래서 아이디어가 10 차원 데이터를 제공 당신은 10 의 주요 구성 요소,하지만 PCA 려 넣어 가능한 최대 정보에서 첫 번째 구성요소,다음을 최대한 나머지 정보에서 두 번째까지,그래서 무언가를 갖는 것과 같은 다음과 같 돌 더미에서 줄거리 아래.,
편성정보를 중요성을 이 방법으로 할 수 있을 줄이는 차원을 잃지 않고 많은 정보를,그리고 이를 삭제하여 구성 요소와 저렴한 정보를 고려하고 나머지 구성요소의 새로운 변수입니다.,
중요한 것을 실현하는 주요 구성 요소는 덜 해석할 수 있고 없는지 실제 의미하기 때문가로 구성 선형 조합의 초기 변수입니다.
기하학적으로 말해서,주요 구성 요소를 나타내는 방향으로의 데이터를 설명하는 최대한 금액의 차이,그 말을 줄이는 캡처의 대부분의 정보를 데이터입니다., 사이의 관계를 분산하고 정보를 여기에는 큰 차이에 의해 수행된 라인,더 큰 분산의 데이터 포인트는 그것을 따라하고,더 큰 분산 라인을 따라 더 많은 정보가 있다. 모든 이것은 단순히 생각,주성분으로 새로운 축을 제공하는 최고의 각도를 확인하고 평가 데이터를,그래서 그 사이의 차이점을 관찰하는 더 볼 수 있습니다.
무료로 등록하여 더 많은 데이터를 얻을 과학 이야기는 이렇습니다.,
는 방법 PCA 구조물의 주요 구성 요소
으로 많은 주요 구성 요소로서 변수가 있는 데이터,주요 구성 요소를 건설하는 방식으로 첫 번째 주요 구성 요소 계정에 가능한 가장 큰 차이는 데이터에서 설정합니다. 예를 들어,다고 가정해 봅시다 산란 계획의 우리의 데이터 설정은 아래와 같이,우리가 추측할 수 있습 첫 번째 주요 구성 요소는?, 예,그것은 원점을 통과하기 때문에 보라색 자국과 일치하는 선이며 점(빨간색 점)의 투영이 가장 많이 펼쳐지는 선입니다. 또는 수학적으로 말하면 분산(투영 된 점(빨간색 점)에서 원점까지의 제곱 거리의 평균)을 최대화하는 선입니다.
두 번째 주요 구성 요소 계산에는 같은 방법을 조건으로,그것은 상관으로(즉,수직)첫 번째 주요 구성 요소 및 계정을 다음으로 가장 높은 차이는 없습니다.,
이것은 원래 변수 수와 동일한 총 p 주성분이 계산 될 때까지 계속됩니다.
이제 주 구성 요소가 의미하는 바를 이해 했으므로 고유 벡터와 고유 값으로 돌아가 보겠습니다. 당신이 무엇을 첫번째로 그들에 대해 알아야 할 것은 그들은 항상 올 쌍에,그 모든 변경했는 고유치. 그리고 그 수는 데이터의 차원 수와 같습니다. 예를 들어,3 차원 데이터 세트,3 개의 변수에 따라서는 고유 벡터 3 3 해당하는 고유값.,
Without further ado,그것은 고유 벡터와 고유값은 뒤에 모든 마법 위에서 설명하기 때문에,고유 벡터의 공분산 행렬은 실제로 방향의 축이 있는 곳에 가장 차이(가장 정보)고는 우리 주요 구성 요소입니다. 그리고 고유 값은 단순히 고유 벡터에 부착 된 계수이며,이는 각 주성분에서 운반되는 분산의 양을 제공합니다.
고유 벡터를 고유 값,가장 높은 값에서 가장 낮은 값 순서로 순위를 매기면 중요도 순서대로 주 구성 요소를 얻습니다.,
예:
고 있다고 가정해 봅시다 우리의 데이터 설정은 2 차원 2 개의 변수를 x,y,는 고유 벡터와 고유값의 공분산 행렬은 다음과 같습니다:
경우 우리는 순위는 고유값을 내림차순으로,우리는 λ1>λ2, 는 것을 의미를 변경했에 해당하는 첫 번째 주요 구성 요소(PC1)은 v1 하나에 해당하는 두 번째 요소(PC2)isv2.,
후 주요 구성 요소 계산하는 비율의 차이(정보)를 차지하여 각 구성 요소,우리는 나누 고유치의 각 구성 요소에 의해 합의 고유값. 위의 예에서 이것을 적용하면 PC1 과 PC2 가 각각 데이터의 분산의 96%와 4%를 수행한다는 것을 알 수 있습니다.
4 단계:Feature Vector
에서 보았듯이 이전 단계,컴퓨팅의 고유 벡터와 주문에 의해 그들 자신의 고유값을 내림차순으로 우리를 찾는 주요 구성 요소의 순서로 의미입니다., 이 단계에서,우리가 무엇을 선택할지 여부를 계속 이러한 모든 구성 요소 또는 폐기의 덜 중요성(저가의 고유값),그리고 형태로 남아있는 사람들의 매트릭스는 벡터리 특징 벡터입니다.따라서 특징 벡터는 단순히 우리가 유지하기로 결정한 구성 요소의 고유 벡터를 열로 갖는 행렬입니다. P 고유 벡터(구성 요소)만 n 으로 유지하도록 선택하면 최종 데이터 세트는 p 차원 만 갖게되므로 치수 감소를 향한 첫 걸음이됩니다.,
예:
예를 계속 이전 단계에서,우리는 하나 형태로 특징 벡터와 모두의 고유 벡터 v1,v2:
또는 폐기를 변경했 v2 는 하나의 작은 중요성,그리고 형태로 특징 벡터와 v1 만:
버리를 변경했 v2 을 줄일 것입 차원에 의해 1 고,그 결과 손실을 일으키는 원인의 정보로서 최종 데이터 설정합니다., 그러나 v2 가 정보의 4%만 운반하고 있다는 점을 감안할 때 손실은 중요하지 않을 것이며 우리는 여전히 v1 에 의해 운반되는 정보의 96%를 가질 것입니다.
그래서,우리가 본 것처럼 예제에서,그것은 당신의 선택의 여지 모든 구성 요소 또는 폐기의 덜 중요성에 따라,당신이 무엇을 찾고 있습니다. 기 때문에 당신은 그냥을 설명하려는 데이터의 측면에서는 새로운 변수(주성)는 상관없이 찾을 줄이는 차원에서 떠나는 덜 중요한 구성 요소입니다 필요하지 않습니다.,
마지막 단계:개작과 데이터 주요 구성 요소를 축
이전 단계에서 떨어져서 표준화,당신은 모든 변경하지 않는 데이터,당신은 선택의 주요 구성 요소 및 형태의 특징 벡터,하지만 입력 데이터 설정은 항상의 관점에서 원래의 축(i.e 의 관점에서,초기 변수).,
이 단계에서는 마지막을 목표로 사용하는 것이 특징 벡터를 이용하여 형성된 고유 벡터의 공분산 행렬,방향을 조정 데이터에서 원래의 축하는 사람에 의해 표현된 주요 구성 요소(따라서 이름을 주성분 분석). 이것은 원래 데이터 세트의 전치에 특징 벡터의 전치를 곱함으로써 수행 될 수있다.
***
Zakaria Jaadi 가 데이터 과학자 및 기계 학습 엔지니어이다. 매체에 데이터 과학 주제에 대한 그의 내용을 더 확인하십시오.피>
Leave a Reply