차원 축소

다차원 데이터를 보다 낮은 차원 공간으로 매핑합니다.

입력 포트

데이터셋

출력 포트

데이터셋: 고차원의 구조를 고려한 저차원의 데이터셋(Feature가 축소됨)

설정

사용하지 않을 열 선택 차원 축소에서 고려하지 않을 열을 선택합니다.
차원 축소 방법 선택 차원 축소 방법을 선택합니다. PCA, t-SNE 중 하나를 선택할 수 있습니다.
출력 차원 출력할 차원의 수를 정합니다. 출력할 차원의 수는 입력한 차원의 수 이하이어야 합니다.
복잡도(Perplexity)
복잡도는 t-SNE 알고리즘에서 데이터의 지역적 구조를 반영하는 역할을 합니다. 이를 설명하자면, 복잡도는 t-SNE 가 임베딩 과정에서 각 데이터 포인트의 '이웃'을 얼마나 많이 고려할지를 결정하는 값입니다. 낮은 복잡도는 임베딩 시 데이터 포인트의 근처 이웃만 고려하여, 데이터의 지역적인 구조를 잘 반영합니다. 하지만 데이터의 전반적인 구조를 파악하는 데는 적합하지 않을 수 있습니다. 높은 복잡도는 더 많은 이웃을 고려해서 데이터의 전반적인 구조를 잘 반영할 수 있지만, 데이터의 지역적인 구조와 같은 세밀한 부분들을 놓칠 수 있습니다.
거리 측정 방법 벡터 공간 내 데이터 포인트 사이의 거리 측정 방법을 선택합니다. 두 데이터 포인트의 거리가 가까울 수록 두 점의 특징(feature)이 유사할 가능성이 높습니다. 유클리드 거리(Euclidean Distance), 맨하탄 거리(Manhattan Distance), 코사인 유사도(Cosine Similarity) 중 하나를 선택할 수 있습니다.
- 유클리드 거리(Euclidean Distance) 계산법:
  D는 데이터의 차원 수를 나타내고, xik와 xjk는 각각 데이터 포인트 xi와 xj의 k번째 차원 값을 의미합니다.
- 맨하탄 거리(Manhattan Distance) 계산법:
  두 데이터 포인트 사이의 절대적 좌표 차이의 합을 의미합니다. n차원 공간에서의 두 점 x = (x1, x2,..., xn)와 y = (y1, y2,..., yn) 사이의 맨하탄 거리는 위와 같이 구할 수 있습니다.
- 코사인 유사도(Cosine Similarity) 계산법:
  n개의 차원을 가지는 두 데이터 포인트 A(A1, A2,..., An)와 B(B1, B2,..., Bn)에 대하여 코사인 유사도를 다음과 같이 구할 수 있습니다.
계산 방법 기울기(gradient) 계산 알고리즘을 선택합니다. barnes_hut 방식은 계산 복잡도가 exact보다 낮아 큰 데이터 세트에 적용될 수 있습니다. exact 방식은 계산 정확도가 높지만, 계산 복잡도가 높아 큰 데이터 세트에 적용될 때 많은 시간이 소요됩니다.
데이터 화이트닝 사용 여부 PCA 기법에서 화이트닝(whitening)은 인접한 feature들이 서로 덜 관련되도록(uncorrelated) 하고, 서로 같은 분산 값을 가지도록 하여 데이터들의 각 패턴을 독립적이고 비교 가능한 상태로 만듭니다.

예제

Previous중복 제거 Next텍스트 임베딩

Last updated 9 months ago