AI Canvas
AI Canvas 바로가기
  • 시작하기
    • 서비스 소개
    • 주요 용어 설명
    • 계정 및 언어 설정
  • 캔버스 기본 사용법
    • 캔버스 탭 관리
    • 캔버스 화면 관리
    • 캔버스 공유 및 권한 설정
    • 노드 조작 및 관리
    • 엣지 조작 및 관리
    • 스케줄 설정
    • 노드별 크레딧 소모량
  • 노드 종류
    • 데이터
      • URL 리더
      • 데이터
      • PDF 데이터
      • 데이터 분할
      • 데이터 저장소
      • 명령 프롬프트
      • 예제 데이터
      • 이미지 데이터
      • 텍스트 입력
      • 텍스트-데이터 변환
    • API
      • 기업공시
      • 깃허브 커밋
      • 대화형 아바타
      • 크롤링
      • 프롬프트
    • 전처리
      • 결측치 채우기
      • 그룹화
      • 데이터 병합
      • 데이터 비닝
      • 데이터 수정
      • 데이터 어노테이션
      • 데이터 연결
      • 스케일링
      • 슬라이싱
      • 열 선택
      • 열 타입 변경
      • 이미지 임베딩
      • 이상치 제거
      • 중복 제거
      • 차원 축소
      • 텍스트 임베딩
      • 텍스트 전처리
      • 특성 생성
      • 파이썬 스크립트
      • 표본 재추출
      • 픽셀 변환
      • 행 결합
      • 행 선택
    • 모델
      • YOLO 모델
      • 결정 트리
      • 그래디언트 부스팅
      • 랜덤 포레스트
      • 로지스틱 회귀
      • 모델 학습
      • 서포트 벡터 머신
      • 선형 회귀
      • 시계열 모델 학습
      • 신경망
      • 얼굴 인식
      • 에이다 부스트
      • 일괄 예측
      • 추천 SVD++
      • 추천 모델 학습
      • 추천 베이스라인
      • 프로펫
    • 평가
      • ROC 커브
      • 메트릭
      • 모델 평가
      • 에러 히스토그램
      • 정답 비율
      • 정확도
      • 특성 중요도
      • 특성 중요도 비교
      • 혼동 행렬
    • 알림
      • 이메일 전송
    • 시각화
      • 막대 그래프
      • 수평 막대 그래프
      • 선도표
      • 바이올린 플롯
      • 박스 플롯
      • 산점도 그래프
      • 히트맵
      • 원 그래프
      • 게이지 차트
      • 버블 차트
      • 결측치 비율
      • 데이터 개수
      • 예측값 비교
      • 평균 비교
      • PR 트랜드
      • 특성 통계
      • 평균 예측값
      • 워드클라우드
    • UI
      • 데이터 정보
      • 데이터 테이블
      • 리스트
      • 버튼
      • 샌드박스
      • 아이콘
      • 예측하기
      • 이미지 뷰어
      • 챗 UI
      • 텍스트 출력
      • 텍스트 편집기
      • 페이지
      • 필터
      • 행
      • PDF 뷰어
      • CM
    • 애플리케이션
      • 애플리케이션
    • 배포
      • 배포
  • 워크스페이스 관리
    • 워크스페이스 보기
    • 워크스페이스 생성 및 설정
    • 워크스페이스 공유 및 권한 설정
  • 애플리케이션 페이지
    • 로그인 및 로그아웃
    • 설정 및 캔버스
    • 권한 및 멤버 관리
  • 캔버스 실습 가이드
    • 1. AI 모델 구축
      • 데이터셋 준비
        • 데이터셋 업로드
      • 탐색적 데이터 분석
        • 데이터 살펴보기
        • 결측치 확인하기
      • 데이터 전처리
        • 결측치 채우기
        • 열 선택
      • AI 모델 구축
        • 데이터 분할
        • 학습 알고리즘 선택
        • 모델 학습
        • 모델 사용해보기
      • 데이터 검증
        • 검증 진행
      • 모델 평가
        • 모델 평가
        • 특성 중요도 살펴보기
      • 결과 화면
    • 2. 데이터 시각화
      • 막대 그래프
      • 박스 플롯
      • 산점도 그래프
      • 원 그래프
      • 데이터 개수
      • 에러 히스토그램
      • 예측값 비교
      • 결과 화면
    • 3. 대시보드 UI 제작 및 애플리케이션 구축/배포
      • 페이지 구성하기
      • 애플리케이션 구축
      • 애플리케이션 배포
      • 결과 화면
    • 4. 프레임을 활용한 프레젠테이션 및 캔버스 공유
      • 프레임을 활용한 프레젠테이션
      • 캔버스 공유하기
    • 가이드 전체 영상
  • 인공지능 교육 영상
    • 회귀 모델의 평가지표
    • 분류 모델의 평가지표
Powered by GitBook
On this page
  • 설정
  • 예제
  1. 노드 종류
  2. 전처리

차원 축소

다차원 데이터를 보다 낮은 차원 공간으로 매핑합니다.

Previous중복 제거Next텍스트 임베딩

Last updated 8 months ago

입력 포트

  • 데이터셋

출력 포트

  • 데이터셋: 고차원의 구조를 고려한 저차원의 데이터셋(Feature가 축소됨)

설정

  1. 사용하지 않을 열 선택 차원 축소에서 고려하지 않을 열을 선택합니다.

  2. 차원 축소 방법 선택 차원 축소 방법을 선택합니다. PCA, t-SNE 중 하나를 선택할 수 있습니다.

  3. 출력 차원 출력할 차원의 수를 정합니다. 출력할 차원의 수는 입력한 차원의 수 이하이어야 합니다.

  4. 복잡도(Perplexity)

    복잡도는 t-SNE 알고리즘에서 데이터의 지역적 구조를 반영하는 역할을 합니다. 이를 설명하자면, 복잡도는 t-SNE 가 임베딩 과정에서 각 데이터 포인트의 '이웃'을 얼마나 많이 고려할지를 결정하는 값입니다. 낮은 복잡도는 임베딩 시 데이터 포인트의 근처 이웃만 고려하여, 데이터의 지역적인 구조를 잘 반영합니다. 하지만 데이터의 전반적인 구조를 파악하는 데는 적합하지 않을 수 있습니다. 높은 복잡도는 더 많은 이웃을 고려해서 데이터의 전반적인 구조를 잘 반영할 수 있지만, 데이터의 지역적인 구조와 같은 세밀한 부분들을 놓칠 수 있습니다.

  5. 거리 측정 방법 벡터 공간 내 데이터 포인트 사이의 거리 측정 방법을 선택합니다. 두 데이터 포인트의 거리가 가까울 수록 두 점의 특징(feature)이 유사할 가능성이 높습니다. 유클리드 거리(Euclidean Distance), 맨하탄 거리(Manhattan Distance), 코사인 유사도(Cosine Similarity) 중 하나를 선택할 수 있습니다.

    • 유클리드 거리(Euclidean Distance) 계산법:

      D는 데이터의 차원 수를 나타내고, xik​와 xjk​는 각각 데이터 포인트 xi​와 xj​의 k번째 차원 값을 의미합니다.

    • 맨하탄 거리(Manhattan Distance) 계산법:

      두 데이터 포인트 사이의 절대적 좌표 차이의 합을 의미합니다. n차원 공간에서의 두 점 x = (x1, x2,..., xn)와 y = (y1, y2,..., yn) 사이의 맨하탄 거리는 위와 같이 구할 수 있습니다.

    • 코사인 유사도(Cosine Similarity) 계산법:

      n개의 차원을 가지는 두 데이터 포인트 A(A1, A2,..., An)와 B(B1, B2,..., Bn)에 대하여 코사인 유사도를 다음과 같이 구할 수 있습니다.

  6. 계산 방법 기울기(gradient) 계산 알고리즘을 선택합니다. barnes_hut 방식은 계산 복잡도가 exact보다 낮아 큰 데이터 세트에 적용될 수 있습니다. exact 방식은 계산 정확도가 높지만, 계산 복잡도가 높아 큰 데이터 세트에 적용될 때 많은 시간이 소요됩니다.

  7. 데이터 화이트닝 사용 여부 PCA 기법에서 화이트닝(whitening)은 인접한 feature들이 서로 덜 관련되도록(uncorrelated) 하고, 서로 같은 분산 값을 가지도록 하여 데이터들의 각 패턴을 독립적이고 비교 가능한 상태로 만듭니다.

예제