본문 바로가기
데이터 분석

다변량 비시각화 / 시각화 탐색

by anion 2023. 7. 30.

<다변량 비시각화>

: 두개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형

-> 주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적

 

다변량 비시각화 종류

높은 상관계수 : 비슷한 정보를 제공하는 밀접한 관계의 변수

>회귀 분석에서 독립 변수 간에 강한 상관관계 발생 -> 다중 공선성 발생

> 데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요

 

<다변량 시각화>

: 두 개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형

-> 주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악

 

다변량 시각화 종류

모자이크 플롯

> 범주 그룹 간 비중의 차이를 전체적으로 파악 가능

> 범주 수가 많고, 각 조합별 비중 차이가 크지 않을 경우 파악 어려움

박스플롯

>범주 그룹(범주형 변수)간 수치(연속형 변수)의 집합 범위와 중앙값, 이상치 등을 빠르게 확인 가능

>데이터가 설명하는 많은 정보 획득 가능

평행좌표

>연속형 데이터 기반으로 범주별 경향성 파악에 용이

>데이터의 트렌드 판단 가능

>단위 표준화가 이루어지기 전의 데이터로 시각화 할 경우 파악이 어려움

산점도

>연속형 데이터 간의 관계를 그래프상으로 어떠한 관계가 있는지 파악하기 위함

>변수 간 분포를 통해 선형 혹은 비선형 관계 및 음양의 방향 등을 빠르게 파악할 수 있음