<다변량 비시각화>
: 두개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형
-> 주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적
다변량 비시각화 종류
높은 상관계수 : 비슷한 정보를 제공하는 밀접한 관계의 변수
>회귀 분석에서 독립 변수 간에 강한 상관관계 발생 -> 다중 공선성 발생
> 데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요
<다변량 시각화>
: 두 개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형
-> 주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악
다변량 시각화 종류
모자이크 플롯
> 범주 그룹 간 비중의 차이를 전체적으로 파악 가능
> 범주 수가 많고, 각 조합별 비중 차이가 크지 않을 경우 파악 어려움
박스플롯
>범주 그룹(범주형 변수)간 수치(연속형 변수)의 집합 범위와 중앙값, 이상치 등을 빠르게 확인 가능
>데이터가 설명하는 많은 정보 획득 가능
평행좌표
>연속형 데이터 기반으로 범주별 경향성 파악에 용이
>데이터의 트렌드 판단 가능
>단위 표준화가 이루어지기 전의 데이터로 시각화 할 경우 파악이 어려움
산점도
>연속형 데이터 간의 관계를 그래프상으로 어떠한 관계가 있는지 파악하기 위함
>변수 간 분포를 통해 선형 혹은 비선형 관계 및 음양의 방향 등을 빠르게 파악할 수 있음
'데이터 분석' 카테고리의 다른 글
데이터 변환 - 정규화, 구간화 (0) | 2023.08.02 |
---|---|
데이터 정제 - 결측 / 이상 데이터 처리 (0) | 2023.08.01 |
일변량 비시각화 / 시각화 탐색 (0) | 2023.07.30 |
정적 시각화 실습 (matplotlib / seaborn 활용) (0) | 2023.07.28 |
데이터 병합 (0) | 2023.07.28 |