본문 바로가기
데이터 분석

일변량 비시각화 / 시각화 탐색

by anion 2023. 7. 30.

탐색적 데이터 분석

EDA ->통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악

속성 파악 ex) 가격 예측 분석 과제에서 가격 컬럼 유형 및 관측치 범위 확인

관계 파악 ex) 건물의 건축연도와 가격 사이 유의미한 영향 관계 유무 확인

 

사전 데이터 탐색

데이터 정의 확인 : 정의서 기반 데이터 확인

> 테이블별 변수 목록, 개수, 설명 타입 등

실 데이터 확인 : 실제 데이터 개요, 결측치, 형상 등 확인

>head, tail, info 기반 확인

변수별 정의된 범위 및 분포 등 확인

>관측치 범위/분포 등

 

요인별 EDA 유형 구분

1. 데이터 변수 개수가 몇 개 인가?

1개 -> 일변량

2개이상-> 다변량

2. 결과를 어떻게 파악할 것인가?

> 비시각화, 시각화

3. 데이터 유형은 무엇인가?

<일변량 비시각화>

: 분석 대상 데이터가 하나의 변수로 구성되고 요약 통계량, 빈도 등으로 표현하는 탐색 유형

> 단일 변수이므로 원인 및 결과를 다루지는 않으나 데이터 설명 및 구성을 파악

1.범주형 비시각화

빈도표(범주형 데이터의 구성 및 비율 등을 확인)

범주별 빈도수기반의 구성 파악 및 결측치 빈도 파악

데이터 전체 수 대비 각 범주 별 분포 파악

2.연속형 비시각화

주요 통계 지표(연속형 데이터의 기술 통계량 및 주요 지표 등을 확인)

1. 평균, 분산 등의 기술 통계량

2. 중앙값 등의 사분위수

3. 왜도, 첨도 등의 분포 관련 지표

 

<일변량 시각화>

: 하나의 변수로 구성된 데이터를 전체적인 관점으로 파악할 수 있는 데이터 탐색 유형

> 단일 변수 데이터를 다양한 그래프로 시가화하여 전체적인 관점으로 살펴보는 것이 목적

시각화 -> 직관적 이해 추구, 정보 전달 시간 단축

비시각화 -> 효과적인 데이터 요약, 빠른 데이터 성격 파악

1.범주형 시각화

-파이차트 -> 범주의 수가 많거나 범주별 크기가 유사하면 비교 어려움

-막대그래프 -> 범주 별 비교 수월

2.연속형 시각화

-히스토그램 -> 구간 내 속하는 자료의 수가 많고 적음을 쉽게 파악

히스토그램은 연속형 변수의 빈도 분포를 표현

막대그래프는 범주형 (이산형 포함) 변수의 빈도포 비교 표현

-커널밀도 추정 -> 관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)을 추정하는 것

히스토그램의 한계를 극복하기 위해 고안된 방안

1.구간 경계가 연속적이지 않음

2.구간크기 및 시작 위치에 따라 분포가 다르게 나타남

3.고차원 데이터에 대한 메모리 문제 발생 가능성 존재

-박스플롯 -> 데이터의 개략적인 흩어짐의 형태 파악 및 IQR 기반의 이상치 판단에 용이함

> 중앙값, 1분위수, 3분위수, 최대값, 최소값