본문 바로가기
데이터 분석

데이터 변환 - 특징 생성

by anion 2023. 8. 2.

<Feature Creation>

원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법

-> 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함

 

목적 및 필요성

-품질 확보

-최적화된 형태 변환 

 

특징 생성 방안

1. 범주 인코딩

: 크게 Nominal(순서가 없는)과 Ordinal(순서가 있는)형식으로 나뉘는 범주형 변수

: 숫자가 아닌 범주 변수 값을 숫자로 표현하고 모델링에 적용하기 위한 과정

-> 범주형 데이터의 알고리즘 적용을 위한 수치형 변환

One-hot Encoding

-> 순서의 의미를 지니지 않은 범주형 변수를 처리하는 대표적 방법

 

2. 결합 및 분해

: 데이터 셋의 변수들의 조합을 기반으로 새로운 특징을 구축하는 방법

: 변수 간의 연산 혹은 분해를 통해 새로운 특징을 구축하고 입력 변수로 모델링에 적용

 

<결합 기반 특징 생성>

: 변수 간의 결합을 통해 새로운 의미를 지닌 특징을 생성

-Add(합계) / Divide(평균) / Subtarct(편차)

-Multiply

-> 온도*압력 : 상호작용항(Interaction Feature)으로 온도와 압력 값의 시너지 효과 파악

-> 도메인 지식 기반으로 특징 생성 검토 반드시 필요

 

<분해 기반 특징 생성>

: 변수의 분해를 통해 새로운 의미를 지닌 특징을 생성

Separate

-> 특정 변수 활용 기반의 새로운 의미를 파악할 수 있는 특징을 생성하는 방법

-> 도메인 지식 및 일반적 개념 기반으로 생성 가능

 

3. 차원 축소

: 원본 데이터로부터 새로운 특징의 집합을 생성하는 것

: 고차원 원시 데이터 셋을 저차원으로 차원 축소하도록 새로운 특징을 생성하는 방식

차원 축소 목적 특징 생성

1) 변수들이 지닌 정보를 최대한 확보하는 저차원 데이터로 생성

PCA

-> 서로 연관된 변수들이 관측되었을 때, 원본 데이터 분산 기반의 특징을 생성

-> 주성분 간의 서로 독립을 이루도록 구성 ( 상관관계가 없도록 구성)

2) 군집 분석 기반의 고차원 데이터를 하나의 특징으로 차원 축소

Featurization via Clustering

-> 고차원 데이터를 군집 분석을 기반으로 특징의 갯수를 하나의 특징(군집 결과)으로 축소

-> 군집 결과 특징을 분류 / 회귀 등 문제 해결을 위한 입력 변수로 활용(Stacking 방법)

-> 즉, 원본 데이터 내 여러 개의 특징을 하나의 특징으로 축소하여 모델 연산 비용 감소 추