<Feature Creation>
원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법
-> 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성을 확보하고자 함
목적 및 필요성
-품질 확보
-최적화된 형태 변환
특징 생성 방안
1. 범주 인코딩
: 크게 Nominal(순서가 없는)과 Ordinal(순서가 있는)형식으로 나뉘는 범주형 변수
: 숫자가 아닌 범주 변수 값을 숫자로 표현하고 모델링에 적용하기 위한 과정
-> 범주형 데이터의 알고리즘 적용을 위한 수치형 변환
One-hot Encoding
-> 순서의 의미를 지니지 않은 범주형 변수를 처리하는 대표적 방법
2. 결합 및 분해
: 데이터 셋의 변수들의 조합을 기반으로 새로운 특징을 구축하는 방법
: 변수 간의 연산 혹은 분해를 통해 새로운 특징을 구축하고 입력 변수로 모델링에 적용
<결합 기반 특징 생성>
: 변수 간의 결합을 통해 새로운 의미를 지닌 특징을 생성
-Add(합계) / Divide(평균) / Subtarct(편차)
-Multiply
-> 온도*압력 : 상호작용항(Interaction Feature)으로 온도와 압력 값의 시너지 효과 파악
-> 도메인 지식 기반으로 특징 생성 검토 반드시 필요
<분해 기반 특징 생성>
: 변수의 분해를 통해 새로운 의미를 지닌 특징을 생성
Separate
-> 특정 변수 활용 기반의 새로운 의미를 파악할 수 있는 특징을 생성하는 방법
-> 도메인 지식 및 일반적 개념 기반으로 생성 가능
3. 차원 축소
: 원본 데이터로부터 새로운 특징의 집합을 생성하는 것
: 고차원 원시 데이터 셋을 저차원으로 차원 축소하도록 새로운 특징을 생성하는 방식
차원 축소 목적 특징 생성
1) 변수들이 지닌 정보를 최대한 확보하는 저차원 데이터로 생성
PCA
-> 서로 연관된 변수들이 관측되었을 때, 원본 데이터 분산 기반의 특징을 생성
-> 주성분 간의 서로 독립을 이루도록 구성 ( 상관관계가 없도록 구성)
2) 군집 분석 기반의 고차원 데이터를 하나의 특징으로 차원 축소
Featurization via Clustering
-> 고차원 데이터를 군집 분석을 기반으로 특징의 갯수를 하나의 특징(군집 결과)으로 축소
-> 군집 결과 특징을 분류 / 회귀 등 문제 해결을 위한 입력 변수로 활용(Stacking 방법)
-> 즉, 원본 데이터 내 여러 개의 특징을 하나의 특징으로 축소하여 모델 연산 비용 감소 추
'데이터 분석' 카테고리의 다른 글
시계열 데이터 처리 (0) | 2023.08.19 |
---|---|
데이터 축소 - 특징 선택 (0) | 2023.08.02 |
데이터 변환 - 정규화, 구간화 (0) | 2023.08.02 |
데이터 정제 - 결측 / 이상 데이터 처리 (0) | 2023.08.01 |
다변량 비시각화 / 시각화 탐색 (0) | 2023.07.30 |