본문 바로가기
데이터 분석

데이터 병합

by anion 2023. 7. 28.

데이터 병합 : 각기 다른 두 개 이상의 DataFrame을 하나로 병합 (Join, Merge) 하여 결과 집합으로 만들어 내는 것

->서로 다른 성격을 가진 데이터를 분석용을 위한 하나의 데이터 셋으로 취합

 

Inner Join : 조인조건을 만족하는 행을 합치는 것

테이블 A와 테이블에서 공통된 값을 기반으로 병합

Outer JoIn : 조건에 부합하지 않는 행까지 포함시켜 결합

공통된 값이 아닌 부분까지도 같이 병합, 정보가 없는 쪽은 결측 처리 (NaN)

Left Join : 첫번째 Dataframe을 기준으로 두번째 Dataframe을 결합하는 방법

우측에 정보가 없다면 결측처리(NaN)

 

DataFrame 병합 구현 방법

Pandas의 merge 함수

-> df1.merge(df2, on='c', how='inner')

DataFrame의 join 메소드

-> df1.join(df2, on='c', how='inner')

 

데이터 연결 : 하나의 DataFrame에 다른 DataFrame 또는 Series를 연결하여 결과 집합을 만듦

연결은 공유하는 key 값을 사용하지 않고, 데이터를 기존 DataFrame 아래(또는 우측)에 붙여 연결

->여러 그룹으로 산재된 데이터를 하나로 취합할 때

 

Pandas의 연결 구현 방법

-> pd.concat(df1, df2, axis, ...)

축(axis)의 값을 어떻게 설정하느냐에 따라 연결의 방향이 달라짐

axis = 0 : 행 방향 연결 (위/아래 연결)

axis = 1 : 열 방향 연결 (좌/우 연결)

 

데이터 그룹핑

Pandas 정렬 함수

sort_values(by='사용자 수') -> 오름차순

sort_values(by='사용자 수', ascending=False) -> 내림차순

'데이터 분석' 카테고리의 다른 글

일변량 비시각화 / 시각화 탐색  (0) 2023.07.30
정적 시각화 실습 (matplotlib / seaborn 활용)  (0) 2023.07.28
데이터 변경  (0) 2023.07.27
데이터 선택  (0) 2023.07.27
분석 환경 준비  (0) 2023.07.27