본문 바로가기

전체 글36

다변량 비시각화 / 시각화 탐색 : 두개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형 -> 주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적 다변량 비시각화 종류 높은 상관계수 : 비슷한 정보를 제공하는 밀접한 관계의 변수 >회귀 분석에서 독립 변수 간에 강한 상관관계 발생 -> 다중 공선성 발생 > 데이터 탐색 중 상관분석 결과를 통해 모델링 사전 단계 내 고려 필요 : 두 개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형 -> 주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악 다변량 시각화 종류 모자이크 플롯 > 범주 그룹 간 비중의 차이를 전체적으로 파악 가능 > 범주 수가 많고, 각 조합별 비중.. 2023. 7. 30.
일변량 비시각화 / 시각화 탐색 탐색적 데이터 분석 EDA ->통계적 요약, 분포 파악 및 시각화 등의 기법을 통해 직관적으로 데이터 특성 파악 속성 파악 ex) 가격 예측 분석 과제에서 가격 컬럼 유형 및 관측치 범위 확인 관계 파악 ex) 건물의 건축연도와 가격 사이 유의미한 영향 관계 유무 확인 사전 데이터 탐색 데이터 정의 확인 : 정의서 기반 데이터 확인 > 테이블별 변수 목록, 개수, 설명 타입 등 실 데이터 확인 : 실제 데이터 개요, 결측치, 형상 등 확인 >head, tail, info 기반 확인 변수별 정의된 범위 및 분포 등 확인 >관측치 범위/분포 등 요인별 EDA 유형 구분 1. 데이터 변수 개수가 몇 개 인가? 1개 -> 일변량 2개이상-> 다변량 2. 결과를 어떻게 파악할 것인가? > 비시각화, 시각화 3. .. 2023. 7. 30.
정적 시각화 실습 (matplotlib / seaborn 활용) Matplotib 데이터 시각화 라이브러리 2D 형태의 그래프와 이미지를 그릴 때 많이 사용 유연한 인터페이스 import matplotlib.pyplot as plt plt.figure() -> 새로운 그래프를 담을 도화지 생성 plt.plot() -> 데이터 시각화 기능 담당, 그래프 유형(plot, hist, pie)과 변수를 주어 설정 가능 plt.show() -> 그래프 출력 여러개의 axes를 하나의 figure에 그릴 수 있음 plt.subplot(row,cloum,index) x축을 공유하는 두개의 그래프를 동시에 그릴 수 있음 Seaborn matplotlib을 기반으로 하며 다채로운 디자인 테마와 통계용 차트 등이 추가된 강력한 시각화 라이브러리 -> 한줄의 코드로 강력한 시각화 가능 .. 2023. 7. 28.
데이터 병합 데이터 병합 : 각기 다른 두 개 이상의 DataFrame을 하나로 병합 (Join, Merge) 하여 결과 집합으로 만들어 내는 것 ->서로 다른 성격을 가진 데이터를 분석용을 위한 하나의 데이터 셋으로 취합 Inner Join : 조인조건을 만족하는 행을 합치는 것 테이블 A와 테이블에서 공통된 값을 기반으로 병합 Outer JoIn : 조건에 부합하지 않는 행까지 포함시켜 결합 공통된 값이 아닌 부분까지도 같이 병합, 정보가 없는 쪽은 결측 처리 (NaN) Left Join : 첫번째 Dataframe을 기준으로 두번째 Dataframe을 결합하는 방법 우측에 정보가 없다면 결측처리(NaN) DataFrame 병합 구현 방법 Pandas의 merge 함수 -> df1.merge(df2, on='c'.. 2023. 7. 28.
데이터 변경 CRUD ->데이터의 생성(Create),조회(Read),수정(Update),삭제(Delete)를 일컫는 말 Open API를 이용한 데이터 수집 ->공공데이터포털 ->영화진흥위원회 JSON Java Script Object Notation ->데이터 전송 및 저장 시 많이 사용하는 개방형 표준 포맷 ->"키-값 쌍"으로 이루어짐 ->파이썬의 딕셔너리 자료 구조와 흡사 open API를 통해 JSON->DICT->DataFrame 데이터명 : 전국무인교통단속카메라표준데이터 -> 활용 신청 2023. 7. 27.
데이터 선택 conda install numpy -고속연산 -쉽고 빠른 배열 변환 -다양한 함수 제공 Numpy가 제공하는 ndarray의 shape/ndim/size 속성을 이용하면 배열의 형태/차원/원소 개수 파악 가능 conda install pandas -강력한 스프레드시트 처리 -데이터 통계 분석 Pandas 데이터구조 Dateframe과 Series로 구분 N차원 배열에서 특정 면/행/열 등을 탐색하거나 조건에 맞는 데이터를 확인하고자 할 때 사용 Slicing : 배열을 쉽게 자를 수 있음 Indexing : 리스트와 다르게 [x,y] 표기법 가능 Boolean Indexing : 특정 조건에 따른 값을 배열로 추출 Fancy Indexing : 배열에 인덱싱 값을 주어 변환 Dateframe에서 특정 .. 2023. 7. 27.