본문 바로가기

데이터 분석14

정적 시각화 실습 (matplotlib / seaborn 활용) Matplotib 데이터 시각화 라이브러리 2D 형태의 그래프와 이미지를 그릴 때 많이 사용 유연한 인터페이스 import matplotlib.pyplot as plt plt.figure() -> 새로운 그래프를 담을 도화지 생성 plt.plot() -> 데이터 시각화 기능 담당, 그래프 유형(plot, hist, pie)과 변수를 주어 설정 가능 plt.show() -> 그래프 출력 여러개의 axes를 하나의 figure에 그릴 수 있음 plt.subplot(row,cloum,index) x축을 공유하는 두개의 그래프를 동시에 그릴 수 있음 Seaborn matplotlib을 기반으로 하며 다채로운 디자인 테마와 통계용 차트 등이 추가된 강력한 시각화 라이브러리 -> 한줄의 코드로 강력한 시각화 가능 .. 2023. 7. 28.
데이터 병합 데이터 병합 : 각기 다른 두 개 이상의 DataFrame을 하나로 병합 (Join, Merge) 하여 결과 집합으로 만들어 내는 것 ->서로 다른 성격을 가진 데이터를 분석용을 위한 하나의 데이터 셋으로 취합 Inner Join : 조인조건을 만족하는 행을 합치는 것 테이블 A와 테이블에서 공통된 값을 기반으로 병합 Outer JoIn : 조건에 부합하지 않는 행까지 포함시켜 결합 공통된 값이 아닌 부분까지도 같이 병합, 정보가 없는 쪽은 결측 처리 (NaN) Left Join : 첫번째 Dataframe을 기준으로 두번째 Dataframe을 결합하는 방법 우측에 정보가 없다면 결측처리(NaN) DataFrame 병합 구현 방법 Pandas의 merge 함수 -> df1.merge(df2, on='c'.. 2023. 7. 28.
데이터 변경 CRUD ->데이터의 생성(Create),조회(Read),수정(Update),삭제(Delete)를 일컫는 말 Open API를 이용한 데이터 수집 ->공공데이터포털 ->영화진흥위원회 JSON Java Script Object Notation ->데이터 전송 및 저장 시 많이 사용하는 개방형 표준 포맷 ->"키-값 쌍"으로 이루어짐 ->파이썬의 딕셔너리 자료 구조와 흡사 open API를 통해 JSON->DICT->DataFrame 데이터명 : 전국무인교통단속카메라표준데이터 -> 활용 신청 2023. 7. 27.
데이터 선택 conda install numpy -고속연산 -쉽고 빠른 배열 변환 -다양한 함수 제공 Numpy가 제공하는 ndarray의 shape/ndim/size 속성을 이용하면 배열의 형태/차원/원소 개수 파악 가능 conda install pandas -강력한 스프레드시트 처리 -데이터 통계 분석 Pandas 데이터구조 Dateframe과 Series로 구분 N차원 배열에서 특정 면/행/열 등을 탐색하거나 조건에 맞는 데이터를 확인하고자 할 때 사용 Slicing : 배열을 쉽게 자를 수 있음 Indexing : 리스트와 다르게 [x,y] 표기법 가능 Boolean Indexing : 특정 조건에 따른 값을 배열로 추출 Fancy Indexing : 배열에 인덱싱 값을 주어 변환 Dateframe에서 특정 .. 2023. 7. 27.
분석 환경 준비 가상환경명령어 conda create -n dx_env python=3.7 conda info --envs conda install jupyter notebook pandas python -m ipykernel install --user --name dx_env --display-name "dx_env" ->특정된 가상환경에서 주피터 노트북을 실행하기 위해서는 커널을 연결해줘야 함 jupyter notebook 가상환경복사 conda create -n dx_env_clone --clone dx_env (dx_env환경을 복사해서 dx_env_clone을 만들겠다.) 가상환경 내보내기 (다른 pc로 옮길 경우) conda activate dx_env conda env export > dx_env.yaml .. 2023. 7. 27.