
Python_ml_pandas 04 시각화
2022. 6. 22. 23:00
TIL/02_Pandas 실전
4. 시각화 도구 1) Matplotlib - 기본 그래프 도구 1-1 선 그래프 기본 사용법 matplotlib.pyplot as plt df.fillna(method='ffill') 누락 데이터가 들어 있는 행의 바로 앞에 위치한 행의 데이터 값으로 채움 plt.plot(x축, y축) plt.plot(시리즈 or 데이터프레임 객체) df = df.fillna(method='ffill') # 서울에서 다른 지역으로 이동한 데이터만 추출 condition = (df['전출지별'] == '서울특별시') & (df['전입지별'] != '서울특별시') df_seoul = df[condition] df_seoul.drop(['전출지별'], axis=1) df_seoul.rename({'전입지별':'전입지'}, ..

Python_ml_pandas 05, 06 데이터 사전 처리
2022. 6. 22. 22:47
TIL/02_Pandas 실전
5. 데이터 사전 처리 1) 누락 데이터 처리 누락 데이터 확인 `info()` : 데이터프레임 요약 정보 - 유효한 값의 개수를 보여줌 `value_counts(dropna=False)` : 누락 데이터 개수 확인 ( default : **dropna = True**) ==isnull()== : **누락 데이터**면 True를 반환, 유요한 데이터가 존재하면 False를 반환 `df.isnull().sum(axis=0)` ==notnull()== : **유효한 데이터**가 존재하면 True를 반환하고, 누락 데이터면 False를 반환 누락 데이터 제거 열을 삭제하면 분석 대상이 갖는 특성(변수)를 제거 행을 삭제하면 분석 대상의 관측값(레코드) 제거 ==dropna(thresh=500)== # for ..

데이터 분석 실무 - 인스타그램 웹크롤링 2
2022. 6. 15. 21:55
TIL/02_Pandas 실전
데이터 분석 실무 with 파이썬 05장 인스타그램 웹크롤링 복습 import unicodedata content = soup.select('div._aat6 > ul')[0].text content = unicodedata.normalize('NFC', content) content >> unicodedata.normalize(form, unistr, /) : Return the normal form 'form' for the Unicode string unistr. 한글 자음/모음 분리되는 현상 방지 하기 위해 unicodedata를 이용해 자음/모음을 합쳐서 한글을 처리하는 (NFC 방식) 코드를 추가 import re re.findall(r'#[^\s#,\\]+', content) - r : r ..

데이터 분석 실무 - 인스타그램 크롤링 1
2022. 6. 15. 00:22
TIL/02_Pandas 실전
데이터 분석 실무 with 파이썬 05장 정리 -라이브러리 from selenium import webdriver from selenium.webdriver.chrome.service import Service from bs4 import BeautifulSoup import numpy as np import pandas as pd import time -크롬 드라이버 열기 # 크롬 드라이버 열기 serve = Service('chromedriver.exe') driver = webdriver.Chrome(service=serve) >> chrome 버전이 맞아야함 >> 버전 확인 (크롬 > 설정 > chrome 정보 ) >> 102.0.5005.61로 다운받아야함 >> selenium을 통해 크롬드라이..

데이터 시각화하기 Matplotlib [ing]
2022. 6. 13. 21:45
TIL/02_Pandas 실전
import warnings warnings.filterwarnings('ignore') import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt Matplotlib - Python 에서 가장 많이 쓰는 라이브러리 - pandas의 DataFrame을 바로 시각화할 때 사용 산점도 (scatter) - np.where : 조건 만족하는 위치 인덱스 찾기 - np.where(tips['day'] == 'Sat', 'green', 'blue') : day가 Sat이면 green, 아니면 blue x = np.where(tips['day'] == 'Thur','red', np.where(tips['da..

모두의 데이터 분석 - 우리 동네 인구구조 0613
2022. 6. 13. 10:19
TIL/02_Pandas 실전
모두의 데이터 분석 Unit 07-10 복습 - ggplot 스타일 (격자 무늬 스타일 지정) # 자동화 프로그램 import csv f = open('../data/age_clean.csv') data = csv.reader(f) result = [] name = input('인구 구조가 알고 싶나요? 지역의 이름(읍면동 단위) 입력해 주세요 : ') # string for row in data: if name in row[0]: for i in row[3:103]: result.append(int(i.replace(',',''))) print(result) plt.style.use('ggplot') plt.rc('font', family='Malgun Gothic') plt.rcParams['axes..

05. data preprocessing (데이터 사전 처리)
2022. 6. 12. 19:56
TIL/02_Pandas 실전
파이썬 머신러닝 판다스 데이터 분석 5강 복습 1. 누락 데이터 처리 머신러닝 등 데이터 분석의 정확도는 분석 데이터 품질에 의해 좌우 >> 누락 데이터, 중복 데이터 등 오류 수정하고, 분석 목적에 맞게 변형해야 함 # 누락 데이터 확인 import seaborn as sns df = sns.load_dataset('titanic') df.head() >> seabron 라이브러리를 불러오고 'titanic' 데이터 셋 가져오기 # deck 열 Nan개수 계산하기 nan_deck = df['deck'].value_counts(dropna=False) print(nan_deck) ## NaN 688 >> dirty >> value_counts() 메소드를 이용하여 'deck' 열에 688개의 데이터가 있..

02. 데이터 입출력(file IO)
2022. 6. 12. 17:48
TIL/02_Pandas 실전
파이썬 머신러닝 판다스 데이터 분석 2강 복습 # csv 파일 읽기 # 라이브러리 불러오기 import pandas as pd # 파일 경로 찾고 변수 file_path에 저장 file_path = 'read_csv_sample.csv' # read_csv() 함수로 데이터프레임 변환, 변수 df에 저장 df = pd.read_csv(file_path) # read_csv() 함수로 데이터프레임 변환, 변수 df_noheader에 저장, header=None 옵션 df_noheader = pd.read_csv(file_path, header=None) # read_csv() 함수로 데이터 프레임 변환, 변수 df_ind_col에 저장, index_col=None 옵션 df_ind_col= pd.read_..