
데이터 분석 실무 - 인스타그램 크롤링 1
2022. 6. 15. 00:22
TIL/02_Pandas 실전
데이터 분석 실무 with 파이썬 05장 정리 -라이브러리 from selenium import webdriver from selenium.webdriver.chrome.service import Service from bs4 import BeautifulSoup import numpy as np import pandas as pd import time -크롬 드라이버 열기 # 크롬 드라이버 열기 serve = Service('chromedriver.exe') driver = webdriver.Chrome(service=serve) >> chrome 버전이 맞아야함 >> 버전 확인 (크롬 > 설정 > chrome 정보 ) >> 102.0.5005.61로 다운받아야함 >> selenium을 통해 크롬드라이..

모두의 데이터분석 08 지하철 시간대별 데이터 시각화하기
2022. 6. 14. 16:36
카테고리 없음
- 데이터 불러오기 import csv f = open('subwaytime_202205.csv') data = csv.reader(f) for row in data: print(row) 그냥 데이터만 치면 주소값만 나오니까 for문 돌려줘서 data를 읽어줘야 내용이 출력됨 - 헤더 제외하기 next(data) next(data) 헤더 값이 2개니까 2개 밀어야함 - 데이터 타입 바꾸기 (문자열 >> 정수(int)) for row in data: row[4:] = map(int, row[4:]) print(row) map 함수 써서 int로 바꿔줌 근데 ,랑 마지막 열의 작업일시 때문에 오류뜸 ValueError: invalid literal for int() with base 10: '9,072' ..

데이터 시각화하기 Matplotlib [ing]
2022. 6. 13. 21:45
TIL/02_Pandas 실전
import warnings warnings.filterwarnings('ignore') import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt Matplotlib - Python 에서 가장 많이 쓰는 라이브러리 - pandas의 DataFrame을 바로 시각화할 때 사용 산점도 (scatter) - np.where : 조건 만족하는 위치 인덱스 찾기 - np.where(tips['day'] == 'Sat', 'green', 'blue') : day가 Sat이면 green, 아니면 blue x = np.where(tips['day'] == 'Thur','red', np.where(tips['da..

모두의 데이터 분석 - 우리 동네 인구구조 0613
2022. 6. 13. 10:19
TIL/02_Pandas 실전
모두의 데이터 분석 Unit 07-10 복습 - ggplot 스타일 (격자 무늬 스타일 지정) # 자동화 프로그램 import csv f = open('../data/age_clean.csv') data = csv.reader(f) result = [] name = input('인구 구조가 알고 싶나요? 지역의 이름(읍면동 단위) 입력해 주세요 : ') # string for row in data: if name in row[0]: for i in row[3:103]: result.append(int(i.replace(',',''))) print(result) plt.style.use('ggplot') plt.rc('font', family='Malgun Gothic') plt.rcParams['axes..
pandas 함수 정리 [ing]
2022. 6. 12. 20:17
TIL/01_Python
누락 데이터 처리 df.value_counts() : 해당 열의 데이터 파악 (default : dropna=True) df.value_counts(dropna=False) : NaN값까지 출력 df.isnull() : 메소드 누락 데이터 찾기 df.notnull() : null값이 아닌 데이터 값 차기 df.isnull().sum(axis=0) : 각 열의 누락 데이터(NaN) 개수 합 for 반복문 이용 각 열의 NaN 개수 계산 # for 반복문 각 열의 NaN 개수 계산하기(묘미****) null_df = df.isnull() for col in null_df.columns: null_count = null_df[col].value_counts() # 각 열의 NaN 개수 파악 try: print..

05. data preprocessing (데이터 사전 처리)
2022. 6. 12. 19:56
TIL/02_Pandas 실전
파이썬 머신러닝 판다스 데이터 분석 5강 복습 1. 누락 데이터 처리 머신러닝 등 데이터 분석의 정확도는 분석 데이터 품질에 의해 좌우 >> 누락 데이터, 중복 데이터 등 오류 수정하고, 분석 목적에 맞게 변형해야 함 # 누락 데이터 확인 import seaborn as sns df = sns.load_dataset('titanic') df.head() >> seabron 라이브러리를 불러오고 'titanic' 데이터 셋 가져오기 # deck 열 Nan개수 계산하기 nan_deck = df['deck'].value_counts(dropna=False) print(nan_deck) ## NaN 688 >> dirty >> value_counts() 메소드를 이용하여 'deck' 열에 688개의 데이터가 있..

02. 데이터 입출력(file IO)
2022. 6. 12. 17:48
TIL/02_Pandas 실전
파이썬 머신러닝 판다스 데이터 분석 2강 복습 # csv 파일 읽기 # 라이브러리 불러오기 import pandas as pd # 파일 경로 찾고 변수 file_path에 저장 file_path = 'read_csv_sample.csv' # read_csv() 함수로 데이터프레임 변환, 변수 df에 저장 df = pd.read_csv(file_path) # read_csv() 함수로 데이터프레임 변환, 변수 df_noheader에 저장, header=None 옵션 df_noheader = pd.read_csv(file_path, header=None) # read_csv() 함수로 데이터 프레임 변환, 변수 df_ind_col에 저장, index_col=None 옵션 df_ind_col= pd.read_..

파이썬 토이 프로젝트 _ 낚시게임 (미완)
2022. 6. 7. 23:07
TIL
파이썬으로 낚시게임을 만들어 보자 수업시간에 진행했던 토이 프로젝트 복습. 0607 [1] 라이브러리 호출 import time import random import pandas as pd import numpy as np >> 필요한 라이브러리를 호출 [2] 낚시터 구현하기 낚시를 하기 위해서는 낚시터가 필요하다. 물고기를 잡을 수 있는 낚시터를 만든다. def game_fishing_center(): print('낚시를 시작합니다....') print('낚시줄을 던졌습니다....') fishing = pd.read_excel('물고기표.xlsx') choose_fish = np.array(fishing).reshape(-1,4) # 0부터 fishing 전체 행까지 반복, 랜덤 추출 choose_fi..