태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science 88

혼자공부하는 머신러닝 + 딥러닝(ch1) k-최근접 이웃 알고리즘

# -*- coding: utf-8 -*- """혼공머신러닝_ch1.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google.com/drive/1yyi3uGfURyYiKYLsQsXAJUsR9X-n9rML """ # 데이터의 특성 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 3..

Data Science 2023.02.16

웹 크롤링을 통한 데이터 수집

# 라이브러리 정의 import requests import bs4 import pandas as pd from selenium.webdriver import Chrome import time from tqdm.notebook import tqdm import warnings warnings.simplefilter('ignore') query = "삼성" # 수집할 데이터를 for문 밖에 둠 titles = [] # 제품명 prices = [] review_counts = [] buy_counts = [] published_dates = [] # 제품 등록일 favorites = [] driver = Chrome('./chromedriver') # for 문 밖. 한번만 실행 for page_no in ..

Data Science 2023.01.31

[판다스] 여러 엑셀 파일 합치기

pip install openpyxl import pandas as pd from glob import glob from tqdm.notebook import tqdm import os # glob 함수를 이용해서 엑셀파일 목록을 가져옵니다. stations_files = glob('./data/*.xls') total = pd.DataFrame() for file_name in stations_files: temp = pd.read_excel(file_name, header = 2) total = pd.concat([total, temp]) total = total.sort_values(by="지역") total = total.reset_index(drop = True) # 기존 인덱스 날리기 tota..

Data Science 2023.01.31

seaborn 그래프_경향성_크기_분포 파악

# 라이브러리와 데이터를 불러오고, 시각화를 위한 세팅을 합니다. import seaborn as sns sns.set_theme(style='whitegrid') penguins = sns.load_dataset("penguins").dropna() penguins # penguin 데이터에 lineplot을 출력합니다. 질량에 따른 발길이 sns.lineplot(data=penguins, x="body_mass_g", y= "flipper_length_mm", ci = None) # penguin 데이터에 lineplot을 출력합니다. 질량에 따른 발길이 # 종별로 보고 싶을 때 옵션 sns.lineplot(data=penguins, x="body_mass_g", y= "flipper_length_m..

Data Science 2023.01.31

판다스 기초 피벗 테이블

#!/usr/bin/env python # coding: utf-8 # ## 02. 테이블 = DataFrame # ### 이번 실습에서는 다음 내용들을 배웁니다. # # # - pandas의 기본 구조인 DataFrame을 이해하고, pandas에 대한 다양한 데이터 처리 기능에 대해 배웁니다. # # # - 파이썬에서 엑셀 데이터를 사용하는 방법에 대해 배웁니다. # In[2]: # pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # - DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 ..

Data Science 2023.01.31

여러 데이터 쉽게 불러오기

import pandas as pd from time import time # Load data (pandas version) start = time() train = pd.read_csv('./data/transactions_train.csv') end = time() print(f"데이터 로드 시간 : {end-start}초") train # Check memory usage mem_usage = train.memory_usage(deep=True).sum() / 1024 / 1024 / 1024 print(f"Memory Usage : {mem_usage:.4} GiB") # parquet로 다시 만들어봅시다. 데이터의 일부만 가져옵니다. part = pd.read_csv('./Downloads/t..

Data Science 2023.01.31

[파이썬] 웹크롤링 주식 데이터 가져오기

# -*- coding: utf-8 -*- """CH 02_02.주식 데이터 가져오기.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google.com/drive/12NAlW9QiyWko31SpWwBoYRMxJue-Drt0 """ # 해당 페이지의 page source를 직접 가져옵니다. 웹페이지에서도 우클릭 "페이지 소스 보기"로 같은 HTML 소스를 볼 수 있습니다. import requests import bs4 page_no = 1 page_url = f'https://finance.naver.com/sise/sise_index_day.naver?code=KPI200&p..

Data Science 2023.01.30
반응형