반응형
import pandas as pd
from time import time
# Load data (pandas version)
start = time()
train = pd.read_csv('./data/transactions_train.csv')
end = time()
print(f"데이터 로드 시간 : {end-start}초")
train
# Check memory usage
mem_usage = train.memory_usage(deep=True).sum() / 1024 / 1024 / 1024
print(f"Memory Usage : {mem_usage:.4} GiB")
# parquet로 다시 만들어봅시다. 데이터의 일부만 가져옵니다.
part = pd.read_csv('./Downloads/transactions_train.csv',
nrows = 1000)
part2 = pd.read_csv('./Downloads/transactions_train.csv',
usecols=['t_dat','sales_channel_id'])
part2
sales = part["sales_channel_id"].value_count() * 0
for chunk in pd.read_csv('./Downloads/transactions_train.csv',
chunksize=3000000):
print(chunk["sales_channel_id"].value_counts())
sales = sales + chunk["sales_channel_id"].value_counts()
sales
train.loc[train["t_dat"] > '2020-06-01']
반응형
'Data Science' 카테고리의 다른 글
[판다스] 여러 엑셀 파일 합치기 (0) | 2023.01.31 |
---|---|
seaborn 그래프_경향성_크기_분포 파악 (0) | 2023.01.31 |
살아움직이는 그래프 plotly (0) | 2023.01.31 |
판다스 기초 피벗 테이블 (0) | 2023.01.31 |
[파이썬] 웹크롤링 주식 데이터 가져오기 (0) | 2023.01.30 |