'Data Science' 카테고리의 글 목록 (7 Page)

코딩 때문에 포기한 사람 여기 모여라! 코딩없이 배우는 데이터과학

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. 오늘 소개해드릴 책은 성안북스에서 나온 "코딩 없이 배우는 데이터 과학"이에요. 굉장히 책 제목부터 자극적이죠? 사실 대부분의 사람들에게 데이터과학, 데이터분석, 데이터시각화하면 당연히 코딩은 기본 베이스라는게 상식처럼 되어있기 때문인데요. 정말 데이터 과학이 코딩없이 가능한지? 태지쌤이 꼼꼼하게 읽어보았습니다. 코딩 없이 배우는 데이터 과학 이 책은 황보현우, 한노아 공동저자구요. 두 분 모두 학계와 기업체 경력이 있는 빅데이터 인공지능 관련 권위자라고 할 수 있어요. 코딩없이 배우는 데이터 과학 사실 이 책의 핵심은 챕터1에 나와있습니다. 기존에는 데이터과학을 위해선 R이나 파이썬과 같은 프로그래밍 언어가 필수였다면..

Data Science 2023.03.25

SVM(Support Vector Machine)은 지도 학습 알고리즘

SVM(Support Vector Machine)은 지도 학습(supervised learning) 알고리즘 중 하나로, 분류(classification)와 회귀(regression) 문제를 해결하는 데 사용됩니다. SVM의 기본 개념은 다음과 같습니다: 1. 데이터를 공간 상에 점으로 표현합니다. 2. 서로 다른 범주(클래스)의 점들을 가장 잘 구분할 수 있는 경계선 (보통 하이퍼플레인이라 불립니다)을 찾습니다. 3. 이 경계선은 서로 다른 범주의 점들과 최대한 멀리 떨어져야 합니다. 이를 마진(margin)이라고 부릅니다. SVM의 핵심 아이디어는 마진을 최대화하는 경계선을 찾는 것입니다. 이러한 경계선은 서포트 벡터라고 불리는 데이터 포인트들에 의해 결정되며, 이 점들이 결국 알고리즘의 이름..

Data Science 2023.03.20

[AI와빅데이터경영입문] 트리분석 graphviz

트리 분석(Tree Analysis) 알고리즘은 데이터를 분류(Classification)하거나 예측(Prediction)하기 위한 방법 중 하나입니다. 트리 분석 알고리즘은 일련의 결정 규칙들로 이루어진 트리(Tree)를 만들어 데이터를 분류하거나 예측합니다. 이 트리는 뿌리(Root)에서 시작하여 분기(Branch)를 반복하며 종단 노드(Leaf node)에 이르는데, 각 분기마다 하나의 변수를 선택하고 그 변수를 기준으로 데이터를 분류합니다. 트리 분석 알고리즘은 다양한 종류가 있습니다. 대표적으로는 의사결정나무(Decision Tree)와 랜덤포레스트(Random Forest)가 있습니다. 의사결정나무는 단일 트리로 구성되어 있으며, 랜덤포레스트는 여러 개의 의사결정나무를 조합하여 구성된 앙상블(..

Data Science 2023.03.09

[AI와빅데이터경영입문] kNN

from sklearn import datasets irisData = datasets.load_iris() x_total = irisData.data y_total = irisData.target # 데이터 분할 from sklearn.model_selection import train_test_split, cross_val_score x_train, x_test, y_train, y_test = train_test_split(x_total, y_total, random_state=10) # 모형 학습 from sklearn.neighbors import KNeighborsClassifier kNN = KNeighborsClassifier() kNN.fit(x_train, y_train) # 학습 결과..

Data Science 2023.03.09

[AI와빅데이터경영입문] 선형회귀분석

import seaborn as sb # 데이터로드 mpgData = sb.load_dataset('mpg') mpgData = mpgData.dropna() indVarNames = ['cylinders','displacement','horsepower','weight','acceleration','model_year'] x_total = mpgData[indVarNames] depVarName = 'mpg' y_total = mpgData[depVarName] from sklearn.model_selection import train_test_split x_total_np = x_total.to_numpy() y_total_np = y_total.to_numpy() x_train, x_test, y_..

Data Science 2023.03.09

[AI와빅데이터경영입문] 나이브베이즈

from sklearn import datasets irisData = datasets.load_iris() x_total = irisData.data y_total = irisData.target # 데이터 분할 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x_total, y_total, test_size=0.50, random_state=10) # 모형 학습 from sklearn.naive_bayes import GaussianNB gNB = GaussianNB() gNB.fit(x_train, y_train) # 학습 결과 및 성능 평가 predictedC..

Data Science 2023.03.09

[AI와빅데이터경영입문] 데이터시각화

import seaborn as sns tipsData = sns.load_dataset('tips') h1 = sns.histplot(data=tipsData, x='tip', bins=10) h1.set_xlabel('Tip($)') tipsData['tip_percent'] = (tipsData['tip']/tipsData['total_bill']) * 100 h2 = sns.histplot(data = tipsData, x='tip_percent', kde = True, bins=20) h2.set_xlabel('Tip/Total Bill(%)') # ked=True : 커널밀도함수추정 b1 = sns.boxplot(x='sex', y='tip', data=tipsData) b1.set_xlabe..

Data Science 2023.03.09

[AI와빅데이터경영입문] 데이터변환

import numpy as np a = np.array([2,4,6]) aa = np.array([[1,2],[3,4]]) bb = np.array([[20,40],[60,80]]) cc = aa + bb dd = aa - bb 3 * aa (1/2) * bb # 행렬의 곱셈 aa@bb # 1 x 20 + 2 x 60 = 140 np.matmul(aa, bb) # numpy에서 A*B 연산은 아다마르 곱 aa * bb

Data Science 2023.03.09

혼자공부하는 머신러닝 + 딥러닝(ch1) k-최근접 이웃 알고리즘

# -*- coding: utf-8 -*- """혼공머신러닝_ch1.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google.com/drive/1yyi3uGfURyYiKYLsQsXAJUsR9X-n9rML """ # 데이터의 특성 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 3..

Data Science 2023.02.16

웹 크롤링을 통한 데이터 수집

# 라이브러리 정의 import requests import bs4 import pandas as pd from selenium.webdriver import Chrome import time from tqdm.notebook import tqdm import warnings warnings.simplefilter('ignore') query = "삼성" # 수집할 데이터를 for문 밖에 둠 titles = [] # 제품명 prices = [] review_counts = [] buy_counts = [] published_dates = [] # 제품 등록일 favorites = [] driver = Chrome('./chromedriver') # for 문 밖. 한번만 실행 for page_no in ..

Data Science 2023.01.31

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Data Science 76

티스토리툴바