태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science 88

[인공지능] 지도학습 분류 vs 비지도학습 군집화 비교

​ 지도학습과 비지도학습은 머신러닝의 두 가지 주요 패러다임입니다. 이들 간에는 몇 가지 중요한 차이점이 있습니다. ​ 1. 목표와 지도 데이터의 존재 여부: - 지도학습: 명시적인 목표가 있으며, 레이블된 지도 데이터를 사용하여 모델을 학습시키는 방법입니다. 모델은 입력 데이터와 그에 대한 정답 레이블 사이의 관계를 학습하여 예측을 수행할 수 있습니다. - 비지도학습: 명시적인 목표가 없으며, 레이블되지 않은 데이터를 사용하여 숨겨진 구조나 특성을 발견하는 방법입니다. 모델은 데이터의 패턴, 유사성, 군집 등을 파악하고 추론합니다. ​ 2. 데이터의 형태와 사용 방법: - 지도학습: 입력 데이터와 해당하는 출력(레이블) 사이의 관계를 학습하는 방식으로, 데이터에 대한 사전 정보(레이블)가 필요합니다. ..

Data Science 2023.05.23

[책리뷰] 전공책 이해안될 때 '이렇게 쉬운 통계학'

오늘 소개해 드릴 책은 한빛미디어에서 나온 이렇게 쉬운 통계학입니다. 2019년에 발행된 책이구요. 저는 전자책으로 읽어보았어요.​​ ​ ​ 저자는 일본인이고 이 책은 번역본입니다.​​ ​ ​ '이렇게 쉬운'이라는 수식어가 붙어있는것처럼 이 책은 최대한 통계학을 쉽게 접근하려고 했어요. 인공지능 붐이 일면서 통계학에 대한 관심도 높아지고 있어요. 그런데 그만큼 내용이 어려운 게 사실이에요. 이 책은 최대한 개념을 쉽게 그리고 독자의 개념 이해를 돕기 위해 적절한 일러스트를 제시하고 있어요. ​ 예를 들어 평균, 중앙값, 최빈값이 일반인들은 헷갈릴 수 있어서 아래와 같은 일러스트로 개념을 소개하는거죠. 그림을 보면 차이점을 쉽게 알 수 있어요.​​ ​ ​ 평균은 특이값에 약한 대푯값임을 설명하고 이를 그림..

Data Science 2023.05.20

표본분산 구할 때 분모 n이 아닌 n-1로 구하는 이유

​ 표본분산은 모집단의 분산을 추정하는 것입니다. 모집단의 분산은 모집단 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다. 표본분산은 표본 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다. 표본분산은 다음과 같이 정의됩니다.​ ​ ​ 여기서 xi​는 표본의 i번째 값이고, xˉ는 표본의 평균입니다. 분모의 n−1은 자유도라고 합니다. 자유도는 모집단의 분산을 추정할 때 사용할 수 있는 독립 변수의 수입니다. 모집단의 분산은 모집단 내의 모든 데이터를 알고 있어야 계산할 수 있습니다. 그러나 표본은 모집단의 작은 부분일 뿐입니다. 따라서 표본분산은 모집단의 분산을 추정하는 데 사용할 수 있는 독립 변수의 수가 n−1입니다. 예를 들어, 모집단의 크기가 n=100이고 표본의 크기가 n=10이면 자유도는 ..

Data Science 2023.05.19

적절한 머신러닝 알고리즘을 선택하는 방법

​ 적절한 머신러닝 알고리즘을 선택하는 것은 문제의 특성과 데이터에 기반하여 판단해야 합니다. 다음은 알고리즘 선택에 도움이 될 수 있는 몇 가지 요소들입니다: ​ 1. 문제 유형: 문제가 분류, 회귀, 군집화 등 어떤 유형인지 확인하세요. 각각의 문제 유형에 맞는 알고리즘이 있으며, 이에 따라 선택 범위를 좁힐 수 있습니다. ​ 2. 데이터 크기와 특성: 데이터의 크기와 특성에 따라 알고리즘의 성능이 달라질 수 있습니다. 대규모 데이터셋인 경우에는 확장성이 좋은 알고리즘을 고려해야 할 수도 있습니다. 또한, 데이터의 특성에 따라 선형적인 관계, 비선형적인 관계 등을 모델링할 수 있는 알고리즘을 선택해야 합니다. ​ 3. 알고리즘의 성능과 제약사항: 각 알고리즘은 특정한 성능과 제약사항을 가지고 있습니다..

Data Science 2023.05.18

[머신러닝] 더미 변수(Dummy Variable) 원핫 인코딩(One-Hot Encoding)

더미 변수(Dummy Variable), 또는 원핫 인코딩(One-Hot Encoding)은 범주형 변수를 컴퓨터가 처리할 수 있는 형태로 변환하는 방법 중 하나입니다. ​ 더미 변수는 범주형 변수의 각 범주(category)를 이진 변수로 변환하는 것을 의미합니다. 예를 들어, 성별 변수가 "남성"과 "여성"으로 구분되는 경우, 이를 더미 변수로 변환하면 "남성"을 나타내는 변수와 "여성"을 나타내는 변수로 나눌 수 있습니다. "남성"을 나타내는 변수는 해당하는 경우 1의 값을 가지고, "여성"을 나타내는 변수는 해당하는 경우 1의 값을 가지며, 나머지 경우에는 0의 값을 가집니다. ​ 더미 변수는 컴퓨터가 이해할 수 있는 형태인 숫자로 변환된 범주형 데이터를 나타냅니다. 이를 통해 머신러닝 알고리즘에..

Data Science 2023.05.18

[인공지능] LightGBM 알고리즘의 이해

LightGBM은 경사 부스팅(Gradient Boosting) 알고리즘 중 하나로, 효율적이고 빠른 학습과 예측 성능을 제공하는 알고리즘입니다. LightGBM은 Microsoft에서 개발한 알고리즘으로, 대용량 데이터셋에서도 뛰어난 성능을 발휘하며, 특히 특성이 많은 데이터에 잘 적용됩니다. ​LightGBM의 주요 특징은 다음과 같습니다: ​1. Leaf-Wise 트리 분할: LightGBM은 트리 분할을 Leaf-Wise 방식으로 수행합니다. 일반적인 알고리즘은 Level-Wise 분할을 사용하는데, 이는 모든 리프 노드의 손실을 계산하여 분할을 결정합니다. 하지만 LightGBM은 가장 손실이 큰 리프 노드부터 시작하여 분할을 수행하므로, 빠른 학습과 더 적은 메모리 사용량을 가능하게 합니다. ..

Data Science 2023.05.17

처음만나는 AI수학 with 파이썬

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. chatGPT로 인해 인공지능이 핫해졌는데요. 인공지능을 제대로 이해하려면 수학이 필수인거 아시죠? 그래서 골라본 책이에요. ​ 출판사는 영진출판이구요. 저자는 일본에서 활동하는 AI관련 교육자이자 엔지니어에요. (유데미에 저자의 강의가 올라가 있는데 아쉽게 한국어 번역은 없어요....ㅠㅠ) ​ ​ 책 표지에서 이 한마디가 끌렸어요. 중학교 수학만 알고 있으면 OK 이 말이 상징하는 건 그만큼 기초가 없어도 된다는 점 난이도가 어렵지 않게 구성되어있다는 거에요. ​ ​ 저자는 이 책을 AI에 대해서 배우고 싶지만 수학에 문턱의 높이를 느끼는 사람에게 추천한다고 밝히고 있어요. ​ ​ 최근에는 워낙 프레임워크가 잘 만들어져있어서 굳이 수학을 ..

Data Science 2023.05.06

[통계학] 베이즈의 법칙 Bayes' theorem/Law/Rule

​ 베이즈의 법칙(Bayes' theorem)은 통계학에서 사용되는 중요한 개념 중 하나로, 조건부 확률을 이용하여 사후 확률(posterior probability)을 계산하는 방법입니다. ​ 베이즈의 법칙은 다음과 같이 표현됩니다. ​ P(A|B) = P(B|A) * P(A) / P(B) ​ 여기서, A와 B는 사건을 나타내며, P(A)와 P(B)는 각각 A와 B가 발생할 사전 확률(prior probability)입니다. P(B|A)는 A가 일어난 경우 B가 발생할 조건부 확률(likelihood)이며, P(A|B)는 B가 일어났을 때 A가 발생할 사후 확률(posterior probability)입니다. ​ 즉, 베이즈의 법칙은 B가 일어났을 때 A의 확률을 구하는 과정으로, B가 일어난 경우 A..

Data Science 2023.05.05

[통계학] 순열과 조합의 개념 차이점 비교

combination without repetition combinations with repetition variations with repetition variations without repetition Easily explain the difference between the four concepts and when to apply them. 4가지 개념의 차이점과 언제 적용하는건지 쉽게 설명해줘 ​ 이 네 가지 개념은 조합론에서 매우 중요한 개념입니다. ​ 1. Combination without repetition: 비복원 조합 이것은 중복 없이 n개의 요소 중 r개의 요소를 선택하는 경우의 수를 의미합니다. 예를 들어, 카드 게임에서 52장의 카드에서 5장의 카드를 선택하는 경우를 생각해보면..

Data Science 2023.05.04

[통계학] 조건부 확률이란? Conditional probability

​ 조건부 확률(Conditional probability)은 어떤 사건이 발생하였을 때, 다른 사건이 발생할 확률을 의미합니다. 조건부 확률은 P(B|A)와 같이 표기합니다. 여기서 B는 조건이 되는 사건이며, A가 일어난 상황에서 B가 일어날 확률을 나타냅니다. ​ 수식으로 표현하면 다음과 같습니다. P(B|A) = P(A∩B) / P(A) ​ 여기서 P(A∩B)는 사건 A와 B가 모두 일어날 확률이며, P(A)는 사건 A가 일어날 확률입니다. 이 때, 사건 A와 B가 서로 독립일 경우 P(B|A) = P(B)가 성립합니다. ​ 예를 들어, 주사위를 던져서 3이 나오는 확률을 P(A)라고 하고, 그 결과가 홀수인 경우의 확률을 P(B)라고 합시다. 이 때, 주사위의 결과가 3인 상황에서 홀수가 나올 ..

Data Science 2023.05.04
반응형