태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science 76

표본분산 구할 때 분모 n이 아닌 n-1로 구하는 이유

​ 표본분산은 모집단의 분산을 추정하는 것입니다. 모집단의 분산은 모집단 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다. 표본분산은 표본 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다. 표본분산은 다음과 같이 정의됩니다.​ ​ ​ 여기서 xi​는 표본의 i번째 값이고, xˉ는 표본의 평균입니다. 분모의 n−1은 자유도라고 합니다. 자유도는 모집단의 분산을 추정할 때 사용할 수 있는 독립 변수의 수입니다. 모집단의 분산은 모집단 내의 모든 데이터를 알고 있어야 계산할 수 있습니다. 그러나 표본은 모집단의 작은 부분일 뿐입니다. 따라서 표본분산은 모집단의 분산을 추정하는 데 사용할 수 있는 독립 변수의 수가 n−1입니다. 예를 들어, 모집단의 크기가 n=100이고 표본의 크기가 n=10이면 자유도는 ..

Data Science 2023.05.19

적절한 머신러닝 알고리즘을 선택하는 방법

​ 적절한 머신러닝 알고리즘을 선택하는 것은 문제의 특성과 데이터에 기반하여 판단해야 합니다. 다음은 알고리즘 선택에 도움이 될 수 있는 몇 가지 요소들입니다: ​ 1. 문제 유형: 문제가 분류, 회귀, 군집화 등 어떤 유형인지 확인하세요. 각각의 문제 유형에 맞는 알고리즘이 있으며, 이에 따라 선택 범위를 좁힐 수 있습니다. ​ 2. 데이터 크기와 특성: 데이터의 크기와 특성에 따라 알고리즘의 성능이 달라질 수 있습니다. 대규모 데이터셋인 경우에는 확장성이 좋은 알고리즘을 고려해야 할 수도 있습니다. 또한, 데이터의 특성에 따라 선형적인 관계, 비선형적인 관계 등을 모델링할 수 있는 알고리즘을 선택해야 합니다. ​ 3. 알고리즘의 성능과 제약사항: 각 알고리즘은 특정한 성능과 제약사항을 가지고 있습니다..

Data Science 2023.05.18

[머신러닝] 더미 변수(Dummy Variable) 원핫 인코딩(One-Hot Encoding)

더미 변수(Dummy Variable), 또는 원핫 인코딩(One-Hot Encoding)은 범주형 변수를 컴퓨터가 처리할 수 있는 형태로 변환하는 방법 중 하나입니다. ​ 더미 변수는 범주형 변수의 각 범주(category)를 이진 변수로 변환하는 것을 의미합니다. 예를 들어, 성별 변수가 "남성"과 "여성"으로 구분되는 경우, 이를 더미 변수로 변환하면 "남성"을 나타내는 변수와 "여성"을 나타내는 변수로 나눌 수 있습니다. "남성"을 나타내는 변수는 해당하는 경우 1의 값을 가지고, "여성"을 나타내는 변수는 해당하는 경우 1의 값을 가지며, 나머지 경우에는 0의 값을 가집니다. ​ 더미 변수는 컴퓨터가 이해할 수 있는 형태인 숫자로 변환된 범주형 데이터를 나타냅니다. 이를 통해 머신러닝 알고리즘에..

Data Science 2023.05.18

[인공지능] LightGBM 알고리즘의 이해

LightGBM은 경사 부스팅(Gradient Boosting) 알고리즘 중 하나로, 효율적이고 빠른 학습과 예측 성능을 제공하는 알고리즘입니다. LightGBM은 Microsoft에서 개발한 알고리즘으로, 대용량 데이터셋에서도 뛰어난 성능을 발휘하며, 특히 특성이 많은 데이터에 잘 적용됩니다. ​LightGBM의 주요 특징은 다음과 같습니다: ​1. Leaf-Wise 트리 분할: LightGBM은 트리 분할을 Leaf-Wise 방식으로 수행합니다. 일반적인 알고리즘은 Level-Wise 분할을 사용하는데, 이는 모든 리프 노드의 손실을 계산하여 분할을 결정합니다. 하지만 LightGBM은 가장 손실이 큰 리프 노드부터 시작하여 분할을 수행하므로, 빠른 학습과 더 적은 메모리 사용량을 가능하게 합니다. ..

Data Science 2023.05.17

처음만나는 AI수학 with 파이썬

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. chatGPT로 인해 인공지능이 핫해졌는데요. 인공지능을 제대로 이해하려면 수학이 필수인거 아시죠? 그래서 골라본 책이에요. ​ 출판사는 영진출판이구요. 저자는 일본에서 활동하는 AI관련 교육자이자 엔지니어에요. (유데미에 저자의 강의가 올라가 있는데 아쉽게 한국어 번역은 없어요....ㅠㅠ) ​ ​ 책 표지에서 이 한마디가 끌렸어요. 중학교 수학만 알고 있으면 OK 이 말이 상징하는 건 그만큼 기초가 없어도 된다는 점 난이도가 어렵지 않게 구성되어있다는 거에요. ​ ​ 저자는 이 책을 AI에 대해서 배우고 싶지만 수학에 문턱의 높이를 느끼는 사람에게 추천한다고 밝히고 있어요. ​ ​ 최근에는 워낙 프레임워크가 잘 만들어져있어서 굳이 수학을 ..

Data Science 2023.05.06

[통계학] 베이즈의 법칙 Bayes' theorem/Law/Rule

​ 베이즈의 법칙(Bayes' theorem)은 통계학에서 사용되는 중요한 개념 중 하나로, 조건부 확률을 이용하여 사후 확률(posterior probability)을 계산하는 방법입니다. ​ 베이즈의 법칙은 다음과 같이 표현됩니다. ​ P(A|B) = P(B|A) * P(A) / P(B) ​ 여기서, A와 B는 사건을 나타내며, P(A)와 P(B)는 각각 A와 B가 발생할 사전 확률(prior probability)입니다. P(B|A)는 A가 일어난 경우 B가 발생할 조건부 확률(likelihood)이며, P(A|B)는 B가 일어났을 때 A가 발생할 사후 확률(posterior probability)입니다. ​ 즉, 베이즈의 법칙은 B가 일어났을 때 A의 확률을 구하는 과정으로, B가 일어난 경우 A..

Data Science 2023.05.05

[통계학] 순열과 조합의 개념 차이점 비교

combination without repetition combinations with repetition variations with repetition variations without repetition Easily explain the difference between the four concepts and when to apply them. 4가지 개념의 차이점과 언제 적용하는건지 쉽게 설명해줘 ​ 이 네 가지 개념은 조합론에서 매우 중요한 개념입니다. ​ 1. Combination without repetition: 비복원 조합 이것은 중복 없이 n개의 요소 중 r개의 요소를 선택하는 경우의 수를 의미합니다. 예를 들어, 카드 게임에서 52장의 카드에서 5장의 카드를 선택하는 경우를 생각해보면..

Data Science 2023.05.04

[통계학] 조건부 확률이란? Conditional probability

​ 조건부 확률(Conditional probability)은 어떤 사건이 발생하였을 때, 다른 사건이 발생할 확률을 의미합니다. 조건부 확률은 P(B|A)와 같이 표기합니다. 여기서 B는 조건이 되는 사건이며, A가 일어난 상황에서 B가 일어날 확률을 나타냅니다. ​ 수식으로 표현하면 다음과 같습니다. P(B|A) = P(A∩B) / P(A) ​ 여기서 P(A∩B)는 사건 A와 B가 모두 일어날 확률이며, P(A)는 사건 A가 일어날 확률입니다. 이 때, 사건 A와 B가 서로 독립일 경우 P(B|A) = P(B)가 성립합니다. ​ 예를 들어, 주사위를 던져서 3이 나오는 확률을 P(A)라고 하고, 그 결과가 홀수인 경우의 확률을 P(B)라고 합시다. 이 때, 주사위의 결과가 3인 상황에서 홀수가 나올 ..

Data Science 2023.05.04

data science 분야에 사용되는 두 용어의 차이점은? analysis, analytics

The terms "analysis" and "analytics" are often used interchangeably, but they actually have different meanings. Data analysis is the process of inspecting, cleaning, transforming, and modeling data with the goal of discovering useful information, informing conclusions, and supporting decision-making. Data analytics, on the other hand, is the science of analyzing data using statistical, mathemati..

Data Science 2023.05.02

데이터사이언티스트가 될 수 있는 방법

데이터사이언티스트가 되기 위해서는 다음과 같은 방법들을 따라가면 됩니다.필수적인 기술과 지식을 습득하라: 데이터 사이언스를 위한 필수적인 기술과 지식을 습득하는 것이 가장 중요합니다. 통계, 선형대수학, 머신러닝, 딥러닝, 자연어 처리 등과 같은 학문적 배경을 보유해야 합니다. 이를 위해서는 수학과 컴퓨터 과학 관련 학과를 전공하거나, 온라인 강의, 책, 블로그 등을 활용하여 스스로 학습할 수 있습니다.프로그래밍 언어 습득: Python, R, SQL과 같은 프로그래밍 언어는 데이터사이언티스트에게 필수적인 도구입니다. 이러한 언어를 습득하고, 데이터를 다루고 분석할 수 있는 능력을 기르는 것이 중요합니다.데이터 처리 및 분석 도구 습득: 데이터 처리 및 분석 도구는 데이터사이언티스트에게 매우 중요합니다...

Data Science 2023.04.13
반응형