태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science 88

차원 축소: 변수 선택과 변수 추출의 비밀 무기

​차원 축소: 변수 선택과 변수 추출의 비밀 무기 (PCA 포함)​머신러닝과 데이터 분석에서 차원 축소는 고차원 데이터를 저차원 공간으로 변환하는 중요한 기술입니다. 데이터의 차원을 줄이는 것은 데이터 처리 속도 향상, 모델 성능 개선, 과적합 방지 등의 효과를 가져옵니다.이 글에서는 변수 선택과 변수 추출이라는 두 가지 주요 차원 축소 기법을 쉽고 명확하게 설명하고, 각 기법의 장단점, 활용 사례, 실제 적용 방법까지 단계별로 안내합니다. 또한, 변수 추출의 대표적인 방법인 PCA(주성분 분석)에 대해 심층적으로 다루어 이해를 높일 수 있도록 돕겠습니다.​1. 차원의 저주: 고차원 데이터의 문제점데이터의 차원이 높아질수록 데이터 처리에 필요한 계산량과 시간이 기하급수적으로 증가합니다. 이는 데이터 분석..

Data Science 2024.07.05

비지도 학습 결과 평가: 산점도 활용 가이드

비지도 학습 결과 평가: 산점도 활용 가이드​​비지도 학습은 라벨이 없는 데이터를 기반으로 학습하는 머신 러닝 알고리즘입니다.비지도 학습 모델의 성능을 평가하는 것은 도전적인 작업입니다.따라서 다양한 평가 방법들이 제안되었으며, 그 중 산점도(scatter plot)는 비지도 학습 결과를 시각적으로 확인하는 데 유용한 도구입니다.이 글에서는 산점도를 활용한 비지도 학습 결과 평가 방법을 단계별로 설명하고, 각 단계에서 고려해야 할 사항과 주의점을 알아보겠습니다.​1. 데이터 준비 및 전처리데이터 불균형 문제 해결: 데이터 세트에 불균형이 존재하는 경우, 표본 추출(sampling) 또는 데이터 변환(data transformation)을 통해 불균형을 해소해야 합니다.데이터 정규화: 데이터의 척도가 서로..

Data Science 2024.07.05

[정오분류표] 정확도, 민감도, 특이도 헷갈리지 않는 완벽 가이드

정오분류표, 정확도, 민감도, 특이도: 헷갈리지 않는 완벽 가이드​ ​데이터 분석과 머신러닝 분야에서 정오분류표(Confusion Matrix), 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity)는 핵심적인 개념입니다. 하지만 이 개념들은 서로 밀접하게 관련되어 있으면서도 미묘한 차이를 가지고 있어 일반인들에게는 헷갈릴 수 있습니다.​이 글에서는 정오분류표를 기반으로 정확도, 민감도, 특이도의 정의, 계산 방법, 상호 연관 관계를 쉽고 명확하게 설명하여 헷갈림 없이 이해할 수 있도록 도와드리겠습니다.​1. 정오분류표: 예측 결과의 진실을 표로 보여주다​정오분류표는 실제 결과와 예측 결과를 비교하여 모델의 성능을 평가하는 데 사용되는 표입니다.분류실제 양성실제 음성예..

Data Science 2024.07.04

다중 회귀 분석에서 변수 선택(전진 선택/후진 소거/단계적 방법)

다중 회귀 분석에서 변수 선택하기: 어떤 변수를 남겨야 할까?  1. 다중 회귀 분석이란 무엇일까?다중 회귀 분석은 하나 이상의 독립 변수가 종속 변수에 미치는 영향력을 분석하는 통계적 기법입니다. 쉽게 말해, 여러 요인이 어떤 결과에 어떤 영향을 미치는지 분석하는 방법이라고 생각하면 됩니다. 예를 들어, 주택 가격에 영향을 미치는 요인을 분석하거나, 학생의 학업 성적에 영향을 미치는 요인을 분석하는 데 다중 회귀 분석을 활용할 수 있습니다. 2. 다중 회귀 분석에서 변수 선택의 중요성다중 회귀 분석에서 모든 독립 변수를 사용하는 것은 항상 좋은 방법이 아닙니다. 불필요한 변수를 포함하면 모델의 정확도가 떨어지고 해석이 어려워질 수 있습니다. 또한, 과도한 변수는 과적합(overfitting) 현상을 유..

Data Science 2024.07.03

시계열 데이터분석과 데이터 누수 data leakage

시계열 데이터, 흐르는 데이터에서 숨겨진 누수를 찾아라! 1. 서론시계열 데이터는 시간에 따라 변화하는 데이터를 말하며, 주식 시세, 날씨 변화, 센서 데이터 등 다양한 분야에서 활용됩니다. 하지만, 시계열 데이터를 분석하고 모델링할 때 데이터 누수가 발생하면 모델 성능 저하와 잘못된 예측으로 이어질 수 있습니다. 마치 흐르는 강에서 누수가 발생하면 정확한 수량 측정이 불가능하듯, 데이터 누수는 시계열 데이터의 본질적인 특징을 왜곡하여 오류를 야기할 수 있습니다.  2. 시계열 데이터 누수의 종류: 다양한 형태의 숨은 누수데이터 누수는 크게 두 가지 유형으로 나눌 수 있습니다.미래 정보 누수: 모델 학습에 사용되는 데이터에 미래 시점의 정보가 포함되는 경우입니다. 마치 미래를 미리 알고 시험에 대비하는 ..

Data Science 2024.07.02

다항 회귀 vs 다중 회귀 개념 차이점 비교

다항 회귀와 다중 회귀는 모두 회귀 분석의 일종이지만, 다루는 변수와 형태가 다릅니다. 쉽게 이해할 수 있도록 비교해 설명해드릴게요.​ ​다항 회귀 (Polynomial Regression)- **정의**: 다항 회귀는 독립 변수가 하나이지만, 그 독립 변수의 n차 항들을 포함하는 회귀 분석입니다.- **목적**: 데이터와 더 잘 맞는 곡선(비선형 관계)을 찾기 위해 사용됩니다.- **수식 예시**: \( y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + ... + \beta_n x^n \)- **사용 예시**: 독립 변수 \( x \)가 한 개인 경우, 예를 들어 시간에 따른 온도 변화 추세를 분석할 때 사용됩니다.​다중 회귀 (Multiple Regres..

Data Science 2024.06.20

DTM(Document-Term Matrix, 문서 단어 행렬)

DTM(Document-Term Matrix, 문서-용어 행렬)은 텍스트 마이닝과 자연어 처리(NLP)에서 문서 컬렉션 내의 용어 빈도를 설명하기 위해 사용되는 수학적 행렬입니다. 이 행렬은 각 문서를 행으로, 코퍼스 내의 모든 고유 용어를 열로 나타내며, 각 셀에는 문서 내에서 해당 용어가 나타나는 빈도(또는 가중치)가 포함됩니다.DTM의 구성행(Rows): 각각의 행은 다른 문서를 나타냅니다. 만약 분석하고자 하는 문서 컬렉션이 100개의 문서를 포함하고 있다면, DTM은 100개의 행을 갖게 됩니다.열(Columns): 각 열은 코퍼스 내의 고유한 용어를 나타냅니다. 예를 들어, 모든 문서에서 총 1,000개의 고유 용어가 발견되었다면, DTM은 1,000개의 열을 갖게 됩니다.값(Values): ..

Data Science 2024.04.29

워드 클라우드 파이썬 몰라도 AI 코디니로 코딩없이 뚝딱!

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. ​ 워드 클라우드라고 들어보셨죠? 워드 클라우드는 텍스트 데이터의 특징을 시각적으로 표현하는 방법 중 하나입니다. 워드 클라우드는 '단어 구름'이라고도 불리며, 이는 특정 텍스트나 데이터 세트에서 가장 빈번하게 등장하는 단어를 크고 눈에 띄게 표시하고, 그 외의 단어들은 상대적으로 작게 표시하는 방식으로 정보를 전달합니다. 즉, 큰 글씨로 표시된 단어는 그 텍스트에서 가장 중요하거나 빈번하게 등장한다는 것을 의미하며, 이를 통해 사용자는 한눈에 해당 텍스트의 주요 키워드를 파악할 수 있습니다. 이는 블로그 글이나 뉴스 기사, 연구 보고서 등 다양한 텍스트에서 주요 테마나 키워드를 빠르게 이해하는 데 도움을 줍니다. 이렇게 워드 클라우드를 활..

Data Science 2024.02.22

초거대 언어 모델(LLM, 챗GPT) 사용법 AI 코디니로 배우기

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. 생성형 AI에 대한 관심이 아주 뜨거워요. 생성형AI를 교육에 활용하고자 하는 움직임도 활발하구요. 특히 엔트리에 비해 후발주자인 AI 코디니는 엔트리에 없는 몇 가지 기능이 들어있어요. 워드 클라우드가 그렇구요. 다른 하나는 생성 모델에 대한 콘텐츠도 탑재되어있어요. ​ -초거대 언어 모델 -애니메이션 변환 -화풍 변환 ​ AI 코디니에 소개된 초거대 언어 모델 LLM에 대한 설명이에요. 방대한 양의 텍스트 데이터를 학습한 머신 러닝 모델로써, 주로 LLM(Large Language Model)으로 부릅니다. LLM은 텍스트를 생성하고, 언어를 번역하고, 질문에 답하고, 창의적인 콘텐츠를 작성하는 등 다양한 작업을 수행할 수 있습니다. 코..

Data Science 2024.02.22
반응형