태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science 75

슬라이딩 윈도우 데이터 가공: 시계열 데이터 분석의 핵심 기법

​시계열 데이터를 다룰 때 자주 사용되는 '슬라이딩 윈도우' 기법에 대해 알아보겠습니다. 이 방법은 데이터 과학자들이 연속적인 데이터 포인트를 효과적으로 분석하고 가공하는 데 사용하는 강력한 도구입니다.​슬라이딩 윈도우란?​슬라이딩 윈도우는 고정된 크기의 '윈도우'를 데이터를 따라 이동시키면서 각 윈도우 내의 데이터를 분석하는 기법입니다. 이 방법을 통해 시간에 따른 데이터의 변화를 연속적으로 관찰할 수 있습니다.​슬라이딩 윈도우의 주요 특징​1. 윈도우 크기 : 분석하고자 하는 데이터 포인트의 수를 결정합니다.2. 스텝 크기 : 윈도우가 이동하는 간격을 정합니다.3. 연산 : 각 윈도우 내에서 수행할 계산을 정의합니다 (예: 평균, 중앙값, 최대값 등).​슬라이딩 윈도우의 응용 분야​- 주식 시장 분석..

Data Science 2024.12.23

머신러닝에서의 데이터 전처리: 표준화, 정규화, RobustScaler

​https://link.coupang.com/a/b4dnd2 Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡쿠팡에서 0.0 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 0 제품도 바로 쿠팡에서 확인할 수 있습니다.www.coupang.com머신러닝에서의 데이터 전처리: 표준화, 정규화, RobustScaler ​데이터 전처리는 머신러닝 모델의 성능을 크게 향상시킬 수 있는 중요한 단계입니다. 오늘은 데이터 스케일링의 세 가지 주요 방법인 표준화, 정규화, 그리고 RobustScaler에 대해 알아보겠습니다.​1. 표준화 (Standardization)​표준화는 데이터의 평균을 0, 표준편차를 1로 변환하는 과정입니다.​- 수식: (x - μ) / σ- 특징: 이상치에 민감할 수 ..

Data Science 2024.12.10

PCA에서 변수 선택과 변수 추출 차이점

https://link.coupang.com/a/b3a8pW Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡쿠팡에서 0.0 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 0 제품도 바로 쿠팡에서 확인할 수 있습니다.www.coupang.com ​안녕하세요! 오늘은 PCA(주성분 분석)에서 변수 선택과 변수 추출의 차이점에 대해 알아보겠습니다. 데이터 분석을 하다 보면 변수 선택과 변수 추출이라는 용어를 자주 접하게 되는데요, 이 두 개념은 비슷해 보이지만 실제로는 매우 다른 의미를 가지고 있습니다. 그럼 하나씩 살펴보도록 하겠습니다.​PCA의 기본 개념PCA는 고차원 데이터를 저차원으로 변환하는 기법으로, 데이터의 분산을 최대한 보존하면서 차원을 축소하는 방법입니다. 이 과정에서 변..

Data Science 2024.12.03

K-means 최적의 k값 찾는 엘보우, 실루엣 기법

https://link.coupang.com/a/b3a8pW Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡쿠팡에서 0.0 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 0 제품도 바로 쿠팡에서 확인할 수 있습니다.www.coupang.com안녕하세요! 오늘은 K-means 클러스터링에서 최적의 k값을 찾는 방법에 대해 알아보겠습니다. 데이터 분석에서 클러스터링은 매우 중요한 기법이며, 그 중에서도 K-means는 가장 널리 사용되는 방법 중 하나입니다. 그럼 시작해볼까요? 😊​​K-means 클러스터링 소개K-means 클러스터링은 주어진 데이터 포인트를 k개의 클러스터로 나누는 비지도 학습 기법입니다. 이 방법은 각 클러스터의 중심(centroid)을 계산하고, 데이터 포인트를..

Data Science 2024.12.03

상관계수와 독립성

​상관계수와 독립성에 대해 알아보겠습니다. 상관계수는 두 변수 간의 관계의 세기와 방향을 측정하는 개념입니다. 반면, 독립성은 두 변수 간의 상호 의존성이 없음을 나타내는 개념입니다. 이 두 개념은 통계학에서 매우 중요한 역할을 하며, 데이터 분석 및 해석에 필수적입니다.​1. 상관계수란 무엇인가?상관계수는 두 변수 간의 관계를 수치적으로 표현하는 지표입니다. 일반적으로 -1에서 1 사이의 값을 가지며, 1에 가까울수록 두 변수 간의 양의 상관관계가 강하다는 것을 의미하고, -1에 가까울수록 음의 상관관계가 강하다는 것을 의미합니다. 0에 가까운 값은 두 변수 간의 관계가 없음을 나타냅니다.​2. 상관계수의 종류상관계수에는 여러 종류가 있습니다. 가장 일반적으로 사용되는 것은 피어슨 상관계수입니다. 이는..

Data Science 2024.11.29

SVM 모델과 과적합

​안녕하세요! 오늘은 SVM(Support Vector Machine) 모델이 과적합되지 않는 이유에 대해 알아보겠습니다. 머신러닝에서 과적합은 모델이 훈련 데이터에 너무 잘 맞춰져서 새로운 데이터에 대한 일반화 능력이 떨어지는 현상을 말합니다. SVM은 이러한 과적합을 방지하는 데 매우 효과적인 모델입니다. 그럼 하나씩 살펴보도록 하겠습니다.​SVM 모델의 기본 개념SVM은 주어진 데이터 포인트를 분류하기 위해 최적의 결정 경계를 찾는 알고리즘입니다. 이 결정 경계는 두 클래스 간의 마진을 최대화하는 방식으로 설정됩니다. SVM은 선형 분류기와 비선형 분류기를 모두 지원하며, 커널 트릭을 사용하여 고차원 공간으로 데이터를 변환할 수 있습니다. 이를 통해 복잡한 데이터 구조를 효과적으로 처리할 수 있습니..

Data Science 2024.11.29

가우시안 RBF 커널의 정의

​가우시안 RBF 커널에 대해 알아보겠습니다. 오늘은 기계학습에서 중요한 역할을 하는 가우시안 RBF 커널에 대해 자세히 설명드리겠습니다. 이 커널은 데이터의 비선형성을 처리하는 데 매우 유용하며, 다양한 머신러닝 알고리즘에서 널리 사용됩니다.가우시안 RBF 커널은 Radial Basis Function의 일종으로, 주로 서포트 벡터 머신(SVM)에서 사용됩니다. 이 커널은 두 점 사이의 거리를 기반으로 하여, 데이터 포인트 간의 유사성을 측정합니다. 즉, 두 점이 가까울수록 커널 값이 높아지고, 멀어질수록 커널 값이 낮아지는 특징을 가지고 있습니다.​가우시안 RBF 커널의 수학적 표현가우시안 RBF 커널의 수학적 표현은 다음과 같습니다:[ K(x_i, x_j) = \exp\left(-\gamma |x_..

Data Science 2024.11.29

생성형 AI와 인간의 업무 협업 관계

안녕하세요? 로봇 & 코딩교육No.1 크리에이터 태지쌤이에요.​​요새 업무를 할 때생성형 AI를 엄청 잘 활용하고 있어요.​최근 회사에서 진행하는유아 원장님들을 대상으로 한코딩교육 설명회 타이틀을 정하는데생성형 AI에게 적절한 프롬프트를 입력해서결과를 도출해서 단톡방에 올렸는데바로 대표님께서 마음에 드셨는지제가 올린 문구로 선정이 되었어요.사실 제 아이디어는 아니고...^^;;생성형AI를 활용했고저는 그 생성형 AI에게 적절한 프롬프트로결과를 유도했을 뿐 ㅋㅋㅋ​ ​또 한번은 문서에 넣을이미지나 사진이 필요했어요.회사에서 개발한 유아대상의코딩교육 앱을 부모님이 아이와 함께집에서 즐기는 모습을 원했죠.이 사진도 생성형 AI로 시도해봤어요.​​제가 첨부한 이미지를 활용하는데까지는만족하지 못한 결과였지만얼추 ..

Data Science 2024.11.07

텍스트 분석의 단어 가방 모형

​안녕하세요! 오늘은 텍스트 분석의 중요한 개념 중 하나인 '단어 가방 모형'에 대해 알아보겠습니다. 이 모형은 1954년 젤리그 해리스의 논문에서 처음 소개되었으며, 텍스트의 특징을 벡터로 표현하는 데 큰 역할을 하고 있습니다. 그럼, 하나씩 살펴보도록 하겠습니다.​단어 가방 모형의 정의단어 가방 모형(Bag of Words Model)은 텍스트를 단어의 집합으로 간주하여 각 단어의 출현 빈도를 기반으로 텍스트를 분석하는 방법입니다. 이 모형은 문장의 순서나 문법적 구조를 무시하고, 단어의 존재 여부와 빈도만을 고려합니다. 이러한 접근 방식은 텍스트의 의미를 간단하게 표현할 수 있는 장점이 있습니다.​젤리그 해리스의 기여젤리그 해리스는 현대 언어학의 중요한 인물 중 하나로, 그의 연구는 언어의 구조와 ..

Data Science 2024.10.31

텍스트 분석의 n-gram 기법

​안녕하세요! 오늘은 텍스트 분석의 중요한 기법 중 하나인 n-gram 기법에 대해 알아보겠습니다. n-gram은 자연어 처리(NLP)에서 많이 사용되는 기법으로, 텍스트 데이터를 분석하고 의미 있는 패턴을 발견하는 데 도움을 줍니다. 그럼 시작해볼까요? 😊​n-gram 기법의 정의n-gram은 연속된 n개의 단어 또는 문자로 구성된 조합을 의미합니다. 예를 들어, "나는 학교에 간다"라는 문장이 있을 때, 이 문장에서 2개의 단어로 이루어진 조합인 바이그램(bigram)은 "나는 학교에", "학교에 간다"와 같이 생성됩니다. 이러한 방식으로 텍스트를 분석하면, 단어 간의 관계를 파악하고, 문맥을 이해하는 데 큰 도움이 됩니다.​n-gram의 종류n-gram은 n의 값에 따라 여러 종류로 나뉩니다.유니..

Data Science 2024.10.31
반응형