태지쌤

로봇 & 코딩교육 No.1 크리에이터

데이터과학 11

데이터 사일로(data silo) 문제와 해결 방안

​안녕하세요! 오늘은 많은 기업들이 겪고 있는 '데이터 사일로'에 대해 이야기해보겠습니다. 데이터가 전체적으로 통합되지 않고 개별 부서나 사업 부문별로 활용되는 현상인 데이터 사일로는, 조직 내에서 정보의 흐름을 방해하고 비효율성을 초래할 수 있습니다.1. 서론1.1 데이터 사일로의 정의데이터 사일로란 특정 부서나 팀이 보유한 데이터가 다른 부서와 공유되지 않고 고립된 상태를 의미합니다. 이러한 현상은 종종 각 부서가 독립적으로 운영되면서 발생하게 됩니다.1.2 데이터 사일로가 발생하는 이유데이터 사일로는 여러 가지 이유에서 발생할 수 있습니다.부서 간 소통 부족 : 각 부서가 자신의 목표에만 집중하다 보니, 다른 부서와의 소통이 원활하지 않게 됩니다.기술적 장벽 : 서로 다른 시스템이나 플랫폼을 사용함..

Data Science 2024.09.05

시민 데이터과학자: 데이터로 세상을 바꾸는 사람들

​'시민 데이터과학자'란 데이터 분석과 과학적 방법을 활용해 사회 문제를 해결하고 공공의 이익을 증진하는 시민들을 말합니다. 이들은 전문적인 데이터 과학자와는 달리, 데이터 분석 도구와 기법을 활용해 자신의 관심 분야나 지역 사회의 문제를 해결하는 데 중점을 둡니다.​1. 시민 데이터과학자의 등장 배경​현대 사회는 데이터가 넘쳐나는 시대입니다. 정부, 기업, 비영리 단체 등 다양한 기관에서 수집된 데이터는 사회 문제를 해결하는 데 중요한 역할을 합니다. 그러나 이러한 데이터는 대부분 전문가들에 의해 분석되고 활용됩니다. 이에 대한 문제의식이 커지면서, 일반 시민들도 데이터 분석 도구와 기법을 배워 사회 문제를 해결하는 데 기여할 수 있다는 인식이 확산되었습니다.​2. 시민 데이터과학자의 역할​시민 데이터..

Data Science 2024.08.29

[정오분류표] 정확도, 민감도, 특이도 헷갈리지 않는 완벽 가이드

정오분류표, 정확도, 민감도, 특이도: 헷갈리지 않는 완벽 가이드​ ​데이터 분석과 머신러닝 분야에서 정오분류표(Confusion Matrix), 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity)는 핵심적인 개념입니다. 하지만 이 개념들은 서로 밀접하게 관련되어 있으면서도 미묘한 차이를 가지고 있어 일반인들에게는 헷갈릴 수 있습니다.​이 글에서는 정오분류표를 기반으로 정확도, 민감도, 특이도의 정의, 계산 방법, 상호 연관 관계를 쉽고 명확하게 설명하여 헷갈림 없이 이해할 수 있도록 도와드리겠습니다.​1. 정오분류표: 예측 결과의 진실을 표로 보여주다​정오분류표는 실제 결과와 예측 결과를 비교하여 모델의 성능을 평가하는 데 사용되는 표입니다.분류실제 양성실제 음성예..

Data Science 2024.07.04

다중 회귀 분석에서 변수 선택(전진 선택/후진 소거/단계적 방법)

다중 회귀 분석에서 변수 선택하기: 어떤 변수를 남겨야 할까?  1. 다중 회귀 분석이란 무엇일까?다중 회귀 분석은 하나 이상의 독립 변수가 종속 변수에 미치는 영향력을 분석하는 통계적 기법입니다. 쉽게 말해, 여러 요인이 어떤 결과에 어떤 영향을 미치는지 분석하는 방법이라고 생각하면 됩니다. 예를 들어, 주택 가격에 영향을 미치는 요인을 분석하거나, 학생의 학업 성적에 영향을 미치는 요인을 분석하는 데 다중 회귀 분석을 활용할 수 있습니다. 2. 다중 회귀 분석에서 변수 선택의 중요성다중 회귀 분석에서 모든 독립 변수를 사용하는 것은 항상 좋은 방법이 아닙니다. 불필요한 변수를 포함하면 모델의 정확도가 떨어지고 해석이 어려워질 수 있습니다. 또한, 과도한 변수는 과적합(overfitting) 현상을 유..

Data Science 2024.07.03

시계열 데이터분석과 데이터 누수 data leakage

시계열 데이터, 흐르는 데이터에서 숨겨진 누수를 찾아라! 1. 서론시계열 데이터는 시간에 따라 변화하는 데이터를 말하며, 주식 시세, 날씨 변화, 센서 데이터 등 다양한 분야에서 활용됩니다. 하지만, 시계열 데이터를 분석하고 모델링할 때 데이터 누수가 발생하면 모델 성능 저하와 잘못된 예측으로 이어질 수 있습니다. 마치 흐르는 강에서 누수가 발생하면 정확한 수량 측정이 불가능하듯, 데이터 누수는 시계열 데이터의 본질적인 특징을 왜곡하여 오류를 야기할 수 있습니다.  2. 시계열 데이터 누수의 종류: 다양한 형태의 숨은 누수데이터 누수는 크게 두 가지 유형으로 나눌 수 있습니다.미래 정보 누수: 모델 학습에 사용되는 데이터에 미래 시점의 정보가 포함되는 경우입니다. 마치 미래를 미리 알고 시험에 대비하는 ..

Data Science 2024.07.02

다항 회귀 vs 다중 회귀 개념 차이점 비교

다항 회귀와 다중 회귀는 모두 회귀 분석의 일종이지만, 다루는 변수와 형태가 다릅니다. 쉽게 이해할 수 있도록 비교해 설명해드릴게요.​ ​다항 회귀 (Polynomial Regression)- **정의**: 다항 회귀는 독립 변수가 하나이지만, 그 독립 변수의 n차 항들을 포함하는 회귀 분석입니다.- **목적**: 데이터와 더 잘 맞는 곡선(비선형 관계)을 찾기 위해 사용됩니다.- **수식 예시**: \( y = \beta_0 + \beta_1 x + \beta_2 x^2 + \beta_3 x^3 + ... + \beta_n x^n \)- **사용 예시**: 독립 변수 \( x \)가 한 개인 경우, 예를 들어 시간에 따른 온도 변화 추세를 분석할 때 사용됩니다.​다중 회귀 (Multiple Regres..

Data Science 2024.06.20

데이터 엔지니어(링)를 위한 97가지 조언

안녕하세요? 로봇 & 코딩교육 No.1 크리에이터 태지쌤이에요. 오늘 소개해드릴 책은 데이터 엔지니어를 위한 97가지 조언이라는 책이에요. 출판사는 길벗이구요. 약간 독특한 컨셉의 책이에요. 대표 저자가 토비아스 메이시로 되어있지만 실은 구글, 트위터, 마이크로소프트, 링크드인 등에 근무하고 있는 현직 데이터 엔지니어 97명의 노하우를 담고 있는 책이거든요. ​ ​ 21세기 가장 핫한 직업이라고 불리우는 데이터 과학자, 엔지니어, 분석가! 이 분야에서 한걸음 더 성장하고 싶다면 전문가들의 경험과 지식을 빠르게 습득하면 도움이 될거에요.​ ​ ​ 이 책은 목차만 5페이지에 이를만큼 다양한 사람들의 조언을 담고 있구요. 그 조언이 길지 않고 짧게 요약되어 있구요. IT전문도서들이 내용이 어려워서 이해하면서 ..

Data Science 2023.11.06

[인공지능] 지도학습 분류 vs 비지도학습 군집화 비교

​ 지도학습과 비지도학습은 머신러닝의 두 가지 주요 패러다임입니다. 이들 간에는 몇 가지 중요한 차이점이 있습니다. ​ 1. 목표와 지도 데이터의 존재 여부: - 지도학습: 명시적인 목표가 있으며, 레이블된 지도 데이터를 사용하여 모델을 학습시키는 방법입니다. 모델은 입력 데이터와 그에 대한 정답 레이블 사이의 관계를 학습하여 예측을 수행할 수 있습니다. - 비지도학습: 명시적인 목표가 없으며, 레이블되지 않은 데이터를 사용하여 숨겨진 구조나 특성을 발견하는 방법입니다. 모델은 데이터의 패턴, 유사성, 군집 등을 파악하고 추론합니다. ​ 2. 데이터의 형태와 사용 방법: - 지도학습: 입력 데이터와 해당하는 출력(레이블) 사이의 관계를 학습하는 방식으로, 데이터에 대한 사전 정보(레이블)가 필요합니다. ..

Data Science 2023.05.23
반응형