빅데이터

빅데이터와 데이터과학 정리

달보드레91 2026. 3. 13. 12:18
반응형
데이터와 데이터과학 정리 | 빅데이터 공부

📊 데이터와 데이터과학 정리 (빅데이터 공부)

이 글은 빅데이터 공부를 하면서 정리한 데이터의 개념, 데이터 유형, 데이터 과학, 데이터 과학자 역할 등을 체계적으로 정리한 학습 노트입니다.
데이터과학 빅데이터 데이터분석 데이터기초

1️⃣ 데이터의 정의

데이터는 양, 질, 사실, 통계치 등을 표현하기 위한 이산 또는 연속적인 값들의 집합을 의미한다.

📚 Merriam-Webster 사전 정의 "컴퓨터에 사용하기 위해 숫자로 표현된 정보"

즉, 데이터는 현실 세계의 다양한 현상과 정보를 숫자나 문자 형태로 표현한 것으로, 컴퓨터 시스템을 통해 저장, 처리, 분석할 수 있는 기본적인 정보 단위이다.

2️⃣ 빅데이터 환경에서의 데이터

현대 사회에서는 다양한 디지털 기기와 인터넷 서비스의 발전으로 인해 데이터의 양이 폭발적으로 증가하고 있다.

DATA의 변화 과정 📦 Datum (주어진 것) ⬇ 📈 데이터의 팽창 ⬇ 🔬 과학적 접근법 📊 통계적 사고 🧹 데이터 선별 ⬇ 📊 DATA (의미 있는 데이터)

데이터가 단순히 많이 존재한다고 해서 의미 있는 것은 아니다. 따라서 데이터의 가치를 높이기 위해서는 다음과 같은 과정이 필요하다.

  • 과학적 접근법
  • 통계학적 사고
  • 데이터 선별 및 정제

3️⃣ 지식 피라미드 (DIKW Pyramid)

DIKW 피라미드는 데이터에서 지식과 지혜를 만들어가는 과정을 설명하는 대표적인 개념이다.

🔺 DIKW Pyramid Wisdom (지혜) ⬆ Knowledge (지식) ⬆ Information (정보) ⬆ Data (데이터)

D - 데이터 (Data)

데이터는 의사결정에 필요한 정보를 추출하기 위해 사용되는 원천 자료이다.

데이터 분석 과정은 다음과 같은 단계로 발전한다.

  • 설명 분석 (Descriptive Analysis)
  • 진단 분석 (Diagnostic Analysis)
  • 예측 분석 (Predictive Analysis)
  • 처방 분석 (Prescriptive Analysis)

I - 정보 (Information)

관찰이나 측정을 통해 수집한 자료를 문제 해결을 위해 체계적으로 정리한 것이다.

관찰과 측정 ⬇ 자료 수집 ⬇ 체계화된 정보

K - 지식 (Knowledge)

지식은 데이터나 정보와 비교하여 경험적 요소가 강조된 개념이다.

단순히 경험을 축적하는 것에 그치지 않고, 획득된 정보들 사이의 관계성까지 이해하는 단계이다.

4️⃣ 빅데이터 시대의 데이터 유형

빅데이터 시대에는 기존의 테이블 중심 데이터뿐 아니라 다양한 형태의 데이터가 등장하고 있다.

  • 음향 신호 데이터
  • 영상 데이터
  • 이미지 데이터
  • 센서 데이터
  • 소셜 미디어 데이터

즉, 데이터는 더 이상 단순한 숫자나 표 형식이 아니라 시각이나 청각을 통해 인지할 수 있는 모든 정보까지 포함하는 개념으로 확장되었다.

5️⃣ 데이터 형식에 의한 분류

데이터 유형 설명 예시
정형 데이터 미리 정해진 구조와 형식에 따라 저장되는 데이터 데이터베이스, CSV, 스프레드시트
반정형 데이터 정형과 비정형의 중간 형태로 메타데이터 포함 JSON, XML
비정형 데이터 정해진 구조 없이 저장되는 데이터 텍스트, 이미지, 영상, 음성
✔ 정형 데이터 특징 - 데이터 수집과 가공이 비교적 쉽다 - 전통적인 분석 도구로 분석 가능 ✔ 비정형 데이터 특징 - 형태가 다양하다 - 수집 및 정제 과정이 복잡하다

6️⃣ 데이터 속성과 척도에 의한 분류

정량적 데이터

  • 연속형 데이터 : 1.3, 5.7, 83 (실수값)
  • 이산형 데이터 : 1,2,3,4 (정수 중심)

정성적 데이터

  • 범주 비순서형 : 개, 고양이, 물고기
  • 범주 순서형 : 좋음, 보통, 나쁨

날짜 / 시간 / 텍스트

  • 날짜 : 2018년 1월 1일
  • 시간 : 오전 8시
  • 텍스트 : 자연어 문장

7️⃣ 데이터의 기본 구조

프로그래밍 언어와 데이터 분석 패키지는 다양한 자료 구조를 제공하지만 대표적으로 다음과 같은 구조를 사용한다.

Vector

가장 기본적인 데이터 구조이며 하나 이상의 원소로 구성된다.

  • 모든 원소는 동일한 데이터 타입

Matrix

  • 2차원 데이터 구조
  • 행과 열로 구성
  • 벡터의 확장 형태

Array

  • 행렬을 확장한 구조
  • 3차원 이상의 데이터 구조
  • 텐서(Tensor)라고도 불림

Data Frame

행과 열로 구성된 테이블 형태의 데이터 구조로 데이터 분석에서 가장 많이 사용된다.

8️⃣ 데이터 과학과 데이터 과학자

데이터 과학(Data Science)은 데이터로부터 의미 있는 통찰을 얻기 위한 학제간 연구 분야이다.

데이터 과학은 다음 분야가 결합된 학문이다. 📊 통계학 💻 컴퓨터 과학 📈 데이터 분석 📊 머신러닝 📉 비즈니스 이해

9️⃣ 빅데이터와 데이터 과학

구분 빅데이터 데이터 과학
강조점 데이터 저장 및 처리 데이터 분석과 해석
핵심 문제 확장성, 성능 비즈니스 문제 해결

🔟 데이터 분석과 데이터 과학

데이터 분석은 데이터 과학의 하위 영역이다.

  • 데이터 과학 → 데이터 수집부터 모델링까지 전체 과정
  • 데이터 분석 → 기존 데이터를 분석하는 과정

데이터 과학자와 데이터 분석가는 공통의 비즈니스 목표를 위해 협력한다.

11️⃣ 데이터 과학의 과학적 접근

가설 ⬇ 관찰 ⬇ 데이터 수집 ⬇ 데이터 분석 ⬇ 이론 형성

예시

  • 20대 고객들이 신제품을 구매할 것인가?
  • 커피 섭취가 심혈관 질환 예방에 도움이 되는가?

12️⃣ 데이터 과학자란?

데이터 과학자는 다음과 같은 역할을 수행하는 전문가이다.

  • 데이터 수집
  • 데이터 저장 및 관리
  • 데이터 가공 및 처리
  • 데이터 분석
  • 데이터 기반 의사결정 지원

13️⃣ 데이터 과학자의 필요 능력

✔ 관리 능력 ✔ 분석 능력 ✔ 전략적 사고 능력 ✔ 협업 능력

데이터 과학자는 기술적 역량뿐 아니라 비즈니스 이해와 협업 능력도 중요하다.


📚 빅데이터 공부 기록 데이터 과학 기초 정리

반응형