📊 데이터와 데이터과학 정리 (빅데이터 공부)
1️⃣ 데이터의 정의
데이터는 양, 질, 사실, 통계치 등을 표현하기 위한 이산 또는 연속적인 값들의 집합을 의미한다.
즉, 데이터는 현실 세계의 다양한 현상과 정보를 숫자나 문자 형태로 표현한 것으로, 컴퓨터 시스템을 통해 저장, 처리, 분석할 수 있는 기본적인 정보 단위이다.
2️⃣ 빅데이터 환경에서의 데이터
현대 사회에서는 다양한 디지털 기기와 인터넷 서비스의 발전으로 인해 데이터의 양이 폭발적으로 증가하고 있다.
데이터가 단순히 많이 존재한다고 해서 의미 있는 것은 아니다. 따라서 데이터의 가치를 높이기 위해서는 다음과 같은 과정이 필요하다.
- 과학적 접근법
- 통계학적 사고
- 데이터 선별 및 정제
3️⃣ 지식 피라미드 (DIKW Pyramid)
DIKW 피라미드는 데이터에서 지식과 지혜를 만들어가는 과정을 설명하는 대표적인 개념이다.
D - 데이터 (Data)
데이터는 의사결정에 필요한 정보를 추출하기 위해 사용되는 원천 자료이다.
데이터 분석 과정은 다음과 같은 단계로 발전한다.
- 설명 분석 (Descriptive Analysis)
- 진단 분석 (Diagnostic Analysis)
- 예측 분석 (Predictive Analysis)
- 처방 분석 (Prescriptive Analysis)
I - 정보 (Information)
관찰이나 측정을 통해 수집한 자료를 문제 해결을 위해 체계적으로 정리한 것이다.
K - 지식 (Knowledge)
지식은 데이터나 정보와 비교하여 경험적 요소가 강조된 개념이다.
단순히 경험을 축적하는 것에 그치지 않고, 획득된 정보들 사이의 관계성까지 이해하는 단계이다.
4️⃣ 빅데이터 시대의 데이터 유형
빅데이터 시대에는 기존의 테이블 중심 데이터뿐 아니라 다양한 형태의 데이터가 등장하고 있다.
- 음향 신호 데이터
- 영상 데이터
- 이미지 데이터
- 센서 데이터
- 소셜 미디어 데이터
즉, 데이터는 더 이상 단순한 숫자나 표 형식이 아니라 시각이나 청각을 통해 인지할 수 있는 모든 정보까지 포함하는 개념으로 확장되었다.
5️⃣ 데이터 형식에 의한 분류
| 데이터 유형 | 설명 | 예시 |
|---|---|---|
| 정형 데이터 | 미리 정해진 구조와 형식에 따라 저장되는 데이터 | 데이터베이스, CSV, 스프레드시트 |
| 반정형 데이터 | 정형과 비정형의 중간 형태로 메타데이터 포함 | JSON, XML |
| 비정형 데이터 | 정해진 구조 없이 저장되는 데이터 | 텍스트, 이미지, 영상, 음성 |
6️⃣ 데이터 속성과 척도에 의한 분류
정량적 데이터
- 연속형 데이터 : 1.3, 5.7, 83 (실수값)
- 이산형 데이터 : 1,2,3,4 (정수 중심)
정성적 데이터
- 범주 비순서형 : 개, 고양이, 물고기
- 범주 순서형 : 좋음, 보통, 나쁨
날짜 / 시간 / 텍스트
- 날짜 : 2018년 1월 1일
- 시간 : 오전 8시
- 텍스트 : 자연어 문장
7️⃣ 데이터의 기본 구조
프로그래밍 언어와 데이터 분석 패키지는 다양한 자료 구조를 제공하지만 대표적으로 다음과 같은 구조를 사용한다.
Vector
가장 기본적인 데이터 구조이며 하나 이상의 원소로 구성된다.
- 모든 원소는 동일한 데이터 타입
Matrix
- 2차원 데이터 구조
- 행과 열로 구성
- 벡터의 확장 형태
Array
- 행렬을 확장한 구조
- 3차원 이상의 데이터 구조
- 텐서(Tensor)라고도 불림
Data Frame
행과 열로 구성된 테이블 형태의 데이터 구조로 데이터 분석에서 가장 많이 사용된다.
8️⃣ 데이터 과학과 데이터 과학자
데이터 과학(Data Science)은 데이터로부터 의미 있는 통찰을 얻기 위한 학제간 연구 분야이다.
9️⃣ 빅데이터와 데이터 과학
| 구분 | 빅데이터 | 데이터 과학 |
|---|---|---|
| 강조점 | 데이터 저장 및 처리 | 데이터 분석과 해석 |
| 핵심 문제 | 확장성, 성능 | 비즈니스 문제 해결 |
🔟 데이터 분석과 데이터 과학
데이터 분석은 데이터 과학의 하위 영역이다.
- 데이터 과학 → 데이터 수집부터 모델링까지 전체 과정
- 데이터 분석 → 기존 데이터를 분석하는 과정
데이터 과학자와 데이터 분석가는 공통의 비즈니스 목표를 위해 협력한다.
11️⃣ 데이터 과학의 과학적 접근
예시
- 20대 고객들이 신제품을 구매할 것인가?
- 커피 섭취가 심혈관 질환 예방에 도움이 되는가?
12️⃣ 데이터 과학자란?
데이터 과학자는 다음과 같은 역할을 수행하는 전문가이다.
- 데이터 수집
- 데이터 저장 및 관리
- 데이터 가공 및 처리
- 데이터 분석
- 데이터 기반 의사결정 지원
13️⃣ 데이터 과학자의 필요 능력
데이터 과학자는 기술적 역량뿐 아니라 비즈니스 이해와 협업 능력도 중요하다.
📚 빅데이터 공부 기록 데이터 과학 기초 정리
'빅데이터' 카테고리의 다른 글
| 빅데이터 수집 방법들 (내부데이터, 외부데이터, API, 소셜데이터) (0) | 2026.04.02 |
|---|---|
| 데이터 분석과 프로그래밍개념 (0) | 2026.03.22 |
| 데이터 과학자와 빅데이터 분석 방법론 (0) | 2026.03.22 |
| 데이터 분석과 데이터 경제 (0) | 2026.03.09 |
| 빅데이터 정의와 특징 정리 | 3V, 5V, DIKW 피라미드 (0) | 2026.03.09 |