반응형
데이터과학과 인공지능(AI) 완벽 정리
데이터과학과 인공지능은 현대 기술의 핵심 분야이다. 이 글에서는 데이터를 읽는 방법부터 시작해 데이터 해석의 중요성, 머신러닝, 그리고 데이터 파이프라인까지 전체 흐름을 체계적으로 정리한다.
01. 데이터 읽기
데이터를 읽는다는 것
데이터를 읽는다는 것은 단순히 숫자를 보는 것이 아니라, 그 안에 숨겨진 패턴, 의미, 맥락을 해석하는 과정이다.
- 코난 도일의 ‘보헤미안 스캔들’ → 관찰과 추론의 중요성
- 구글 트렌드 분석 → 데이터 기반 패턴 파악
데이터의 정의
- Data is a set of values
- 목적을 위해 행위자에 의해 수집된 값의 집합
- A set of values collected together for analysis
- 수집 / 축적 / 저장된 값들의 집합
예시
- 1920년 미국 인구조사
- 1960년 농촌 국세조사
데이터 해석의 중요성
Simpson의 패러독스
1973년 UC Berkeley 대학원 입시 데이터에서 겉으로는 여성 차별처럼 보였지만, 실제로는 지원 학과의 경쟁률 차이 때문이었다.
- 여학생 → 경쟁률 높은 학과 지원 많음
- 남학생 → 상대적으로 합격률 높은 학과 지원
- 결과적으로 전체 합격률에서 왜곡 발생
👉 즉, 데이터를 전체 평균만 보고 해석하면 잘못된 결론에 도달할 수 있다.
평균의 함정
- 군사의 평균 키: 160cm
- 강의 평균 수심: 140cm
평균값만 보면 안전해 보이지만, 실제로는 위험할 수 있다. → 분포와 편차를 반드시 함께 봐야 한다.
데이터 읽기 절차
| 단계 | 설명 |
|---|---|
| 1 | 자료에 대한 의문 제기 |
| 2 | 자료 분석 |
| 3 | 확률 모델 탐색 |
| 4 | 모델 타당성 검토 |
핵심 포인트
분석 목표에 따라 같은 데이터도 완전히 다르게 해석될 수 있다.
02. 기계학습과 데이터과학
데이터 과학 vs 인공지능
| 구분 | 데이터 과학 | 인공지능 |
|---|---|---|
| 목적 | 데이터에서 인사이트 도출 | 인간처럼 판단하는 시스템 구축 |
| 도구 | Python, R, SQL, Tableau | TensorFlow, PyTorch, Scikit-learn |
| 활동 | EDA, 분석, 모델링, 해석 | 머신러닝, 딥러닝, NLP, CV |
데이터 기반 의사결정
- EDA (탐색적 데이터 분석)
- 시각화
- 통계 분석
- 모델링
분석 유형
- Descriptive : Clustering, EDA
- Predictive : Regression, Classification
데이터 파이프라인
데이터는 하나의 흐름(파이프라인)처럼 움직인다.
| 단계 | 내용 |
|---|---|
| 수집 | 로그, 센서, API, 설문, DB |
| 정제 | 오류 제거, 결측치 처리, 형식 통일 |
| 저장 | DB, 데이터 웨어하우스, 데이터 레이크 |
| 제공 | 분석가, 모델, 서비스 전달 |
파이프라인 특징
- 연속성 : 끊기지 않는 흐름
- 자동화 : 사람 개입 최소화
- 방향성 : 정해진 경로로 이동
- 확장성 : 데이터 증가에도 안정적
데이터과학을 위해 필요한 요소
- 데이터 수집/관리
- 데이터 엔지니어링
- 데이터베이스 / 파이프라인
- 분석 및 모델링
- 통계 분석
- 머신러닝
- 예측 모델링
- 해석 및 의사결정
- 시각화
- 설명 가능성
- 비즈니스 판단
- 윤리
- 편향 / 공정성
- 프라이버시
- 책임 있는 AI
자동화와 AI
반복적인 작업을 기계가 대신 수행하도록 만드는 것이 자동화이며, 여기에 학습 능력을 더하면 지능형 자동화가 된다.
- 패턴을 찾는다
- 모델을 만든다
- 시스템으로 구현한다
데이터과학 vs AI 흐름 비교
| 데이터과학 | AI |
|---|---|
| 의사결정 필요 → 데이터 분석 → 결과 해석 → 의사결정 활용 | 자동화 필요 → 패턴 학습 → 모델 생성 → 시스템 구현 |
03. 머신러닝의 중요성
데이터 과학자가 AI를 알아야 하는 이유
데이터 과학자는 단순히 분석만 하는 것이 아니라 모델 결과를 해석하고 의미를 부여하는 역할을 한다.
- 기술 이해 부족 → 데이터 해석 불가능
- 사회적 맥락 부족 → 위험한 결론 도출
👉 숫자는 항상 객관적이지 않다. 👉 데이터 해석에는 반드시 기술 + 맥락이 함께 필요하다.
결론
데이터과학과 인공지능은 단순한 기술이 아니라 의사결정을 위한 사고 방식이다.
데이터를 읽고, 해석하고, 모델링하고, 결국 현실 문제 해결에 적용하는 것이 핵심이다.
반응형
'AI리터러시' 카테고리의 다른 글
| 프롬프트 · 프롬프팅 · 페르소나 (0) | 2026.05.11 |
|---|---|
| 마이크로디그리 (1) | 2026.05.05 |
| 인공지능 시대에 반드시 알아야 할 윤리 기준 정리 (0) | 2026.04.13 |
| 윤리와 도덕의 차이, 법과의 관계, 그리고 AI 윤리의 개념 (0) | 2026.04.06 |
| AI와 인문학의 융합 완전 정리 (0) | 2026.03.30 |