AI리터러시

"데이터과학과 인공지능(AI)

달보드레91 2026. 4. 29. 08:01
반응형
데이터과학과 AI 완벽 정리 | 데이터 읽기부터 머신러닝까지

데이터과학과 인공지능(AI) 완벽 정리

데이터과학과 인공지능은 현대 기술의 핵심 분야이다. 이 글에서는 데이터를 읽는 방법부터 시작해 데이터 해석의 중요성, 머신러닝, 그리고 데이터 파이프라인까지 전체 흐름을 체계적으로 정리한다.


01. 데이터 읽기

데이터를 읽는다는 것

데이터를 읽는다는 것은 단순히 숫자를 보는 것이 아니라, 그 안에 숨겨진 패턴, 의미, 맥락을 해석하는 과정이다.

  • 코난 도일의 ‘보헤미안 스캔들’ → 관찰과 추론의 중요성
  • 구글 트렌드 분석 → 데이터 기반 패턴 파악

데이터의 정의

  • Data is a set of values
  • 목적을 위해 행위자에 의해 수집된 값의 집합
  • A set of values collected together for analysis
  • 수집 / 축적 / 저장된 값들의 집합
예시
  • 1920년 미국 인구조사
  • 1960년 농촌 국세조사

데이터 해석의 중요성

Simpson의 패러독스

1973년 UC Berkeley 대학원 입시 데이터에서 겉으로는 여성 차별처럼 보였지만, 실제로는 지원 학과의 경쟁률 차이 때문이었다.

  • 여학생 → 경쟁률 높은 학과 지원 많음
  • 남학생 → 상대적으로 합격률 높은 학과 지원
  • 결과적으로 전체 합격률에서 왜곡 발생

👉 즉, 데이터를 전체 평균만 보고 해석하면 잘못된 결론에 도달할 수 있다.

평균의 함정

  • 군사의 평균 키: 160cm
  • 강의 평균 수심: 140cm

평균값만 보면 안전해 보이지만, 실제로는 위험할 수 있다. → 분포와 편차를 반드시 함께 봐야 한다.

데이터 읽기 절차

단계설명
1자료에 대한 의문 제기
2자료 분석
3확률 모델 탐색
4모델 타당성 검토

핵심 포인트
분석 목표에 따라 같은 데이터도 완전히 다르게 해석될 수 있다.


02. 기계학습과 데이터과학

데이터 과학 vs 인공지능

구분 데이터 과학 인공지능
목적 데이터에서 인사이트 도출 인간처럼 판단하는 시스템 구축
도구 Python, R, SQL, Tableau TensorFlow, PyTorch, Scikit-learn
활동 EDA, 분석, 모델링, 해석 머신러닝, 딥러닝, NLP, CV

데이터 기반 의사결정

  • EDA (탐색적 데이터 분석)
  • 시각화
  • 통계 분석
  • 모델링

분석 유형

  • Descriptive : Clustering, EDA
  • Predictive : Regression, Classification

데이터 파이프라인

데이터는 하나의 흐름(파이프라인)처럼 움직인다.
단계내용
수집로그, 센서, API, 설문, DB
정제오류 제거, 결측치 처리, 형식 통일
저장DB, 데이터 웨어하우스, 데이터 레이크
제공분석가, 모델, 서비스 전달

파이프라인 특징

  • 연속성 : 끊기지 않는 흐름
  • 자동화 : 사람 개입 최소화
  • 방향성 : 정해진 경로로 이동
  • 확장성 : 데이터 증가에도 안정적

데이터과학을 위해 필요한 요소

  • 데이터 수집/관리
    • 데이터 엔지니어링
    • 데이터베이스 / 파이프라인
  • 분석 및 모델링
    • 통계 분석
    • 머신러닝
    • 예측 모델링
  • 해석 및 의사결정
    • 시각화
    • 설명 가능성
    • 비즈니스 판단
  • 윤리
    • 편향 / 공정성
    • 프라이버시
    • 책임 있는 AI

자동화와 AI

반복적인 작업을 기계가 대신 수행하도록 만드는 것이 자동화이며, 여기에 학습 능력을 더하면 지능형 자동화가 된다.

  • 패턴을 찾는다
  • 모델을 만든다
  • 시스템으로 구현한다

데이터과학 vs AI 흐름 비교

데이터과학AI
의사결정 필요 → 데이터 분석 → 결과 해석 → 의사결정 활용 자동화 필요 → 패턴 학습 → 모델 생성 → 시스템 구현

03. 머신러닝의 중요성

데이터 과학자가 AI를 알아야 하는 이유

데이터 과학자는 단순히 분석만 하는 것이 아니라 모델 결과를 해석하고 의미를 부여하는 역할을 한다.

  • 기술 이해 부족 → 데이터 해석 불가능
  • 사회적 맥락 부족 → 위험한 결론 도출

👉 숫자는 항상 객관적이지 않다. 👉 데이터 해석에는 반드시 기술 + 맥락이 함께 필요하다.


결론

데이터과학과 인공지능은 단순한 기술이 아니라 의사결정을 위한 사고 방식이다.

데이터를 읽고, 해석하고, 모델링하고, 결국 현실 문제 해결에 적용하는 것이 핵심이다.

반응형