빅데이터

데이터 유형별 시각화 기법 정리 초보용

달보드레91 2026. 4. 15. 19:17
반응형
데이터 유형별 시각화 기법 정리

데이터 유형별 시각화 기법

* 수량과 분포 데이터

- 막대 도표

수치 집합의 크기를 나타내야 하는 경우에 사용한다.

막대 도표의 종류 : 기본 막대, 묶은 막대, 누적 막대

막대도표 대신 점 도표나 히트맵을 사용할 수도 있다.

- 기본 막대 도표

가로축으로 막대를 그려 넣은 형태이다.

- 묶은 막대 도표

두 범주를 동시에 표현할 때 사용한다.

범주별로 기본 막대 도표를 나란히 배치하는 방법이다.

- 누적 막대 도표

막대들을 쌓아서 전체 합을 도출하는 것이 의미가 있는 경우에 사용한다.

예) 타이타닉의 객실 등급별 탑승 인원 남녀 합계

막대에 실제 데이터 값을 표현하고 Y축을 생략하면 더 직관적으로 표현할 수 있다.

- 점 도표

막대 도표가 기준점 0으로부터 길이로 정량값을 표현하는 단점을 보완한다.

- 히트맵

막대도표와 점 도표는 데이터 양이 많은 경우 요점을 전달하기 어려운 단점이 있다.

이때 막대나 점 대신 색을 이용하여 데이터 값을 표현한다.

- 히스토그램

구간의 폭에 따라 시각화된 분포의 모양이 달라진다.

- 밀도 도표

밀도 도표를 그리는 방법에 따라 분포가 다르게 표현된다.

- 누적 히스토그램

막대의 투명도를 높여 시작 위치를 표시한다.

- 중첩 밀도 도표

두 개 이상의 곡선으로 된 밀도 도표를 겹쳐서 표현한다.

- 박스 도표

데이터를 사분위로 나누고, 박스 안에 50%의 데이터를 표현한다.

여러 분포를 간명하게 표현할 수 있다.

- 바이올린 도표

박스 도표에 비해 데이터의 미묘한 차이를 더 잘 나타낼 수 있다.

단, 데이터의 양이 충분해야 매끄럽게 표현된다.

* 비율 데이터

- 비율 데이터의 시각화

어떤 집단, 조직체, 수량이 개개의 조각으로 나뉘어 있을 때 전체에서 차지하는 비율을 시각화로 표현한다.

예) 한 집단에서의 남녀 성비, 정당별 선거 득표율

- 파이 차트

전체 데이터에 해당하는 원을 부분 데이터가 차지하는 비중에 비례하는 크기의 조각으로 분할한다.

- 누적 막대 도표

원을 사용하는 대신 직사각형의 조각으로 표현한다.

- 막대 도표

병렬 막대로 표현한다.

- 내포 비율

하나의 범주 하위에 또 다른 범주가 있는 데이터의 하위 범주의 비율을 의미한다.

예) 정당별 성비, 결혼 상태별 건강 상태

- 모자이크 도표

길이를 이용하여 범주 내 비율을 표현한다.

가로 범주의 변화를 가정하는 데 효과적이다.

- 트리맵

사각형 안에 작은 사각형을 반복적으로 쪼개며 계층 구조를 표현한다.

여러 범주형 변수의 조합이 중요한 의미를 가지지 않을 때 효과적이다.

- 내포 파이 차트

범주의 조합을 조각과 색으로 표현한다.

트리맵에 비해 공간 활용이 비효율적이며, 파이 조각이 작아 레이블 표현이 어렵다.

- 평행 집합 도표

두 개 이상의 범주가 있는 데이터의 범주별 분류와 분류 간의 관계성을 나타낸다.

파이차트, 모자이크차트, 트리맵에 비해 여러 범주를 나타내는 데 효율적이다.

* 변수 연관성과 시계열 데이터

- 여러 정량 변수의 관계 시각화

데이터셋에 여러 정량 변수가 있을 경우, 이 변수 간의 상관관계를 표시한다.

예) 동물의 키와 몸무게의 연관성

- 산점도

점의 색으로 범주를 구분하여 표현한다.

한 도표 내에서 두 범주를 비교할 수 있다.

- 버블 차트

버블의 크기를 이용하여 속성을 표시한다.

한 도표 내에서 세 범주를 표현할 수 있다.

두 속성의 위치와 크기를 동시에 사용하기 때문에 혼란이 있을 수 있으며, 버블의 크기에도 제한이 있다.

- 상관계수

두 변수 사이의 상관관계의 정도를 -1과 1 사이의 수치로 표현한다.

- Correlogram

상관계수를 색을 이용하여 시각화한다.

변수가 많을 경우 산점도 매트릭스보다 간명하게 표현할 수 있으며, 색의 표현 방법 선택이 중요하다.

- 산점도 (시계열)

월별 bioRxiv에 등록된 논문 건수를 점으로 표현한다.

시간 개념이 두드러지지 않는다.

- 선 그래프

이웃한 두 점을 연결한다.

시간 개념이 두드러지게 나타난다.

- 여러 선이 있는 그래프

범례를 선 옆에 레이블로 표현하고 점을 생략한다.

간결하고 이해하기 쉽다.

정리

시각화의 목적은 인간의 인지를 확장시켜 통찰을 제공하고, 데이터 분석의 결과와 결론을 스토리로 전달하여 설득하는 것이다.

시각화 매핑은 데이터 공간에서 시각적 공간으로 변환하는 것이다.

잉크양 비례의 원칙은 시각화에서 음영 영역의 크기는 해당 영역이 나타내는 데이터 값에 비례해야 함을 의미한다.

수량과 분포 데이터를 시각화하는 데는 막대 도표, 점 도표, 히스토그램, 박스 도표 등이 사용된다.

비율 데이터를 시각화하는 데는 파이 차트, 막대 도표, 트리맵, 평행 집합 도표 등이 사용된다.

변수 연관성을 나타내는 데는 산점도, 버블 차트 등이 사용되며, 시계열 데이터를 시각화하는 데는 선 그래프가 주로 사용된다.

반응형