반응형
📊 텍스트 데이터 전처리와 분석 완벽 정리
텍스트 분석은 단순한 데이터 처리를 넘어, 사람의 의도와 의미를 이해하는 과정이다.
📌 텍스트 분석의 목적
- 텍스트 원문을 이해하는 것
- 흥미롭고 의미 있는 정보의 발견
- 긴 텍스트를 이해하는 일
- 글쓴이의 의도가 무엇인가?
- 핵심적인 메시지는 무엇인가?
- 짧은 텍스트를 이해하는 일
- 뉘앙스는 무엇인가?
- 함께 올린 사진이나 영상과는 무슨 관계인가?
👉 텍스트 분석은 단순 해석이 아니라 "의도 + 맥락 + 감정"까지 함께 파악하는 것이 핵심이다.
📌 텍스트 데이터의 특성
- 의미를 파악하기 쉬운 데이터
- 텍스트 자체에 글쓴이의 의도가 담겨 있음
- 부정확하거나 불확실한 데이터
- 텍스트에서 글쓴이의 의도나 감정을 파악하기 어려움
- 구조, 형식, 내용 등이 복잡한 데이터
- 언어가 가지는 비정형성, 함축성, 중의성 때문
✔ 텍스트 데이터는 "이해는 쉽지만 분석은 어려운 데이터"이다.
📌 텍스트 데이터의 구조
- 텍스트는 기계가 만들어낸 데이터와는 달리 비정형 데이터
- 언어마다 문법 체계가 다르고 텍스트의 길이가 다름
- 머신러닝 등의 기법을 적용하기 위해서는 데이터의 정형화가 필요
📌 텍스트 데이터의 양
- 웹과 소셜미디어에서 생산되는 데이터가 급격히 증가
👉 빅데이터 시대에서 텍스트 데이터는 가장 빠르게 증가하는 데이터 유형이다.
📌 데이터 마이닝
- 대규모 데이터베이스에서 흥미로운 패턴을 찾는 방법론
- 예: 고객이 물건을 구매하는 숨어있는 패턴을 파악하여 구매를 예측
📌 텍스트 마이닝
- 텍스트마이닝은 데이터 마이닝의 한 분야
- 대량의 텍스트 데이터셋에서 흥미로운 규칙들을 찾아내는 것
- 문자로 된 자료들로부터 자동적으로 정보를 추출하여 이전에 알려지지 않은 새로운 정보를 발견
- 여러 학문 분야와 관련 있는 다학제 분야
📌 텍스트마이닝과 텍스트분석
- 텍스트마이닝과 텍스트분석은 거의 같은 의미로 쓰임
- 텍스트마이닝은 과정을 더 강조
- 텍스트분석은 결과나 문제 해결을 더 강조
📌 텍스트 마이닝 과정
텍스트 수집 → 텍스트 전처리 → 텍스트 분석 → 텍스트 시각화
📌 문자 단위 텍스트 분석
- 글자 하나가 분석 단위 요소가 되는 방법
- 문자는 글자와 구분 기호로 나뉨
📌 단어 단위 텍스트 분석
- 단어 하나가 분석 요소가 되는 가장 일반적인 방법
- 다양한 텍스트마이닝과 자연어처리 기법의 기반
📌 단어 단위 분석 관련 용어
- 단어 → 다른 문자열과 구분된 문자열
- 토큰
- 분석에 유용한 의미적 단위로 함께 모여지는 문자열
- 구분 기호 사이의 글자 시퀀스
- 불용어
- 정보 없이 기능적인 역할만 하는 단어
- 분석 성능 향상을 위해 제거
- 언어와 도메인에 따라 달라질 수 있음
📌 토큰화
- 주어진 텍스트를 원하는 단위로 나누는 작업
- 단어 토큰화, 문장 토큰화
- 단어보다 더 작은 단위로 토큰화하는 경우도 있음
- 영어가 한국어보다 보통 토큰화가 쉬움 (형태소 구조 차이 때문)
📌 정규 표현식
- 문자열에 대해 원하는 검색 패턴을 지정하는 방법
- 문자열 검색 및 치환에 주로 사용
📌 표제어 추출과 어간 추출
같은 단어라도 형태 변화로 인해 다른 단어처럼 처리되는 문제를 해결하기 위한 과정
- 같은 형태로 단어를 일반화하여 문서 내 단어 수를 줄임
- 빈도 기반 Bag of Words 방법에서 중요하게 사용
- 여러 형태의 단어를 하나로 통합
표제어 추출
- 문맥을 고려하여 단어의 품사를 유지
- 사전형 기본 단어로 변환
어간 추출
- 품사가 유지되지 않을 수 있음
- 사전에 없는 형태가 될 수도 있음
📌 표제어 추출 상세
- 하나의 단어가 여러 형식으로 표현된 것을 하나로 묶는 기법
- 표제어: 기본 사전형 단어
- 뿌리 단어를 찾아 단어 수 감소
- 굴절 형태론 → 어미 변화
- 파생 형태론 → 새로운 단어 생성
📌 어간 추출
- 단어에서 접사를 제거하고 어간만 남기는 작업
- 관련 단어를 동일한 어간으로 매핑
- 규칙 기반으로 어미를 자르는 방식
📌 포터 어간 추출 알고리즘
- 영어 전처리에서 대표적으로 사용되는 알고리즘
📌 품사 태깅
- 각 단어를 해당 품사로 라벨링하는 작업
- 문장의 구조와 의미 파악에 중요
- 하나의 단어가 여러 품사를 가질 수 있는 모호성 존재
방법
- 규칙 기반 기법
- 사전 기반 품사 목록 생성
- 수작업 규칙으로 선택
- 확률 기반 기법
- 데이터 기반으로 가장 확률 높은 품사 선택
- HMM 모델 등 사용
📌 문서 분류
- 텍스트를 입력받아 특정 범주로 분류
- 로지스틱 회귀, 트리, SVM, 딥러닝 등 지도학습 사용
📌 문서 생성
- 사람이 쓴 것과 유사한 문장을 생성하는 작업
- 입력 텍스트를 기반으로 새로운 문장 생성
📌 문서 요약
- 문서의 핵심 내용을 추출하여 요약문 생성
- 긴 텍스트를 짧은 형태로 변환
📌 감성 분석
- 텍스트 속 감정과 의견 분석
- 오피니언 마이닝이라고도 불림
📌 토픽 모델링
- 문서의 숨겨진 주제를 찾는 통계적 방법
- 특정 주제 단어가 자주 등장한다는 가정
- LDA 알고리즘 대표적
📌 기계 번역
- 자연어를 다른 언어로 변환
- 문맥과 의미를 고려하여 재배열
📌 네트워크 분석
- 텍스트 관계를 노드와 링크로 표현
- 구조 및 확산 과정 분석
📌 개체명 인식
- 텍스트 내 개체명을 분류하는 기술
- 사람, 장소, 기관 등 식별
🚀 결론
텍스트 분석은 데이터를 해석하는 것을 넘어, 새로운 지식을 만들어내는 핵심 기술이다.
텍스트 분석은 데이터를 해석하는 것을 넘어, 새로운 지식을 만들어내는 핵심 기술이다.
반응형
'빅데이터' 카테고리의 다른 글
| 시각화 맵핑과 데이터 시각화의 원칙을 쉽게 이해 (1) | 2026.04.12 |
|---|---|
| 언어모델, N-gram, TF-IDF, 워드 임베딩, 벡터 공간 모델 (0) | 2026.04.05 |
| 빅데이터 수집 방법들 (내부데이터, 외부데이터, API, 소셜데이터) (0) | 2026.04.02 |
| 데이터 분석과 프로그래밍개념 (0) | 2026.03.22 |
| 데이터 과학자와 빅데이터 분석 방법론 (0) | 2026.03.22 |