빅데이터

언어모델, N-gram, TF-IDF, 워드 임베딩, 벡터 공간 모델

달보드레91 2026. 4. 5. 18:08

언어모델 완벽 정리 | N-gram, TF-IDF, 워드임베딩, NLP 기초

🤖 언어모델 완벽 정리 (NLP 핵심 개념 총정리)

언어모델은 "다음에 어떤 단어가 나올지 예측하는 모델"이다.

📌 언어모델이란?

주어진 단어 또는 문장의 시퀀스를 기반으로 다음 단어나 문장의 확률을 예측하는 통계 모델 또는 신경망 모델
모델의 목표는 실제로 많이 사용하는 단어열의 분포를 정확하게 근사하는 데 있음

📌 통계적 언어모델링 예시

이전 단어들이 주어졌을 때 다음 단어를 예측
주어진 양쪽 단어들로부터 가운데 비어있는 단어를 예측

👉 예: "나는 밥을 ___" → "먹는다" 확률이 높음

📌 문장이 발생할 확률

각 단어는 문맥이라는 관계로 인해 이전 단어의 영향을 받음
이렇게 모인 단어들로 하나의 문장이 완성됨

📌 조건부 확률

조건부 확률은 두 확률 간의 관계를 나타냄
조건부 확률의 연쇄 법칙 존재
문장 확률 계산에 적용 가능
문장의 확률은 각 단어가 이전 단어가 주어졌을 때 등장할 확률의 곱으로 구성됨

📌 핵심
P(문장) = P(w1) × P(w2|w1) × P(w3|w1,w2) ...

📌 다음 단어의 발생 확률 계산

학습 데이터(말뭉치) 기반 카운트로 확률 계산
가장 높은 확률을 가진 단어 선택

📌 카운트 기반 확률 계산의 가정

말뭉치는 자연어의 확률 분포를 잘 반영한다고 가정
예: "An adorable little boy" 다음에 "is" 등장 확률 계산
충분한 데이터가 없으면 정확한 모델링 어려움

데이터에 해당 문장이 없으면 확률 계산 불가 (분모 0 문제)
문장이 길수록 등장 확률 감소

👉 이것을 희소성 문제(Sparsity Problem)라고 한다.

📌 개선 방법

참고하는 이전 단어 수를 줄임

📌 N-gram 언어모델

모든 이전 단어가 아니라 일부 단어만 고려
통계 기반 언어 모델

📌 N-gram 고려사항

n이 클수록 희소 문제 증가
모델 크기 증가
perplexity가 낮을수록 성능 좋음

📌 사람이 글을 이해하는 방식

문장을 앞에서부터 순서대로 읽으며 의미 파악

📌 컴퓨터가 글을 이해하는 방식

기본적으로 사람과 동일하게 순차적 처리

📌 더 단순한 방식

단어의 통계를 이용하여 의미 파악
딥러닝 이전에 주로 사용
단순하지만 전체 내용 파악에는 유용

📌 벡터 표현

단어의 벡터 표현
문장의 벡터 표현
문서의 벡터 표현

문서의 특성은 단어
값은 단어 등장 횟수

📌 벡터 공간 모델

텍스트를 벡터로 표현하는 모델
각 차원은 하나의 단어
단어 등장 시 해당 값은 0이 아님

📌 Bag of Words

단어 순서 무시
출현 빈도만 사용

👉 간단하지만 문맥 정보를 잃는 단점 존재

📌 문서-단어 행렬 (DTM)

문서와 단어 빈도를 행렬로 표현

📌 DTM의 한계

단어 수 많으면 비효율적
대부분 값이 0 (희소 행렬)
메모리 사용량 증가
문맥 정보 반영 어려움
문서 간 의미 관계 표현 한계

📌 Zipf's 법칙

단어 빈도는 순위에 반비례
1위 단어는 2위보다 약 2배 많음
모든 자연어에서 나타나는 현상

📌 단어 가중치 기법

단순 빈도의 한계 보완
중요한 단어를 더 강조

📌 TF-IDF

단어 가중치 대표 기법
문서 내 빈도 ↑, 전체 문서 빈도 ↓ → 중요도 ↑
공통 단어는 중요도 낮춤

📌 One-hot Encoding vs 워드 임베딩

One-hot → 단순 벡터
워드 임베딩 → 의미를 담은 벡터

📌 저차원 워드 임베딩

단어를 저차원 공간에 표현
거리로 의미 유사성 표현
벡터 연산으로 의미 추론 가능

📌 고차원 워드 임베딩

대규모 차원 사용
행렬 변환 필요
모델 구조에 따라 달라짐

📌 뉴럴 네트워크 언어 모델

이전 단어로 다음 단어 예측
딥러닝 기반 모델

📌 유사성 척도

두 객체 간 유사도를 수치로 표현

📌 코사인 유사도

두 벡터 간 각도를 이용
값이 1에 가까울수록 유사

🚀 결론
언어모델은 확률 + 통계 + 벡터 표현을 기반으로 자연어를 이해하는 핵심 기술이다.

'빅데이터' 카테고리의 다른 글

데이터 유형별 시각화 기법 정리 초보용 (2)	2026.04.15
시각화 맵핑과 데이터 시각화의 원칙을 쉽게 이해 (1)	2026.04.12
텍스트 데이터 전처리, 텍스트 마이닝, 토큰화, 품사 태깅, 감성 분석까지 한 번에 정리한 완벽 가이드 (0)	2026.04.05
빅데이터 수집 방법들 (내부데이터, 외부데이터, API, 소셜데이터) (0)	2026.04.02
데이터 분석과 프로그래밍개념 (0)	2026.03.22

현재글언어모델, N-gram, TF-IDF, 워드 임베딩, 벡터 공간 모델

달보드레

안녕하세요 달보드레입니다~!

이재명, 유튜브, 이야기, 태풍상사, 대한, 한국, 끄기, 꿀팁, 사회적, 김건희, 대장동, 하는, 자동업데이트, 위한, 성공, 가이드, 요령, 사파리, 새로운, 항소,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

달보드레

언어모델, N-gram, TF-IDF, 워드 임베딩, 벡터 공간 모델

🤖 언어모델 완벽 정리 (NLP 핵심 개념 총정리)

📌 언어모델이란?

📌 통계적 언어모델링 예시

📌 문장이 발생할 확률

📌 조건부 확률

📌 다음 단어의 발생 확률 계산

📌 카운트 기반 확률 계산의 가정

📌 개선 방법

📌 N-gram 언어모델

📌 N-gram 고려사항

📌 사람이 글을 이해하는 방식

📌 컴퓨터가 글을 이해하는 방식

📌 더 단순한 방식

📌 벡터 표현

📌 벡터 공간 모델

📌 Bag of Words

📌 문서-단어 행렬 (DTM)

📌 DTM의 한계

📌 Zipf's 법칙

📌 단어 가중치 기법

📌 TF-IDF

📌 One-hot Encoding vs 워드 임베딩

📌 저차원 워드 임베딩

📌 고차원 워드 임베딩

📌 뉴럴 네트워크 언어 모델

📌 유사성 척도

📌 코사인 유사도

'빅데이터' 카테고리의 다른 글

'빅데이터'의 다른글

티스토리툴바

언어모델, N-gram, TF-IDF, 워드 임베딩, 벡터 공간 모델

🤖 언어모델 완벽 정리 (NLP 핵심 개념 총정리)

📌 언어모델이란?

📌 통계적 언어모델링 예시

📌 문장이 발생할 확률

📌 조건부 확률

📌 다음 단어의 발생 확률 계산

📌 카운트 기반 확률 계산의 가정

📌 개선 방법

📌 N-gram 언어모델

📌 N-gram 고려사항

📌 사람이 글을 이해하는 방식

📌 컴퓨터가 글을 이해하는 방식

📌 더 단순한 방식

📌 벡터 표현

📌 벡터 공간 모델

📌 Bag of Words

📌 문서-단어 행렬 (DTM)

📌 DTM의 한계

📌 Zipf's 법칙

📌 단어 가중치 기법

📌 TF-IDF

📌 One-hot Encoding vs 워드 임베딩

📌 저차원 워드 임베딩

📌 고차원 워드 임베딩

📌 뉴럴 네트워크 언어 모델

📌 유사성 척도

📌 코사인 유사도

'빅데이터' 카테고리의 다른 글

'빅데이터'의 다른글

관련글

티스토리툴바