📌 추천시스템 완전 정리 (개념부터 알고리즘까지)
추천시스템은 현대 IT 서비스에서 매우 중요한 기술이며, 사용자에게 맞춤형 정보를 제공하는 핵심 요소이다. 이 글에서는 추천시스템의 개념, 실제 기업 사례, 그리고 연관규칙분석과 협업필터링까지 전체 내용을 빠짐없이 정리한다.
📖 추천시스템이란?
-고객이 원하는 최적의 상품을 추천하는 소프트웨어 및 방법론으로 시스템이 자동으로 고객이 흥미를 가질만한 상품정보를 제공
-데이터를 사용하여 빠르게 증가하는 많은 옵션중에서 고객이 찾고있는것을 예측하고 옵션을 줄여주고 찾아내는데 도움을 주는 머신러닝의 한종류
🛒 추천시스템 사례
✔ 아마존의 추천시스템
- 인터넷 쇼핑의 선구자로 도서 판매를 시작으로 음반,비디오,가전제품등으로 상품을 추가하면서 사업을 확장
> 고객의 쇼핑로그를 빅데이터로 관리
- 고객 정보에서 가치를 창출하기 위해 고객의 쇼핑 로그 데이터를 분석
> 고객별로 필요할것으로 보이는 상품을 예측하여 이메일로 추천하는 마케팅적용
> 하나의 상품을 구매하면 함께 구매할만한 다른 상품을 추천
✔ 넷플릭스의 추천시스템
- 1998년 DVD-by-mail모델로 1000개 이하의 DVD로 사업을 시작하여 개인화된 DVD대여 및 추천서비스개발
> DVD-by-mail모델 : 고객이 DVD를 대여하고, 이를 고객에게 우편으로 배송하기 위해 온라인으로 주문하는 비즈니스모델
-영화 평점 데이터를 활용한 협업필터링방식의 추천서비스 Cinematch개발
> DVD대여 기록과 영화평가를 바탕으로 오래된 DVD를 임대하게 하여 수익창출
-2006년에 알고리즘 개선을 위한 공모전
> Cinematch보다 성능이 10%향상된 추천시스템을 개발한 팀에게 백만달러지급
> 참가자는 익명화된 데이터로 학습하고 넷플릭스에서는 실제 데이터셋으로 평가
✔ 유튜브의 추천시스템
-개인화된 추천시스템을 활용하여 다른 영상 플랫폼보다 빠르게성장
> 추천시스템이 추천한 영상을 시청한 시간이 전체유튜브 시청시간의 70%이상차지
> 고객의 시청기록 데이터를 활용하여 추천 시스템을 지속적으로 고도화
-후보군생성모델과 랭킹모델을 결합한 추천시스템을 구축
> 후보군생성모델: 개인의 시청기록 기반으로 수백개의 후보군을생성
> 랭킹모델 : 후보군 중에서 영상특성 , 시청기록,댓글,활동등을 고려하여 순위를 매김
📊 연관규칙분석
-대규모 데이터에서 변수 사이의 흥미로운 관계를 발견하는 규칙기반 방법
> 상품,서비스등 아이템들 간의 연관규칙을 찾는방법
-마케팅분야에서는 고객의 장바구니에 들어있는 품목간의 관계를 알아본다는 의미에서 장바구니 분석 이라고도 부름
🎯 연관규칙분석의 활용
-다양한 분야에서 상품기획,추천등에 광범위하게 활용됨
> 온오프라인 쇼핑몰 : 효율적인 매장진열, 패키지 상품의 개발, 교차판매전략의 수립, 기획상품의 결정, 상품추천등
> 백화점, 호텔: 고객들이 특정 서비스를 받은후 다음에 어떤 서비스를 원하는지 파악
> 신용카드사,은행: 기존 금융서비스내역으로 부터 대출과 같은 특정한 서비스를 받을 가능성이 높은 고객을 찾음
📌 연관규칙과 유용성
-연관규칙: If X, then Y와 같은 형식으로 표현되는 규칙 X > Y
✔ 연관규칙의 종류
유용한 규칙 : 새롭게 찾아내어 유용성이 높아 마케팅등에 직접활용이 가능한 규칙
- 목요일에 식료품가게를 찾는 고객은 아기 기저귀와 맥주를 함께 구매하는경향이있다
자명한 규칙 : 이미 알려져있거나 상식적이라서 직접활용의 가치가 낮은규칙
- 한회사의 전자제품을 구매하던 고객은 전자제품을 살때 같은 회사의 제품을 사는 경향이 있다
설명불가능한규칙 : 논리적으로 설명이 불가능한 규칙
- 새로연 건축자재점에서는 변기덮개가 많이 팔린다
📏 연관 규칙분석의 측도
-유용한 규칙이 되기 위한 필요조건
> 품목 X를 포함하는 거래중 품목 Y를 함께 구매하는 경우도 일정 수준이상
-연관규칙측도: 연관규칙의 유용성또는 선택을 위한 측도
지지도 신뢰도 향상도
✔ 지지도
supp(x) = p(x) = x가 포함된거래수 / 전체거래수
✔ 신뢰도
conf(x→y) = p(y/x) = supp(x,y) / supp(x)
✔ 향상도
lift(x→y) = conf(x→y) / supp(y)
> 향상도 > 1 : 우연보다 좋음
> 향상도 < 1 : 우연보다 나쁨
> 향상도 = 1 : 관련 없음
⚙️ Apriori 알고리즘
- k개의 품목의 경우 2^k개의 가능한 품목 집합이 존재
> k가 매우 큰 경우 모든 조합을 계산하는 것은 현실적으로 불가능
> 최소 지지도 이상인 집합만 대상으로 연산하여 계산량 감소
Apriori 알고리즘 : 데이터베이스에서 빈번하게 등장하는 항목을 찾고 점점 더 큰 집합으로 확장하는 알고리즘
🤝 협업필터링
협업필터링이란?
-여러사용자들의 선호도나 취향정보를 수집하여 사용자의 관심사를 자동으로 예측하는 방법
✔ 협업필터링 종류
- 사용자 기반 협업 필터링과 아이템 기반 협업 필터링으로 나뉨
> 사용자 기반 협업필터링
사용자의 구매 패턴을 기반으로 유사한 사용자를 찾아 추천
> 아이템 기반 협업필터링
아이템간의 유사도를 기반으로 유사한 아이템을 찾아 추천
🎯 최종 핵심 정리
✔ 연관규칙분석 = 상품 관계 분석
✔ 협업필터링 = 사용자 기반 추천
✔ Apriori = 연산 최적화 알고리즘
'빅데이터' 카테고리의 다른 글
| 빅데이터 프레임워크 하둡,스파크 (0) | 2026.05.08 |
|---|---|
| 빅데이터 분산처리와 관리구조 (0) | 2026.05.07 |
| 머신러닝 알고리즘 정리 초보용 (0) | 2026.04.15 |
| AI, 머신러닝, 딥러닝 정리 초보용 (0) | 2026.04.15 |
| 데이터 유형별 시각화 기법 정리 초보용 (2) | 2026.04.15 |