Apriori 알고리즘 (컨텐츠 기반 항목 추천 알고리즘)

2022. 2. 24.공부/알고리즘

728x90

연관 규칙 분석을 위한 알고리즘. 연관 규칙이란 항목들 간 '조건-결과'식으로 표현되는 유형의 패턴인데, 연관 규칙을 발견해내는 것을 연관 분석이라고 한다. apriori 알고리즘은 연관규칙의 대표적인 알고리즘으로 발생 빈도를 기반으로 각 데이터 간의 연간 관계를 밝히기 위한 방법이다. apriori를 이용한 연관규칙 탐색 시에는 0. 세분화된 품목이 필요하다. 1. 데이터의 최소 지지도를 먼저 설정해줘야 한다. 

 

apriori 알고리즘 분석 절차
1. 최소 지지도 설정
2. 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾기
3. 2에서 찾은 개별 품목만을 이용해 최소 지지도를 넘는 두 가지 품목 집합을 찾기
4. 위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾기
5. 반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합(Frequent Itemsets)을 찾기

 

연관 규칙 측정 지표 (if A then B라면)

용어 description expression (math)
지지도 Support 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율  A와 B가 동시에 포함된 거래 수 / 전체 거래 수 = 지지도
신뢰도 Confidence 상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율 (A 상품을 샀을 때 B 상품을 살 조건부 확률) A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수 = 신뢰도
향상도 Lift A가 주어지지 않았을 때 B의 확률 대비, A가 주어졌을 때 B의 확률 증가 비율 A의 거래 중 상품 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율 = 향상도

A와 B 사이에 아무 상호 관계가 없으면 향상도는 1이다. 향상도가 1보다 높아질수록 A와 B의 연관성이 높다. 향상도가 1보다 크면 양의 관계, 작으면 음의 관계라고 이야기..

 

장점과 단점

 

장점    if-then으로 표현되는 연관분석의 결과 이해가 쉽다.
   강력한 비목적성 분석 기법이다.
   사용이 편리한 데이터 분석이다.
   분석 계산이 간편하다.
단점    분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가한다.
   세분화 품목이 필요하나 너무 세부화된 품목을 가지고 연관규칙을 찾으려면 의미 없는 분석 결과가 도출
   상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다.

 

 

출처 : ADsP 이론서, EduAtoZ - Programming YouTube

 

 

'공부 > 알고리즘' 카테고리의 다른 글

인공 신경망 Artificial Neural Network  (0) 2022.02.24
의사 결정 나무 Decision Tree  (0) 2022.02.24