공부/알고리즘(3)
-
Apriori 알고리즘 (컨텐츠 기반 항목 추천 알고리즘)
연관 규칙 분석을 위한 알고리즘. 연관 규칙이란 항목들 간 '조건-결과'식으로 표현되는 유형의 패턴인데, 연관 규칙을 발견해내는 것을 연관 분석이라고 한다. apriori 알고리즘은 연관규칙의 대표적인 알고리즘으로 발생 빈도를 기반으로 각 데이터 간의 연간 관계를 밝히기 위한 방법이다. apriori를 이용한 연관규칙 탐색 시에는 0. 세분화된 품목이 필요하다. 1. 데이터의 최소 지지도를 먼저 설정해줘야 한다. apriori 알고리즘 분석 절차 1. 최소 지지도 설정 2. 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾기 3. 2에서 찾은 개별 품목만을 이용해 최소 지지도를 넘는 두 가지 품목 집합을 찾기 4. 위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 ..
2022.02.24 -
인공 신경망 Artificial Neural Network
동물의 뇌신경계를 모방하여 분류 또는 예측을 위해 만들어진 머신러닝 알고리즘이다. 신호의 강도가 기준치를 초과할 때 뉴련은 활성화되고, 신경돌기(Axon)를 통해 신호를 방출하듯이, 인공신경망에서 input은 시냅스에 해당하며 개별신호의 강도에 따라 가중(Weight)되고 활성함수(Activation function)는 인공신경망의 output을 계산한다. 많은 데이터에 대해 학습을 거쳐 원하는 결과가 나오도록(오차가 최소화되는 방향으로) Weight의 수치가 조절된다. 장점과 단점 장점 1. 변수의 수가 많거나 입,출력 변수 간에 복잡한 비선형 관계에 유용 2. 이상치 잡음에 대해서도 민감하게 반응하지 않음 3. 입력변수와 결과변수가 연속형이나 이산형인 경우 모두 처리가능 단점 1. 결과에 대한 해석이..
2022.02.24 -
의사 결정 나무 Decision Tree
분석의 목적과 자료구조에 따라서 적절한 '분리기준' + 정지규칙/가지치기를 통하여 의사결정나무를 얻는다. 모형에서 분리의 기준은 부모마디에 비해 자식마디에서 순수도(=목표변수의 특정 범주에 개체들이 포함되어 있는 정도)가 증가하는 정도를 수치화한 것이 된다. = 부모 마디에서 자식 마디로 갈수록 순수도는 증가한다. 상위의 노드로부터 하위의 노드로, 나무 구조를 형성하는 매 단계마다 분류 기준의 선택값과 분류 변수가 중요하다. 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형이다. 맨 위의 마디를 뿌리마디(Root node)라 하며, 이는 분류 또는 예측 대상이 되는 모든 자료 집단을 포함한다. 상위의 마디는 하위의 마디로 분리된다. 이때 상위 마디를 부모마디(Parent node)라고..
2022.02.24