[R] 이상값 검색

2022. 2. 27.공부/SQL, R

728x90

이상값 검색(Outlier)는 분석에서 전처리를 어떻게 할지 결정할 때와 부정사용방지 시스템에서 규칙을 발견하는 데 사용할 수 있다. 그러나 실무에서 이상값을 찾기 위해 너무 많은 시간을 쓰는 것은 추천하지 않는다. 변수들에 대해 summary 정도로 평균과 중위수 값을 파악해 제 1사분위수와 제3사분위수를 보며 1차 판단을 한다. 또한 주요변수별로 시각화를 하면서 특성을 파악한다. 단 부정사용방지 프로젝트에서는 많은 시간을 이상값 찾기에 시간을 할당해야 한다. 

 

  • 의도하지 않게 잘못 입력된 경우 -> 이상값 아님
  • 의도하지 않게 입력됐으나 분석 목적에 부합되지 않아 제거해야 하는 경우 -> 이상값 아님
  • ∨ 의도되지 않은 현상이지만 분석에 포함해야 하는 경우 -> 이상값
  • ∨ 의도된 이상값 -> 이상값

 

install.packages("outliers")
library(outliers)
set.seed(1234)
y=rnorm(100)
outlier(y) # 평균과 가장 차이가 많이 나는 값 출력
outlier(y,opposite = TRUE) # 반대 방향으로 가장 차이가 많이 나는 값 출력
dim(y)<-c(20,5) # 행 20, 열 5 행렬 생성
outlier(y) # 각 열의 평균과 가장 차이가 많은 값을 각 열 별로 출력
outlier(y,opposite=TRUE) # 각 열 별로 반대 방향으로 열 평균과 가장 차이가 많은 값 출력
boxplot(y)

 

출처 : ADsP 이론서