[R] 이상값 검색
2022. 2. 27.ㆍ공부/SQL, R
728x90
이상값 검색(Outlier)는 분석에서 전처리를 어떻게 할지 결정할 때와 부정사용방지 시스템에서 규칙을 발견하는 데 사용할 수 있다. 그러나 실무에서 이상값을 찾기 위해 너무 많은 시간을 쓰는 것은 추천하지 않는다. 변수들에 대해 summary 정도로 평균과 중위수 값을 파악해 제 1사분위수와 제3사분위수를 보며 1차 판단을 한다. 또한 주요변수별로 시각화를 하면서 특성을 파악한다. 단 부정사용방지 프로젝트에서는 많은 시간을 이상값 찾기에 시간을 할당해야 한다.
- 의도하지 않게 잘못 입력된 경우 -> 이상값 아님
- 의도하지 않게 입력됐으나 분석 목적에 부합되지 않아 제거해야 하는 경우 -> 이상값 아님
- ∨ 의도되지 않은 현상이지만 분석에 포함해야 하는 경우 -> 이상값
- ∨ 의도된 이상값 -> 이상값
install.packages("outliers")
library(outliers)
set.seed(1234)
y=rnorm(100)
outlier(y) # 평균과 가장 차이가 많이 나는 값 출력
outlier(y,opposite = TRUE) # 반대 방향으로 가장 차이가 많이 나는 값 출력
dim(y)<-c(20,5) # 행 20, 열 5 행렬 생성
outlier(y) # 각 열의 평균과 가장 차이가 많은 값을 각 열 별로 출력
outlier(y,opposite=TRUE) # 각 열 별로 반대 방향으로 열 평균과 가장 차이가 많은 값 출력
boxplot(y)
출처 : ADsP 이론서
'공부 > SQL, R' 카테고리의 다른 글
[JDBC] 아이디 입력 시 회원 정보 조회하기 (0) | 2022.04.04 |
---|---|
[R] R에서 CSV파일 불러오는 법 (Mac) (0) | 2022.02.20 |
20210218_SQL 기초 8 (기타 SQL 내장 함수) (0) | 2022.02.18 |
20210218_SQL 기초 8 (SQL로 객체 지향 프로그래밍도 할 수 있을까) (0) | 2022.02.18 |
20210217_SQL 기초 7 (JOIN 구문) (0) | 2022.02.17 |