Python 코드로 구현해보는 기초 통계 3. Quartile 분위수

2022. 2. 27.공부/Python

728x90

정규 분포를 크게 벗어난 상황에서는 분위수(Quartile)가 대푯값으로 사용된다. 분위수란 한 마디로 자료 크기 순서에 따른 위치값이라고 할 수 있는데, 백분위수(Percentiles)는 자료를 오름차순 정렬했을 때 0을 최소값, 100을 최대값으로 백분율로 나타낸 위치 값이다. 

 

import math
height = [192, 122, 188, 145, 126, 165, 102, 154]

def ct_percentile(height, percent): size = len(height)
return sorted(height)[int(math.ceil((size*percent) /100)) -1 ]

print ct_percentile(height, 70)

 

흔히 자료의 이상치(Outlier)를 찾기 위해서는 4분위수(자료를 4등분)를 기준으로 삼는다. '제1사분위수 - 1.5*사분위범위'보다 작거나 '제3사분위수 + 1.5*사분위범위'보다 클 경우 이상치로 여긴다.

 

  • Q1 = 1사분위수 = 25 Percentile = Lower Quartile
  • Q2 = 2사분위수 = 50 Percentile = 중앙값(Median)
  • Q3 = 3사분위수 = 75 Percentile = Upper Quartile
  • Q4 = 4사분위수 = 100 Percentile

 

사분범위(Inter-Quartile Range) :   중심을   기준으로   양   옆  25% 범위로   데이터가   흩어진   정도, 전체 자료의 50% ( Q3 - Q1)
사분범위의 중심은 median이다.