Python코드로 구현해보는 기초 통계 1. arithmeric mean, median, mode

2022. 2. 19.공부/Python

728x90

정량 자료 데이터셋은 자료가 어디에 많이 모여있는지를 설명하는 3가지의 숫자로 대표하여 표현할 수 있다. 1) 산술 평균(arithmetic mean), 2) 중앙치(median), 3)최빈치(mode)

 

The arithmetic mean is one measure of the central tendency of a sample.

 

* 산술 평균(arithmetic mean)

흔히 말하는 평균(ex. 기말 고사 평균 점수) = 숫자의 총합을 개수로 나눈 것. 극단치(outlier)에 의해 영향을 많이 받는다. 

ㄴ Outlier? 자료 분석의 적절성을 위협하는 변수값, 통상적으로 표준화된 잔차의 분석에서 개체의 변수값이 0(평균)으로부터 ±3 표준편차밖에 위치하는 사례나, 일반적인 경향에서 벗어나는 사례를 지칭. 생태계 파괴자.

 

height = [150, 163, 145, 140, 157, 151, 140, 149]
h_mean = (150+163+145+140+157+151+140+149) / 8.0
print "The mean of the list %.2f" % h_mean

 

import statistics as stat

def print_value(str, name, num) :
    print str % (name, num)
    
height = [150, 163, 145, 140, 157, 151, 140, 149]

str = "The %s of the list %.2f"
print_value(str, "mean", stat.mean(height))

 

import numpy
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(numpy.mean(height))

 

 


The median of a set of values can be calculated by ordering the values from lowest to highest and selecting
the middle value.

 

* 중앙치(median)

데이터를 크기 순으로 나열할 때의 가운데에 있는 값, 서열자료의 경우 평균을 사용할 없으므로 중앙치를 사용

(ex. 석차가 100 50)

 

import statistics as stat

def print_value(str, name, num) :
    print str % (name, num)
    
height = [150, 163, 145, 140, 157, 151, 140, 149]

str = "The %s of the list %.2f"
print_value(str, "median", stat.median(height))

 

import numpy
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(numpy.median(height))

 


The most frequent number—that is, the number that occurs the highest number of times.

 

* 최빈치(mode)

가장 많이 나타난 값. 자료의 값이 모두 같거나 모두 다르면 최빈치는 없다.

 

from scipu.stats import mode
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(mode(height))