Python코드로 구현해보는 기초 통계 1. arithmeric mean, median, mode
2022. 2. 19.ㆍ공부/Python
728x90
정량 자료 데이터셋은 자료가 어디에 많이 모여있는지를 설명하는 3가지의 숫자로 대표하여 표현할 수 있다. 1) 산술 평균(arithmetic mean), 2) 중앙치(median), 3)최빈치(mode)
The arithmetic mean is one measure of the central tendency of a sample.
* 산술 평균(arithmetic mean)
흔히 말하는 평균(ex. 기말 고사 평균 점수) = 숫자의 총합을 개수로 나눈 것. 극단치(outlier)에 의해 영향을 많이 받는다.
ㄴ Outlier? 자료 분석의 적절성을 위협하는 변수값, 통상적으로 표준화된 잔차의 분석에서 개체의 변수값이 0(평균)으로부터 ±3 표준편차밖에 위치하는 사례나, 일반적인 경향에서 벗어나는 사례를 지칭. 생태계 파괴자.
height = [150, 163, 145, 140, 157, 151, 140, 149]
h_mean = (150+163+145+140+157+151+140+149) / 8.0
print "The mean of the list %.2f" % h_mean
import statistics as stat
def print_value(str, name, num) :
print str % (name, num)
height = [150, 163, 145, 140, 157, 151, 140, 149]
str = "The %s of the list %.2f"
print_value(str, "mean", stat.mean(height))
import numpy
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(numpy.mean(height))
The median of a set of values can be calculated by ordering the values from lowest to highest and selecting
the middle value.
* 중앙치(median)
데이터를 크기 순으로 나열할 때의 가운데에 있는 값, 서열자료의 경우 평균을 사용할 수 없으므로 중앙치를 사용
(ex. 너 석차가 100명 중 50등)
import statistics as stat
def print_value(str, name, num) :
print str % (name, num)
height = [150, 163, 145, 140, 157, 151, 140, 149]
str = "The %s of the list %.2f"
print_value(str, "median", stat.median(height))
import numpy
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(numpy.median(height))
The most frequent number—that is, the number that occurs the highest number of times.
* 최빈치(mode)
가장 많이 나타난 값. 자료의 값이 모두 같거나 모두 다르면 최빈치는 없다.
from scipu.stats import mode
height = [150, 163, 145, 140, 157, 151, 140, 149]
print(mode(height))
'공부 > Python' 카테고리의 다른 글
[BigData/AI] POSTECH 통계학 입문 강의 수료 (0) | 2022.05.18 |
---|---|
Python 코드로 구현해보는 기초 통계 3. Quartile 분위수 (0) | 2022.02.27 |
Python 코드로 구현해보는 기초 통계 2. Variation, Standard Deviation (0) | 2022.02.21 |