공부/Python(4)
-
[BigData/AI] POSTECH 통계학 입문 강의 수료
ADsP를 취득하고 공부한 것이 아까워서 4월에 빅데이터 분석 기사 시험을 봤었다. 빅분기는 ADsP보다 식을 세워서 풀어야하는 수학 문제 같은 것들이 많이 나와서 시험 보고 나서 망했다고 생각했지만 커트가 그리 높지는 않은 덕분에 결과를 보니 결국 겨우 합격을 하긴 했다. 기출도 공개되지 않은 빅분기 시험을 어떻게 통과할 수 있었을까 생각해보니 시간날 때 틈틈히 들었던 포스텍 강좌의 도움을 많이 받은 것 같다. 정말 핵심만 잘 정리해둔 자료들! 통계학과 데이터는 업무 뿐 아니라 살아가면서 도움이 많이 되는 분야고, 적금처럼 해두고 싶은 분야인지라 아카데미 다시 신청해서 1차 때 다 못들었던 강좌도 마저 들을 예정. 나도 언젠간 데이터로 이야기할 수 있는 사람될 수 있겠지? https://pabi.sma..
2022.05.18 -
Python 코드로 구현해보는 기초 통계 3. Quartile 분위수
정규 분포를 크게 벗어난 상황에서는 분위수(Quartile)가 대푯값으로 사용된다. 분위수란 한 마디로 자료 크기 순서에 따른 위치값이라고 할 수 있는데, 백분위수(Percentiles)는 자료를 오름차순 정렬했을 때 0을 최소값, 100을 최대값으로 백분율로 나타낸 위치 값이다. import math height = [192, 122, 188, 145, 126, 165, 102, 154] def ct_percentile(height, percent): size = len(height) return sorted(height)[int(math.ceil((size*percent) /100)) -1 ] print ct_percentile(height, 70) 흔히 자료의 이상치(Outlier)를 찾기 위해서는..
2022.02.27 -
Python 코드로 구현해보는 기초 통계 2. Variation, Standard Deviation
두 집합의 평균이 같으면 각 집합이 가진 원소의 값도 같을까? 아니다. 아래와 같이 각기 다른 원소를 가진 아래의 벡터 A와 B는 mean과 median이 5로 동일하다. 이렇게 평균과 중위수는 집합을 대표할 순 있지만 이 숫자만으로 집합의 다양성을 설명할 수는 없으므로 이를 보완하기 위해 분산(variation)이라는 개념이 존재한다. 분산은 흩어진 정도, 즉 다양성의 정도를 나타내는데, 이 분산이라는 것을 파악하기 위하여 범위, 편차, 분산, 표준편차 개념이 있다.. :) 더 깊게 들어가면 공분산, 백분위수 등등..이 있지만 오늘은 일단 범위, 편차, 분산, 표준 편차를 보는 것으로. Range : 범위, 데이터 중 가장 큰 값과 가장 작은 값의 차이 (but 분산도를 표현하는데에는 한계를 가짐) D..
2022.02.21 -
Python코드로 구현해보는 기초 통계 1. arithmeric mean, median, mode
정량 자료 데이터셋은 자료가 어디에 많이 모여있는지를 설명하는 3가지의 숫자로 대표하여 표현할 수 있다. 1) 산술 평균(arithmetic mean), 2) 중앙치(median), 3)최빈치(mode) The arithmetic mean is one measure of the central tendency of a sample. * 산술 평균(arithmetic mean) 흔히 말하는 평균(ex. 기말 고사 평균 점수) = 숫자의 총합을 개수로 나눈 것. 극단치(outlier)에 의해 영향을 많이 받는다. ㄴ Outlier? 자료 분석의 적절성을 위협하는 변수값, 통상적으로 표준화된 잔차의 분석에서 개체의 변수값이 0(평균)으로부터 ±3 표준편차밖에 위치하는 사례나, 일반적인 경향에서 벗어나는 사례를..
2022.02.19