통계란?
데이터분야 공부를 하다보니 통계 개념복습이 필요하다고생각되어 간단하게 정리해보려고 한다.
통계는 데이터 분야에서 기본적인 개념으로써 자료를 수학적 언어로 표현한 것임
통계적 개념을 통해서 방대한 자료를 요약 하거나 예측, 가설검정, 분류를 진행할수 있음
모집단 - 우리가 조사하고자 하는 대상의 집합
전수조사 - 우리가 조사하고자 하는 대상들 모두를 조사
표본조사 - 우리가 조사하고자 하는 대상들 중 일부를 추출하여 조사
EX) 우리나라 남자키의 평균은?
모집단 : 우리나라 모든 남자
전수조사 : 우리나라 모든남자의 키를 조사
표본조사 : 우리나라 남자들 몇명 임의추출하여 키를 조사
전수조사로 실제 통계적수치를 정확하게 구할수 있지만 소모되는 시간과 비용이 상당히 비효율적이고 불가능한 경우들이 대부분
표본을 추출하여 모집단에 대한 정보를 추정함
대신 표본은 무작위로 추출되어야 함 -> 무작위로 추출이 되지않고 편향적이라면 통계의 결과에 문제가 발생됨
중심극한 정리 : 모집단의 분포가 어떻든 표본평균들은 정규분포를 나타낸다.
=> 예를들어 귤농장에서 전수조사를 해서 귤 무게의 평균을 구할수 있지만
=> 4개씩 뽑아 무게의 평균을 낸값들을 모으면 해당 평균값은 정규분포를 이룬다 => 확률적으로 모평균을 추정할 수있다
다음은 위의 중심극한정리를 파이썬을 이용해 주사위 몬테카를로 시뮬레이션
import random
def averageOf10time():
a = 0
for i in range(10):
a = a+random.randrange(1,7)
average = a/10
return average
def n_repeat(n):
A = []
for i in range(n):
A.append(averageOf4time())
return A
위의 코드는 주사위에서 10번 랜덤하게 굴린 숫자의 평균을 n번 구하여 히스토그램으로 나타내기 위한 코드이다.
점점 정규분포 꼴을 띄는 것을 확인 할 수 있다.
통계
-> 예측도구로써의 활용가능
-> 뒤에서 나오는 선형회귀분석에서 기존 데이터들(input)과 결과(output)의 관계로 새로운 input으로 output을 예측 가능