[ 데이터 & 통계 ] 데이터 분석 기초(1) : 기본 통계 지식
모집단[ Population]
모든 데이터를 포함한 전체 집합을 의미합니다. 예를 들어, 특정 도시의 모든 주민이 모집단이 될 수 있습니다.
표본[ Sample]
모집단에서 일부를 추출한 데이터 집합입니다. 예를 들어, 특정 도시의 일부 주민을 조사한 데이터가 표본입니다.
샘플링[ Sampling]
모집단에서 표본을 뽑는 과정
표집수( Sample Size, N )
샘플링한 데이터의 개수입니다. 예를 들어, 100명의 주민을 조사했다면 표집수는 100입니다.
랜덤 샘플링[ Random Sampling]
표집 시에 어떠한 기준을 두지 않고 무작위로 추출하는 과정
분산/표준편차 구하는 목적
데이터의 각 수치들이 평균에 수렴하는지, 아니면 넓게 흩어져 있는지 그 정도를 알려고 하는 것
편차[ Deviation]
평균에서 각 데이터까지의 거리(차)
분산[ Variance]
편차를 제곱한 값들의 평균입니다. 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다.
표준편차[ Standard Deviation]
분산의 제곱근입니다. 분산과 같은 의미를 지니지만, 원 데이터와 같은 단위를 사용합니다.
분산/표준편차와 데이터와의 관계
분산 또는 표준편차가 크면 데이터는 평균에 수렴되지않고 넓게 퍼져있는 형태, 분산 또는
표준편차가 작으면 데이터는 평균에 수렴
bias(편향)
특정 기준에 의해 데이터가 한쪽으로 치우치는 현상입니다.
예를 들어, 특정 연령대만을 조사하는 경우 편향이 생길 수 있습니다.
outlier(아웃라이어)
다른 데이터에 비해 극단적으로 크거나 작은 값입니다.
예를 들어, 대부분의 키가 170~180cm인데 200cm가 넘는 사람은 아웃라이어가 됩니다.