본문 바로가기

연재자료실

읽고 따라하면서 끝내는 통계학 (3~5) : 기술 통계학의 이해

한국빅데이터교육협회에서는 일반인들도 쉽게 통계학을 이해하고

어려운 수학 수식 등을 사용하지 않고도 엑셀 등 기본 프로그램에서 통계학을 활용할 수 있도록 자료를 제공합니다.

본 자료는 출판예정자료이거나 저작권 등록이 된 자료를 요약 기술한 것이므로 상업적으로 활용할 수는 없습니다.

 

03_우리가 배울 통계학이 무엇인가요?

일반적으로 통계학은 기술(技術)통계학과 추론(推論)통계학으로 나눌 수 있답니다.

먼저 이번 시간에는 기술 통계학이 무엇인지 알아볼까요?

이 중 기술통계학은 데이터를 분석해서 사칙연산, 편차, 분도포 등을 그리는 것으로

우리가 흔히 엑셀 함수로 간단히 연산하는 작업을 생각하면 될 듯 합니다.

좀 더 깊게 세분화 해서 기술통계학 중 대푯값 분석을 알아봅시다.

 

04_대푯값 분석이란 무엇인가요?

 

우리가 가장 많이 쓰는 엑셀 통계를 생각해봅니다.

주로 데이터를 더하거나 평균을 내는 작업을 가장 많이 하죠?

그런데, 평균을 낼 때에도 무엇을 기준으로 할지 고민하기도 합니다.

예를 들어 학생들의 중간고사 점수는 말 그래도 평균값(AVERAGE)를 사용합니다.

이 평균값은 엑셀에서 AVERAGE 함수로 표시하지만, 통계학에서는 MEAN이라고 합니다.

앞으로 MEAN이라는 말이 나오면 우리가 일반적으로 쓰는 산술적인 평균을 의미해요.

이 평균이 바로 이 데이터의 대푯값이죠.

 

반면, 강남 부동산값의 평균을 낼 때는 일반적인 평균값이 잘 먹히지 않네요.

예를 들어, 강남은 집값이 비싸서 대부분 아파트가 10~20억 수준인데,

어떤 한 아파트만 200억짜리가 있다고 해 볼께요.

200억 때문에 전체 평균이 확 올라가죠?

그럴 땐 진짜 평균을 낼 수가 없어요.

이 때 200억 짜리 아파트를 극대값이라고 합니다. , 극대값은 전체에 비해 혼자 너무 튀는 값을 말하죠.

극대값이 있을 땐 평균값은 의미가 없어요. 이 때는 두 가지 방법이 있답니다.

 

1번 방법 : 극대값을 빼버리고 평균을 내기

2번 방법 : 아파트 시세의 중간값을 계산해서 중간값에서 어느 정도 가격들이 분포하는 지를 알아보기

 

이 때 2번째 방법을 많이 쓰는데, 이렇게 중간값으로 대푯값이 정하는 경우도 있어요.

, 대푯값이란, 평균 말고도 여러 값들이 있는데,

이렇게 대푯값으로 통계 연산을 하는 기술통계학을 대푯값 분석이라고 합니다.

차후에 논리분석(IF) 함수들도 활용하겠지만, 여기서는 논리 함수들도 대푯값에 포함해서 분석하도록 할께요.

 

05_변량 분석이란 무엇인가요?

 

기술통계학의 두 번째로 변량 분석이 무엇인지 알아봅시다.

이번에는 자료가 여러 개 있다고 생각해 봅시다.

제가 강남 아파트와 강북 아파트의 자료를 각각 가지고 있어요.

이 때, 강남과 강북을 비교해서 아파트 가격을 분석하려면 뭔가 기준을 세워야겠지요?

이 때, 강남 아파트, 강북 아파트를 분석을 위한 대상으로 삼고,

비교 하기 위해 땅값, 인구수, 마트이용금액 등을 조사한다고 해볼께요.

이렇게 조사해야 하는 것들을 변수 또는 변량이라고 한다면,

이 때 통계를 내는 기술통계학을 변량 분석’, ‘변수 분석이라고 합니다.

특히, 변수가 여러 개이고 변수들을 교차로 분석했을 때 다변량 분석이라는 말도 사용한답니다.

 

이제 기술통계학을 간략히 정리해 봅시다.

우리가 자주 하는 평균, 편차, 합 등으로 값을 구하고 그 기준값에 따라 통계 그래프를 그려서 분석하는 것을

기본적인 기술통계학이라고 할 때,

자료 데이터의 변수가 여러 개일 때는 변량들에서 각각 기준을 정해서 비교한 뒤 통계를 내야 합니다.

이러한 방식의 통계는 기본적으로 수학적 기본 연산에 따라 이루어지는데,

이러한 통계 연산 방식을 활용하는 통계학을 여기서는 모두 다 기술통계학이라고 할께요.

 

 

이해해주기 : 기술통계학도 공학적으로 분석하거나 복잡하게 들어가면 정의가 달라져요.

하지만, 우리가 배울 기술통계학은 직장 실무에 활용할 수 있는 수준이고 전문가가 되려는 것은 아니기 때문에

우리는 이 두 가지를 기준으로 흔히 사용하는 엑셀 함수들을 활용해서 분석해 볼 거에요.  

(논리 분석이나 회귀 분석 등의 과정들도 다 이 두가지 범주에 포함해서 설명하겠습니다.)

참고로 이 글을 읽으시는 분들의 컴퓨터에 대부분 엑셀이 깔려있을 것이라고 믿고,

엑셀로 분석하는 것을 기본으로 하겠습니다.

다른 통계 프로그램 이야기는 하지 않을 거에요.

한국빅데이터교육협회, 대학기초학습능력진단, NCS, 직업기초능력진단, 대학역량진단, 빅데이터 분석, 엑셀 과정

통계분석과정, 기업채용대행, 기업평가, OMR 제작 분석, 데이터 통계, 기초학습평가, NCS 진단, 직업기초능력평가