데이터 공부/데이터 생각

데이터 분석 기초 용어 알아보기

집게사장 2023. 10. 31. 17:28

1. 산술 평균

주어진 수의 합을 수의 개수로 나눈 값. 가장 일반적인 의미로 사용되는 평균4

 

2. 중위값

주어진 값들을 순서대로 정렬했을 때, 가장 가운데에 위치한 값. 1, 2, 3, 4, 5의 숫자가 있다면, 숫자 3이 중위값이 된다. 극단적으로 높거나 낮은 아웃라이어 때문에 평균을 신뢰하기 어려울 때, 대안 방법으로 사용된다. 

 

3. 최빈값

값들 중에서 가장 빈번하게 많이 보이는 값을 뜻한다. '11557777776484643'이라는 값이 있다면, 최빈값은 가장 자주 나오는 '7' 이 된다.

 

4.상관관계

두 개의 변수가 있을 때, 하나의 변수가 움직이며 다른 변수도 함께 움직이는 관계를 말한다. 쉽게 말해서 비례 관계나, 반비례 관계에 놓여 있는 경우 상관관계에 놓여 있다고 볼 수 있다.

 

다만, 주의할 점은 그래프나 수치상으로 정리했을 때, 함께 공변하는 것처럼 보이는 관계일지라도 맹신은 금물이다. 전혀 관계가 없음에도 그렇게 보일 수 있기 때문.

출처 - pexels

예를 들어, 당신이 야구팀의 직관을 10번 갔는데, 9번을 승리했다. 이런 케이스에서 당신의 방문과 팀의 승리는 비례하는 것처럼 그래프에서 나타나겠지만, 실제로는 의미가 없는 우연의 일치인 걸 알 수 있다. 

 

반면, 투수의 구속이 올라갈 수록 실점 확률이 낮아지는 것을 볼 수 있는데. 이런 경우는 구속과 피실점율이 상관관계에 놓여있다 볼 수 있다.

 

결측치 

가진 데이터의 빈공간을 뜻한다. 즉, 데이터에 값이 없는 것을 말하는데, SQL에서는 NULL로 표현된다. 데이터 분석을 할때, 주의해야 하는 요소이다. 

 

결측치를 모두 제거하면 데이터 손실이 발생할 수 있고, 빈 공간을 임의로 처리하면 분석결과의 신뢰도가 낮아질 수 있기 때문에 신중하게 처리방법을 고민해야 한다. 

 

이상치

데이터의 일반적인 범위에서 아주 많이 벗어난 '아웃라이어(outlier)'를 뜻한다. 대표적인 사례로 마이클 조던과 이재용 회장이 전공했던 대학의 학과가, 해당 대학교에서 가장 높은 평균연봉을 기록하는 케이스가 있다. 

 

변량 

조사한 데이터라고도 볼 수 있다. 예를 들어, 새롭게 창단한 프로팀에서 선수를 구하기 위해 공개 트라이 아웃을 했다. 5명이 지원했고, 지원자들의 종합 점수를 내서 216, 300, 288, 326, 198의 점수가 나왔는데, 이 각각의 점수들을 변량이라고 할 수 있다.  

 

계급

변량을일정한 간격으로 나눈 구간을 뜻한다. 메이저리그에서는 선수를 평가할 때, 20-80 스케일을 사용하는데, 이 점수는 5점차로 나눠지며, 이를 스카우팅 리포트의 '계급' 이라 표시할 수 있다. 

ex) 클레이튼 트라웃 20-80 스케일
컨택 65 / 파워 70 / 수비 65 / 주루 60 / 어깨 80

 

도수 

계급에 속하는 변량의 개수를 뜻한다. 위에서 언급한 20-80 스케일로 10명의 선수의 컨택을 조사했는데.

42, 47점이 두 명 있었을 경우 40~50점대의 선수가 2명 있고, 이 두 명이 40~50 계급의 도수이다.

 

전체 도수에 관한 각 계급에 있는 도수의 비율을 '상대도수'라 하는데, 앞서 서술한 2명의 선수는 10명 중 2명. 즉, 1/5이기 때문에 40~50점 계급의 상대도수는 20%이다. 그리고 선수전체 자료를 계급별로 나누고 각 계급에 속하는 도수를 나타낸 표를 '도수분포표' 라고 한다.

 

분산

변량이 중심(평균)에서 얼마나 떨어져 있는지 보기 위한 통계로, 변량들이 퍼진 정도를 뜻하는 용어이다.

 

 

표준편

관찰값들이 얼마나 흩어져 있는지를 수치로 나타내는 통계량으로 관측된 변량의 스케일을 표준화하는데 사용하기 좋다.