뭔가 하고 싶은 말이 있는거야?
컨텐츠 내용을 수정할 수 있습니다
데이터 분석에서 가장 중요한 단계 중 하나는 데이터의 중심 경향을 파악하는 것입니다. 중심 경향치는 데이터 집합의 중심 위치를 나타내는 값으로, 평균, 중앙값, 최빈값이 있습니다. 이들은 데이터의 분포를 요약하고 이해하는 데 도움을 줍니다.
평균은 데이터 집합의 모든 값을 더한 후, 값의 개수로 나누어 계산합니다. 평균은 데이터의 전체적인 경향을 보여주지만, 이상치(outlier)의 영향을 크게 받는다는 단점이 있습니다.
5명의 환자 체온이 각각 36.5℃, 36.8℃, 37.0℃, 37.2℃, 40.0℃라고 가정해봅시다. 40.0℃는 이상치로 평균을 높게 만들 수 있습니다.
중앙값은 데이터를 크기 순으로 정렬했을 때 정확히 중간에 위치하는 값입니다. 데이터 개수가 짝수일 경우, 중간 두 값의 평균을 중앙값으로 합니다. 중앙값은 이상치의 영향을 덜 받기 때문에, 이상치가 있는 데이터 분석에 적합합니다.
최빈값은 데이터 집합에서 가장 자주 나타나는 값입니다. 최빈값은 범주형 데이터 분석에 유용하며, 여러 개의 최빈값을 가질 수도 있습니다. 범주형 데이터는 숫자로 표현되지 않는 데이터(예: 성별, 혈액형)를 의미합니다.
데이터의 분포와 이상치의 존재 여부에 따라 적절한 중심 경향치를 선택해야 합니다. 이상치가 없고 데이터가 정규분포를 따르는 경우 평균을 사용하는 것이 일반적입니다. 이상치가 있거나 데이터가 왜곡된 경우 중앙값을 사용하는 것이 더 적절합니다. 최빈값은 범주형 데이터나 특정 값의 빈도를 파악할 때 유용합니다.
다음 이론을 계속 학습하려면 로그인하세요.
로그인하고 계속 학습필기노트, 하이라이터, 메모는 잘 쓰고 있어?
내보내줘운영진이 검토할게요!
마이페이지에서 차단한 회원을 관리할 수 있어요.