Showing

정규 분포의 확률 밀도 함수(PDF, Probability Density Function) 본문

컴퓨터 공학, 전산학/인공지능,딥러닝

정규 분포의 확률 밀도 함수(PDF, Probability Density Function)

RabbitCode 2024. 10. 15. 14:03

정규 분포의 확률 밀도 함수(PDF, Probability Density Function)는 통계학에서 아주 중요한 개념이다. 정규 분포는 주로 우리가 일상에서 관찰하는 많은 자연현상과 데이터가 '평균 주변에 많이 몰려 있고, 극단적으로 큰 값이나 작은 값은 적다'는 패턴을 따를 때 유용하다. 예를 들어, 사람들의 키, 시험 점수, 제품의 생산 품질 등이 이런 정규 분포를 따를 수 있다.

1. 정규 분포란?

정규 분포는 통계에서 데이터가 평균을 중심으로 대칭적으로 분포하는 형태를 말한다. 이를 시각적으로 보면 종 모양의 그래프를 떠올리면 된다. 가장 흔히 발생하는 값들이 가운데 집중되어 있고, 평균에서 멀어질수록 발생 빈도가 줄어드는 형태다.

정규 분포는 두 가지 중요한 특성인 평균표준편차로 정의된다:

  • 평균(μ, mu): 데이터를 대표하는 값으로, 정규 분포에서 가장 많이 발생하는 값이다. 그래프에서 중앙에 위치한다.
  • 표준편차(σ, sigma): 데이터가 평균 주변에서 얼마나 퍼져 있는지를 나타내는 값이다. 표준편차가 클수록 데이터가 널리 퍼져 있고, 작을수록 데이터가 평균에 집중되어 있다.

2. 확률 밀도 함수(PDF)의 수식

정규 분포의 확률 밀도 함수는 다음과 같이 정의된다:

  • f(x): 주어진 값 x에서의 확률 밀도(값의 가능성)를 나타낸다. 이는 어떤 값이 얼마나 자주 발생하는지를 나타내는 값이다. 확률 밀도 함수의 값이 클수록 그 값이 더 자주 발생한다는 의미다.
  • : 평균. 정규 분포의 중심에 있는 값으로, 대부분의 데이터가 이 주변에 모인다.
  • σ: 표준편차. 데이터가 얼마나 퍼져 있는지 나타내며, 표준편차가 클수록 분포가 넓어지고, 표준편차가 작을수록 분포가 좁아진다.

  • 상수 항, 이 함수가 모든 구간에서의 확률을 더했을 때 1이 되도록 조정해주는 역할을 한다. 이는 "전체 확률의 합은 1이어야 한다"는 확률의 기본 규칙을 만족시키기 위함이다.

  • : 지수 함수 부분. 여기서 는 값 x가 평균에서 얼마나 떨어져 있는지를 나타낸다. 값이 평균에서 멀리 떨어져 있을수록, 이 값이 커지고, 지수 함수에 의해 확률 밀도가 작아진다. 반대로, 값이 평균에 가까울수록 확률 밀도가 커진다.

비유:

친구들의 키를 조사한다고 해보자. 친구들의 평균 키는 예를 들어 160cm일 수 있다. 이때 대부분의 친구들은 160cm에 가까운 키를 가질 것이고, 아주 작은 키나 아주 큰 키를 가진 친구들은 적을 것이다. 확률 밀도 함수는 이러한 경향을 수식으로 표현한 것이다.

  • 160cm에 가까운 친구가 나올 확률은 높고, 140cm나 180cm처럼 평균에서 멀어질수록 확률은 낮아진다.
  • μ는 친구들의 평균 키를 나타내고, σ는 친구들 키가 얼마나 다양한지를 나타낸다. σ가 클수록 키의 차이가 많고, σ가 작을수록 대부분 비슷한 키를 가진 친구들이다.

3. PDF 그래프의 형태

정규 분포를 그래프로 그리면 가운데가 높은 언덕 모양이 나오는데, 이것이 바로 정규 분포의 '확률 밀도 함수'다. 그래프에서 높이가 높을수록 해당 값이 나올 확률이 더 높다는 의미다.

  • 평균(μ) 위치: 그래프의 꼭대기, 즉 가장 높은 부분은 평균 μ에 위치한다. 이 값이 가장 자주 나오는 값이다.
  • 표준편차(σ): 표준편차가 클수록 그래프가 넓고 낮아진다. 즉, 데이터가 평균에서 멀리 퍼져 있을 가능성이 크다. 표준편차가 작을수록 그래프는 좁고 뾰족해지며, 데이터가 평균 주변에 몰려 있을 가능성이 크다.

4. 확률 밀도 함수의 성질

확률 밀도 함수는 확률을 나타내는 그래프지만, 특정 값에 대해 '이 값이 딱 나올 확률'을 말하는 것은 아니다. 왜냐하면, 정규 분포는 연속형 데이터에 대해 정의되기 때문이다. 대신 특정 구간에서 값이 나올 확률을 알 수 있다. 예를 들어, "150cm에서 170cm 사이의 키를 가진 사람이 나올 확률은 얼마나 될까?"라는 질문에 답할 수 있다.

확률 밀도 함수의 전체 구간을 적분하면 항상 1이 된다. 이는 전체 데이터의 확률을 모두 더했을 때 100%가 된다는 의미다. 그리고 평균을 중심으로 좌우 대칭이기 때문에, 평균보다 작은 값이 나올 확률과 큰 값이 나올 확률이 동일하다.

5. 정리

정규 분포의 확률 밀도 함수(PDF)는 데이터가 평균을 중심으로 퍼져 있는 패턴을 수식으로 나타낸 것이다. 이 함수는 평균과 표준편차라는 두 가지 중요한 값으로 결정되며, 이 두 값에 따라 그래프의 모양이 달라진다. 확률 밀도 함수는 값이 발생할 가능성을 보여주며, 정규 분포의 중요한 특징을 시각적으로 표현한다.