o 베이즈 정리는 새로운 정보를 기반으로 이벤트가 발생할 확률을 계산하는 데 도움이 되는 수학 공식입니다. 이 공식을 처음 제안한 18세기 영국 통계학자 Thomas Bayes의 이름을 따서 명명되었습니다.
o 베이즈 정리는 통계, 기계 학습, 인공 지능 등의 분야에서 널리 사용되고 있으며, 의료 진단, 사기 적발, 위험 평가 등의 분야에서 수많은 응용 분야를 가지고 있습니다.
o 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있습니다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다. 데이터의 개수가 부족한 경우 아주 유용하다. 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용할 수 있습니다.
o 즉, Bayes의 정리는 새로운 증거나 정보를 기반으로 사건의 가능성에 대한 믿음을 업데이트하는 데 도움이 됩니다. 사건의 사전 확률과 해당 사건을 뒷받침하거나 반박하는 증거의 강도를 고려합니다.
o 가장 간단한 형태로, 베이즈 정리는 사건 B가 발생했을 때 사건 A가 발생할 확률은, 사건 A가 발생했을 때 사건 B가 발생할 확률에 사건 A가 발생할 확률을 곱한 것에 사건 B가 발생할 확률로 나눈 것과 같다고 말합니다.
- P(A | B) = P(B | A) x P(A) / P(B)
- P(A|B) : 사후확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
- P(A) : 사전확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
- P(B|A) : 가능도(likelihood). 사건 A가 발생한 경우 사건 B의 확률
- P(B) : 정규화 상수(normalizing constant) 또는 증거(evidence). 확률의 크기 조정
o 의학적 진단 예
- P(A | B) = P(B | A) x P(A) / P(B)
- 의학적 진단 예 :
- 환자가 질병 A 또는 질병 B를 나타낼 수 있는 일련의 증상을 나타낸다고 가정하면, 환자가 질병 A에 걸릴 사전 확률은 10%인 반면 질병 B에 걸릴 사전 확률은 90%입니다. 그리고 이때까지의 B 질병에 걸렸을때 A가 질볌일 확률은 80% 이다. 의료 검사가 수행되고 결과는 질병 A에 대해 양성입니다. 질병 A 걸릴 확률은 얼마인가?
- 여기서 P(A | B)는 양성 테스트 결과가 주어진 질병 A의 확률이고, P(B | A)는 질병 A가 주어진 양성 테스트 결과의 확률이고, P(A)는 질병 A의 사전 확률이고, P(B)는 전반적으로 긍정적인 테스트 결과의 확률입니다. 값을 연결하면 다음을 얻습니다.
- P(A | B) = 0.8 x 0.1 / (0.8 x 0.1 + 0.2 x 0.9) = 0.31
- 따라서 검사 결과가 양성이더라도 환자가 질병 A에 걸릴 확률은 31%입니다.
o 사기 탐지의 예 :
- P(F | T) = P(T | F) x P(F) / [P(T | F) x P(F) + P(T | ¬F) x P(¬F)]
- 은행이 사기 거래를 탐지하려고 한다고 가정합니다. 거래가 사기일 확률은 1%인 반면, 합법적인 거래가 사기로 표시될 확률은 5%입니다. 트랜잭션이 사기로 표시되는 경우 업데이트된 거래가 실제로 사기일 확률은 얼마입니까? 베이즈 정리를 사용하여 다음을 계산할 수 있습니다.
- P(F | T) = P(T | F) x P(F) / [P(T | F) x P(F) + P(T | ¬F) x P(¬F)]
- 여기서 P(F | T)는 거래가 신고된 경우 사기 확률이고, P(T | F)는 사기 거래가 신고될 확률이며, P(F)는 사전 사기 확률, P(T | ¬ F)는 합법적인 트랜잭션이 표시될 확률이고 P(¬F)는 합법적인 트랜잭션의 사전 확률입니다. 값을 연결하면 다음을 얻습니다.
- P(F | T) = 0.01 x 0.5 / (0.01 x 0.5 + 0.05 x 0.99) = 0.09
- 따라서 거래가 실제로 사기일 확률은 9%에 불과합니다.
o 스팸 필터링 예
- P(S | E) = P(E | S) x P(S) / [P(E | S) x P(S) + P(E | ¬S) x P(¬S)]
- 이메일 필터링 시스템이 이메일을 스팸 또는 합법적인 것으로 분류하려고 한다고 가정합니다. 이메일이 스팸일 사전 확률은 20%인 반면 합법적인 이메일이 스팸으로 잘못 분류될 확률은 5%입니다. 이메일이 스팸으로 분류된 경우 실제로 스팸일 확률은 얼마입니까? 베이즈 정리를 사용하여 다음을 계산할 수 있습니다.
- P(S | E) = P(E | S) x P(S) / [P(E | S) x P(S) + P(E | ¬S) x P(¬S)]
- 여기서 P(S | E)는 이메일이 스팸으로 분류된 경우 스팸일 확률이고, P(E | S)는 스팸 이메일이 스팸으로 분류될 확률이며, P(S)는 사전 스팸 확률, P (E | ¬S)는 합법적인 이메일이 스팸으로 분류될 확률이고 P(¬S)는 합법적인 이메일의 사전 확률입니다. 값을 연결하면 다음을 얻습니다.
- P(S | E) = 0.8 x 0.2 / (0.8 x 0.2 + 0.05 x 0.8) = 0.89
- 따라서 이메일이 실제로 스팸일 확률은 89%입니다.