Sensitivity and specificity
Sensitivity는 actual condition이 positive 인 것이 prediction으로 얼마나 정확히 밝혀졌는지를 말해 준다. 실제로 positive인 사람들 전체 중에 prediction이 positive로 추정한 정도 $$\text{Sensitivity} = \frac{\text{True positives}}{ \text{True positives + False negatives}}$$
Specificity 는 실제로 negarive인 것이 prediction으로 얼마나 정확히 밝혀졌는지를 말해 준다. 실제로 negative인 사람들 전체 중에 prediction이 negative로 추정한 정도 $$\text{Specificity} = \frac{\text{True negatives}}{ \text{True negatives + False positives}}$$
요 두 개의 metrics가 confusion matrix 비교하는데 쓰인다. 만약에 prediction이 positive를 알아내는 것이 중요하다면, sensitivity가 높은 machine learning model을 선택하고, negative를 알아내는 것이 더 중요하다면 specificity가 높은 model을 선택한다.
confution matrix가 2 by 2보다 큰 경우에 어떻게 계산하는 거냐? 예를 들어서 이걸 보자!
Actual condition | ||||
---|---|---|---|---|
바쿠고 | 도도로키 | 미도리야 | ||
바쿠고 | 12 | 102 | 93 | |
Predicted condition | 도도로키 | 112 | 23 | 77 |
미도리야 | 83 | 92 | 17 |
여기서 바쿠고의 sensitivity는 $$\text{sensitivity}_{\text{바쿠고}} = \frac{12}{12+(112+83)} = 0.06$$ 바쿠고의 specificity는 $$\text{specificity}_{\text{바쿠고}} = \frac{(23+77+92+17)}{(23+77+92+17)+(102+93)} = 0.52$$ 도도로키의 sensitivity는 $$\text{sensitivity}_{\text{도도로키}} = \frac{23}{23+(102+92)} = 0.11$$ 도도로키의 specificity는 $$\text{specificity}_{\text{도도로키}} = \frac{(12+93+83+17)}{(12+93+83+17)+(112+77)} = 0.52$$ 미도리야의 sensitivity는 $$\text{sensitivity}_{\text{미도리야}} = \frac{17}{17+(93+77)}=0.09$$ 미도리야의 specificity는 $$\text{specificity}_{\text{미도리야}} = \frac{(12+102+112+23)}{(12+102+112+23)+(83+92)}=0.59$$ 이렇게 되는 거임