Cross validation

보통 100% 샘플 중에서

  1. Train (75%)
  2. Test (25%) 로 나눠서 사용한다. 근데 여기서 75%와 25%를 나눌때도 총 데이터에서 어떤 부분에서 선택할 것인지도 중요함 데이터를 블록 단위로 나누고 (여기서 예를 들어 A, B, C, D 4개로 나눴다고 하자) 4개 중에서 A를 test data로 선정하고 나머지를 training data로 놓고 machine learning algorithm을 돌린다. 그 다음에는 B를 test data로 선정하고 나머지를 training data로 놓고 다시 알고리즘 돌린다. 이런식으로 반복하는게 cross validation이라고 함
  • Four fold cross validation sample을 4개의 block을 나눈다.

  • Leave one out cross validation 각각의 sample을 하나의 block으로 취급함

  • Ten fold cross validation sample을 10개의 block으로 나눈다. practically 자주 사용됨

tuning paramter할 때도 이런 방법을 사용할수도 있다.