
A/B Test의 목적은 더 가치 있는 변수를 식별하여 최적의 시안을 선정하는 것입니다.
A/B Test의 결과가 표본 자체보다는 전체 모집단을 나타내기를 원하기 때문에 편향을 제거하는 것이
중요합니다.
대조군과 실험군의 비율의 차이가 많이 발생하면 실험군과 대조군의 차이가 실제 실험군 내에 발생하는
효과를 과소평가하게 됩니다.
그렇게 되면 테스트보다 더 큰 효과가 발생할 수 있습니다.
또는 반대로 진행하게 되면 테스트보다 더 작은 효과가 발생할 수 있게 되는 셈입니다.
그래서 테스트에 영향을 준다고 생각한 부분을 가설에 접속 했기 때문에 그 부분을 제외하고는 테스트에
영향을 줄만한 변수들을 제외 시키기 위함입니다.
<신뢰할만한 결과를 얻어내기 위한 조건> |
- A집단과 B집단이 균일하게 나누어져야 한다. |
- A집단과 B집단이 서로에게 영향을 미쳐서는 안된다. |
- 대상자가 실험 여부를 인지할 수 없어야 한다. |
- 의사결정이 가능할 정도로 충분히 많은 데이터를 확보할 수 있어야 한다. |
또한 실험군과 대조군의 샘플 수 다르면 분산이 나타나지 않아서 등분산 T test를 할 수 없고,
샘플 수가 다르거나 분산이 다를때에는 Welchs T test를 사용해야하는데
s T test 같은 경우에는 정규성 가정을 확인한 뒤
Welch
정규성 가정이 충족할 때 등분산성 가정을 확인하고 P value가 0.05미만일 때 시행하여
분산이 다를 때 시행하는 방법입니다.
결론적으로 말하면 집단의 균질성을 위해 주로 사용하고 결과 계산이 편리해진다는 이점이 있습니다.
하나의 예시를 보게 되면
A/B 테스트 결과 해석에서 자주 발생하는 12가지 함정들
[Microsoft Research] Common Metric Interpretation Pitfalls in A/B Test
medium.com
url에서의 여러 검정결과들 중 홈페이지 로드타임에 관한 검정을 살펴보면 실험군의 수가 대조군보다 더 적게 나타나면서 검정결과가 로드 시간이 8.32%로 크게 늘어난다는 말이 안되는 결과가 나타난것을 볼 수 있습니다.
감사합니다.
'Why?' 카테고리의 다른 글
왜 '데이터 모델링'에서 '정규화 |
2025.04.09 |
---|---|
왜 에러 로그를 잘 설계하고 분석해야 하는가? |
2025.03.27 |
seed |
2023.08.23 |
왜 제너레이터는 메모리 사용을 효과적으로 사용할까? |
2023.05.15 |
머신러닝과 비교했을 때, 딥러닝이 가지고 있는 장단점은? |
2023.05.15 |