티스토리 뷰

코세라 Interaction Design Specialization 두번째 강의 Design Principles 를 완료했다! 이름은 디자인 프린시플이지만 거의 사회과학 수업이라고 봐도 무방한 코스였다. ㅠ_ㅠ

 

마지막 주차인 3주차 수업에서는 테스트 방법론과 A/B TEST를 통한 검증법을 배우는데 많은 통계학 검증방법 중 이 수업에서는 카이제곱검정을 사용한다. 교수님이 실제 사이트를 예시로 A/B TEST를 해서 카이제곱검정하는 방법을 시연하는데 수업만으로는 이해하기가 힘들어서 따로 자료를 찾아봐야 했다. 다행히 유튜브에 귀무가설과 카이제곱검증에 대한 자료가 많아서 큰 도움을 받았다.

 


| 카이제곱검정과 귀무가설

카이제곱검정(Chi-squared test)은 정성적 가설을 정량화해서 판정하는 방법이다. 이 약을 복용했을 때 효과가 있는가? 게임중독과 게임중독예방교육 경험 횟수는 상관관계가 있는가? 와 같은 관계성을 판명할 때도 쓰인다.


카이제곱검정을 할 때는 귀무가설(Null Hypothesis)를 사용한다. 귀무가설은 무(無)로 돌아간다는 의미처럼 가설을 기각함으로서 그 반대가 참임을 증명하는 방법이다.

 

왜 가설을 버리기 위해 검정을 하는가. 그 이유에 대해서는 "참이 참임을 증명하는 것 보다 거짓이 거짓임을 증명하는게 더욱 쉽기 때문이다" 라는 설이 있다. 이 때 표현을 Reject Null Hypothesis (기각), Fail to reject Null Hypothesis (기각 실패)라고 표현한다. 그러나 일반적으로 편의상 Reject, Accept 으로도 표현한다.


귀무가설을 판별할 때는 true or false 두 개의 선택지만 존재하기 때문에 한 가지 가설이 더 필요한데 그것이 대립가설(Alternative Hypothesis)이다. 귀무가설은 H0으로 표기하고 대립가설은 H1 또는 Ha로 표기한다.

 

구체적인 예를들면 다음과 같다.

 

Q. 사이트 디자인 A안과 B안 중 어떤 디자인을 적용해야 가입자 수가 더 늘어날까?
귀무가설 : A와 B의 디자인은 가입자를 늘리는데 차이가 없다. 
대립가설 : A와 B의 디자인은 가입자 수에 영향을 준다. (A가 더 좋거나 B가 더 좋거나) 

A와 B에 방문자가 각각 100명이 방문했다.

 

귀무가설 : A 가입자 30명, B 가입자 30명으로 동등하다. (비가입자는 각각 70명으로 예상)
대립가설 : A 가입자 수와 B 가입자는 수는 같지 않다. (어느 한 쪽에서 더 많이 가입했다.)

 

귀무가설이 기각되면 대립가설이 설득력을 얻는다. 우리의 소원은 귀무가설이 틀리는 것이기 때문에 틀리길 원하는 걸 가설로 세워야 한다. 즉, 대립가설이 우리가 진짜 검증되기 원하는 가설이다. 데이터에 A 디자인 가입자 20명, B 디자인 가입자 30명이라는 결과가 나왔다면, B 디자인이 더 효과적이라는 과학적 근거를 얻을 수 있다.

 

 

| 귀무가설의 기각 기준

귀무가설을 기각할 수 있는가 기각하지 못하는가는 P값으로 판정한다. 카이제곱값을 구해서 카이제곱값에 해당하는 P값이 0.05보다 작은가 큰가를 비교한다.

 

P값 (P-value) 테이블

 

카이제곱값이 P 0.05보다 작은 범주에 속하면 귀무가설을 기각할 수 있고 P 0.05보다 큰 범주에 있으면 기각할 수 없다. 우리는 2개의 사이트를 비교하기 때문에 자유도(df : degree of freedom)는 1이 되므로 (n-1) 첫번째 줄만 보면 된다.

 

예를들어 카이제곱값이 2.28이면 P 0.05에 해당하는 3.841보다 작으므로 이 귀무가설은 Accept 된다. 즉 A, B 디자인 간 가입자 수 차이는 거의 없으니 가입자수를 늘리려면 다른 디자인을 사용해야 한다는 뜻이다.

 

 

| P값의 의미

P값은 Probability 가능성 또는 신뢰도를 말한다. P값은 0.05 이하만 유의미한 통계로 인정받는다. 0.05 이상은 볼 필요가 없지만 위의 표는 P값 테이블이 저렇게 생겼다는 것만 알고 있자.

 

그렇다면 왜 0.05 인가. P값의 범위는 0~1인데 0.05는 95%에 해당한다. ( 1 - (1 x 0.05) = 0.95 ) 여론조사 통계에서 "오차 범위 플러스 마이너스 5" 라는 표현이 항상 등장하는데 이는 P < 0.05를 풀어서 쓴 말이다. 즉, 가설이 맞을 확률이 95% 이상이라는 뜻이다. 100%는 불가능하고 90%는 찝찝하니까 95% 정도면 괜찮지 않냐며 옛날 프랑스 수학자들이 정했다고 한다. 아니 정확히는 "가설이 틀릴 확률을 5%로 한정한다"는 의미이다.

 

 

| 실험 조건은 "무작위"

신빙성 있는 실험 조건을 설계하고 그를 통해 실험 데이터를 얻어야 한다. 이 실험은 상관관계를 평가하는 것이기 때문에 연구자가 파악할 수 없고 제어할 수 없는 외부 요인을 배제해야 한다. 즉, 실험 시간대, 실험 참가자, 디자인을 보는 순서를 랜덤화하여 결과를 왜곡할 가능성이 있는 요인을 최대한 차단한다.

 

예를들어 그룹을 2개로 나누고 실험 시간을 오전, 오후로 랜덤하게 배정한다. 일반적으로 오후에는 참가자의 피로가 누적되어 있을 수 있기 때문이다. 또한 각 그룹을 A 디자인을 먼저 보는 그룹, B 디자인을 먼저 보는 그룹으로 세분화한다. 왜냐하면 먼저 본 디자인에서 얻은 학습 효과가 다음 디자인을 사용하는데 영향을 줄 수 있기 때문이다.


 

 

| 참고 영상

카이제곱 공식은 2번째 영상, 귀무가설에 연동해서 검증하는 방법은 3번째 영상을 참고하시라.

요새는 직접 계산 안하고 SPSS 프로그램을 쓴다는데 이 수업은 프로그램을 배우는 수업이 아니기 때문에 수기로 계산했다. 수기 계산법은 3번째 동영상이 잘 설명해주고 있다.

 

 

1. 기무가설이란 "기각 염원!!!!!"

 

2. 카이제곱검정 공식

 

 

 

 

3. 카이제곱검정 - 동전 던지기 (이 동전은 공정한 동전일까?)

영어 강의지만 귀무가설을 카이제곱검정에 적용하는데 가장 명료하게 설명되어 있어서 추천한다.

 

 

4. P값이란 무엇인가. 왜 P < 0.05여야만 하는가.

 

 

댓글
최근에 올라온 글
최근에 달린 댓글