티스토리 뷰

NN Group의 Quantitative vs. Qualitative Usability Testing의 번역문입니다.

 

- Design은 디자인, 설계 두 가지 단어를 혼용해 번역했습니다.
- Research는 리서치, 연구 두 가지 단어를 혼용해 번역했습니다.

- 개인 공부목적으로 번역한 글이며 이동은 금지합니다.

 

[요약]

  정성적 연구 정량적 연구
질문방식 Why? How many and how much?
목표 [구성, 요약/종합]
1. 디자인 의사결정
2. 사용성문제 인식과 해결방법 도출
[요약/종합]에 주로 쓰임
1. 실제하는 사이트 평가
2. 시간 경과에 따른 사용성 추출
3. 경쟁사 사이트와 비교
4. ROI(Return of Inverstment) 계산
사용시기 언제나
(리디자인 과정 중 또는 최종 테스트 시)
작동되는 제품이 있을 때
(디자인주기 초기든 마무리 단계든)
산출물 리서처의 인상, 해석, 사전 지식을 기반으로 한 결과 다른 연구에 활용될 수 있는 통계적으로 유의미한 결과
방법론 - 소수의 참가자
- 필요에 따라 조정할 수 있는 유연한 연구 조건
- 소리내어 말하기(Think-aloud) 기법
- 다수의 참가자
- 확실히 정의되고 철저히 통제된 연구 조건
- 소리내어 말하기 기법 거의 쓰지 않음
장점 1. 문제 원인과 해결의 실마리 발견 가능
2. 저렴한 비용, 손쉽게 테스트 가능
3. 테스트 도중에도 연구조건 변경 가능
1. 특정 실험요인에 의한 왜곡 가능성 낮음
2. 객관적 데이터로 설득력 높음
단점 1. 특정 실험요인에 의한 왜곡 가능성
2. 수치화 될 수 없어서 설득력 떨어짐
1. 문제 원인과 해결책 발견 어려움
2. 높은 비용
3. 잘 못 설계시 테스트가 무의미해짐

 


사용성 테스트의 정량적 연구와 정성적 연구 (Quant vs. Qual)

요약: 이러한 상호 보완적인 유형의 사용자 연구는 반복 설계 주기에서 중요한 역할을 한다. 정성적 연구는 설계 과정을 알려주고 정량적 연구는 프로그램 벤치마킹과 ROI 계산을 위한 기초를 제공한다.

 

By Raluca Budiu on October 1, 2017

 

출처: pixabay

Introduction

모든 사용성 테스트 연구에는 참가자가 하나 이상의 설계에 대해 할당된 과제를 수행하는 것이 포함된다. 그러나 사용성 테스트 연구에서 수집할 수 있는 두 가지 유형의 데이터가 있다.

 

-정성적(Qualitative: Qual) 데이터 : 사용하기 쉽거나 어려운 설계 특징을 식별하는 관찰 소견으로 구성.

-정량적(Quantitative: Quant) 데이터 : 작업이 수행되기 쉬운지 여부를 반영하는 하나 이상의 메트릭. (예: 작업 완료율 또는 작업 시간)

 

[정성적 리서치]

정성적 데이터는 시스템의 사용성에 대한 직접적인 평가를 제공한다. 리서처들은 참가자들이 특정 UI 요소와 씨름하는 것을 관찰하고 설계의 어떤 측면이 문제인지, 어떤 것이 잘 작동하는지 유추한다. 그들은 항상 참가자들에게 후속 질문을 할 수 있고 참가자가 경험하는 특정한 문제에 대한 통찰력을 얻기 위해 리서치 과정을 변경할 수 있다. 그런 다음, 리서처들은 자신의 UX 지식과 다른 참가자가 동일한 어려움에 직면하는 것을 관찰하며 각각의 UI 요소가 잘 설계되지 않았는지 여부를 판단할 것이다.

 

[정량적 리서치]

정량적 데이터는 설계의 사용성에 대한 간접 평가를 제공한다. 이는 주어진 과제에 대한 사용자의 수행(예: 과제 완료 시간, 성공률, 오류 수)에 기초하거나 참가자의 사용적합성 인식(예: 만족도 평가)을 반영할 수 있다. 정량적 측정기준은 숫자이기 때문에 기준점이 없으면 해석하기 어려울 수 있다. 예를 들어, 연구 참가자의 60%가 과제를 완수했다면 좋은 디자인인가 나쁜 디자인인가? 절대적으로 대답하기 어렵다. 따라서 많은 정량적 연구는 일반적으로 현장에서의 사용성을 설명하기 위해서가 아니라, 알려진 표준이나 경쟁자 또는 이전 디자인과 비교하는 것이 목적이다.

 

정량적 데이터는 기준점에 비해 우리의 디자인이 유용하지 않을 수 있다는 것을 알려줄 수 있지만, 사용자가 어떤 문제를 겪었는지에 대해서는 지적하지 않는다. 더욱 심각한 문제는, 이는 다음에 더 나은 결과를 얻기 위해 디자인에 어떤 변화를 주어야 하는지 알려주지 않는다. 참가자의 40%만이 과제를 완료했다는 결과치로는 사용자가 해당 작업에 왜 어려움을 겪었는지, 어떻게 하면 더 쉽게 작업을 수행할 수 있는지를 알 수 없다. 종종 리서처들은 인터페이스의 특정 사용성 문제를 이해하기 위해 정량적 데이터를 보완하기 위한 정량적 방법을 사용해야 한다.

 

[통계적 유의성]

정성화에 비해 정량화의 한 가지 장점은 통계적 유의성이다. 정성적 데이터는 결과 그대로를 제공하지만, 정량적 연구는 우연에서 자유롭다. 일반적으로 신뢰 구간과 통계적 유의성과 같은 수학적 도구는 데이터가 진리를 반영할 가능성이 얼마나 높은지 또는 우연의 영향인지, 즉 우리가 모집한 특정 참가자에 영향 받은 결과물인지 실행 조건에 영향을 받은 것인지 알려준다.

 

숙련된 정량적 리서처들이 우연한 사고로부터 판단이 왜곡되는 걸 보호하고 결과가 편향되는 것을 방지하기 위해 우수한 관리 기준을 배치할 것이다. 그러나 정량적 연구 결과가 실제로 객관적이고 전체 대상 모집단을 대표한다는 공식적인 보장은 없다.

 

[정량적 연구와 정성적 연구의 차이]

정성적 데이터와 정량적 데이터는 약간 다르게 세팅해야 하고 확연히 다른 분석 방법이 필요하다. 이것은 동시에 수집하기 어렵다. 따라서 정성적 연구와 정량적 연구의 구별이 필요하다. 정성적 테스트와 정량적 테스트는 반복적 설계 주기에 필수적이다. 정량적 연구는 흔하지만 정량적 연구는 리디자인 시 숫자를 이용할 수 있고 새로운 버전이 이전 버전보다 얼마나 개선되었는지 분명히 말해주는 유일한 연구이다. 이것은 연구가 얼마나 유의미했는지 도출할 때 필수적인 수단이다.

 

아래 표에는 두 유형의 연구 차이가 요약되어 있다. 이 글의 나머지 부분에서는 이러한 차이점에 대해 상세히 논한다.

(표 생략 / Quantitative vs. Qualitative Usability Testing 또는 상단표 참조)

 

 

반복 설계 주기: Qual vs. Quant

기본 사용자 중심 설계 주기는 기존 설계에 대한 평가로 시작하여 현재 시스템의 사용성 과제를 해결하기 위한 리디자인이 뒤따른다. 일단 새 버전이 완성되면 초기 버전과 비교하고 평가할 수 있다.

 

(도표생략 / Quantitative vs. Qualitative Usability Testing 참조)

 

반복 설계 주기의 첫 번째 단계와 세 번째 단계는 종합적이다. 디자인에 대한 전반적인 평가를 제공하기 위한 것이다. 이 단계에서는 디자인 평가에 정성 및 정량적 연구 방법(또는 PURE와 같은 조합)을 모두 사용할 수 있다. 그러나 전체 리디자인을 통해 실제로 비용을 얼마나 절감했고 디자인이 얼마나 개선되었는지 명시적으로 파악하고자 할 때는 정량적 연구를 사용해야 한다. 성숙한 UX를 가진 조직은 종종 그러한 정량적 사용성 추적 프로세스를 시행한다. (각 버전을 정량적으로 평가하여 이전 버전과 비교하는 과정을 벤치마킹이라고 한다.)

 

리디자인 단계 동안 사용성 연구는 디자인에 정보를 제공하고 올바른 경로로 조정하기 위한 형태적 역할을 한다. 이 단계에서 디자이너와 리서처는 서로 다른 디자인 대안 중에서 선택하고 사용 가능한 UI를 만들 수 있도록 사용자 데이터를 비교적 빠르고 저렴하게 얻을 필요가 있다. 이 단계에서는 일반적으로 정성적 연구가 가장 적합하다. 우리는 5명의 사용자로 구성된 정성적 연구가 설계 시 85%의 사용성 문제를 발견할 가능성이 높다는 것을 알고 있다. (디자인이 아직 완벽하게 되어 있지 않다고 가정할 경우), 리디자인 단계에서는 소수의 사용자가 하나의 빠른 연구를 실행하고 큰 문제를 결정하고 고친 다음, 또 다른 소수 사용자 집단으로 새 버전을 다시 테스트하는 것이 타당하다.

 

 

언제 사용할까? Qual vs Quant

정성적 연구는 디자인의 주요 문제를 식별하는데 매우 적합하다. 예를 들어, 우리는 간단히 정성적 리서치를 실행하여 사용자가 양식을 성공적으로 제출하지 못하게 하는 원인이 무엇인지 확인할 수 있다. 이 리서치를 바탕으로 양식 필드를 늘리거나, 비밀번호 요구 사항을 표시하거나, 파일 외부에 라벨을 사용할 필요가 있다고 판단할 수 있다.

 

이와는 대조적으로 대부분의 정량적 연구는 리디자인 과정을 직접 알려주기 보다는 실제 현장에서의 사용성을 평가하기 위한 목적으로 현장에서 완성된 버전으로 테스트 한다. 이는 리디자인 반복 주기 중 정량적 방법을 채택할 수 없었기 때문이 아니라, 정량적 연구를 자주 사용할 경우 디자인 프로세스 초기에 비용이 너무 많이 들기 때문이다. 정량적 연구에는 대개 많은 사용자가 참여하는데 대부분의 조직은 문구가 명확한지 버튼을 찾을 수 있는지를 조사하기 위해 많은 돈을 쓸 여유가 없다. 그러나 정량적 테스트를 통해 얻은 숫자는 사이트를 다시 디자인해야 한다고 고위 경영진을 설득할 때 매우 중요한 근거가 될 수 있다.

 

 

결과물 : Qual vs Quant

정성적 데이터는 일반적으로 디자인의 장단점을 인식(엄격한 우선순위를 정함)하는 일련의 발견으로 구성된다. 이러한 발견은 추정치로서, 작업을 용이하게 하고 사용자의 행동의 의미를 해석하는 리서처의 지식과 경험 수준에 기초한다. 서로 다른 참가자들은 동일한 테스트('평가자 이펙트'로 알려진 현상)에서 서로 다른 문제를 인식하는 경우가 많다. 또한 목표 인구 통계와 일치하는 참가자를 신중하게 모집했더라도, 그 중 일부만 포함되면 전체 사용자 집단을 대표하지 못할 가능성은 항상 있기 때문에 우리의 발견이 왜곡될 수도 있다.

 

정량적 연구는 대개 많은 수의 사용자(종종 30명 이상)를 포함하며 특정요건에 의한 왜곡을 방지하기 위해 통계적 기법을 사용한다. 산출물이 올바르게 나오면 정량적 연구는 결과의 통계적 유의성에 대한 정보를 포함할 것이다. 예를 들어, 오차범위는 연구 결과를 얼마나 신뢰할 수 있는지를 이해하는 데 도움이 될 것이다. 또는 사이트와 경쟁사 사이트 간의 작업 완료 시간의 차이가 통계적으로 유의했다면, 다른 사용자를 모집하고 연구를 다시 실행해봤을 때 평균이 약간 달라지더라도 결과는 동일한 방향을 가리킨다는 것을 알 수 있을 것이다.

 

따라서 정량적 연구를 수행하고 올바르게 분석했을 때 그 결과가 건전하다는 확신을 가질 수 있다. 즉, 운이 좋거나 운이 없는 주사위 던졌기 때문이 아니라는 것이다.

 

이러한 유형의 분석은 통계에 기초하며 일반적인 사용성 테스트 리서처가 가진 능력과는 다른 유형의 능력을 필요로 한다. 많은 기업들이 정성적 UX리서처와 정량적 UX리서처의 자격요건을 따로 두고 있는 것도 이 때문이다.

 

 

방법론: 정량적 vs. 정성적

표면적으로는 정량적 유저 테스트와 정성적 유저 테스트는 별로 차이가 없어 보인다.(즉, 둘 다 사용자가 디자인에 대한 작업을 수행한다). 두 연구 우수한 테스트 설계를 위해 모두 다음과 같은 기본 규칙을 준수해야 한다.

 

1. 외부 타당성: 참가자들은 대상 타겟을 대표하며 연구 조건은 작업이 실생활에서 어떻게 수행되는지를 반영한다. 예를 들어 사람들이 보통 스마트폰으로 사이트를 이용하기 때문에 데스크톱 시뮬레이터에서 모바일 사이트를 테스트하는 것은 바람직하지 않다.

 

2. 내부 타당성: 실험 설정은 한 가지 조건에 치우치지 않는다. 예를 들어 아침에 A디자인을 테스트하고 오후에 B디자인을 테스트할 경우 참가자가 B디자인을 사용할 때 피로도가 영향을 끼칠 수 있다.

 

그러나 정량적 연구는 통계적으로 의미 있는 결과를 얻기 위함이기 때문에 두 연구 사이에는 몇 가지 중요한 차이가 있다.

 

▷ 위에서 언급한 바와 같이 정량적 연구에는 정성적 연구보다 더 많은 사용자가 참여한다.

 

▷ 세션 설정과 참가자 배경의 차이는 측정 노이즈를 증가시키고 오차 한계를 크게 만들 수 있기 때문에 정량적 연구는 가능한 한 변동성을 최소화하는 것을 목표로 한다. 따라서 다음과 같다.

 

  • 정량적 연구의 조건은 세션에서 세션까지 엄격하게 통제되어야 한다. 즉, 모든 참가자가 가능한 한 동일한 환경에서 테스트에 참여해야 한다. 두 개의 세션을 수행하거나 세 개의 세션을 원격으로 수행할 수 없다.
  • 정량적 연구는 모든 참가자가 실행 조건과 평가 대상 사이트에 익숙해지도록 시작할 때 연습 과제를 주는 경우가 많다. 이를 통해 초보자는 인터페이스를 배울 기회를 얻게 되어 전문가와 초보자의 개인차가 해결된다.
  • think-aloud 기법(소리내어 말하기)은 정성적 연구에서는 널리 쓰이는 방법이지만 정량적 연구에서는 권장되지 않는 경우도 있다. think-aloud 기법을 정량적 연구에 유용하게 사용할 수 있는지에 대해선 의견이 분분하다. 다른 사람에 비해 말이 많은 사람이 있을 수 있기 때문에 측정 소음을 증가시킬 가능성이 있다. 그 결과 많은 정량적 리서처들은 참가자들에게 생각을 소리내어 말해달라고 요구하지 않는다.
  • 이름, 주소 또는 출생지와 같은 개인 정보는 사람마다 다르기 때문에 연구의 변동성을 증가시킬 것이다. 정성적 연구의 경우, 실제 정보를 입력할 수 있도록 하는 반면, 정량적 연구에서는 모든 사람이 동일한 조건에 있어야 하므로 똑같은 문자열을 입력해야 한다. 따라서 참가자들에게 견본 데이터 세트를 제공해야 한다. (이 제약은 때때로 라이브중인 시스템에서 백엔드의 어려움을 야기할 수 있다.)

▷ 반면 정성적 연구의 경우 세션 간에 연구 조건을 변경해도 괜찮다. 예를 들어 특정 작업이 연구에 필요한 인사이트를 도출하는데 도움이 되지 않는다는 것을 알게 되면, 다음 사용자가 테스트하기 전에 반드시 과제를 수정해야 한다. 중간에 과제를 변경하면 사용자들의 평균 측정치가 무효화되지만 정량적 연구는 숫자가 아닌 통찰력을 목표로 하므로 숫자를 망치는 자유(이것이 연구 목표는 아니기 때문에)를 취할 수 있다.

 

▷ 정량적 연구의 경우 과제에 한 개로 정의된 답이 있어야 한다. 따라서 "존 스미스의 전화번호와 주소를 찾아라"와 같은 과제가 정성적 연구에 적합할 수 있지만 성공 기준을 정하기 어렵기 때문에 정량 연구에는 좋지 않다. 참가자가 전화번호를 찾았지만 주소는 찾지 못하면 실패로 간주해야 할까?

 

▷ 모든 참가자는 과제를 읽을 때도 같은 내용을 이해해야 한다. "캘리포니아에서 드론 비행허가를 받기 위한 요건 조사"와 같은 과제는 "연구"라는 단어를 서로 다른 뜻으로 이해할 수 있다. 사람들이 어떤 종류의 정보에 관심을 가지는지 알아보려고 한다면 정성적 연구에서는 괜찮을 수 있으나 정량적 연구로는 너무 모호하다.

 

▷ 정성적 테스트와 정량적 테스트 모두 과제를 무작위하게 수행하는 것은 좋은 방법이다. 그러나 정성적 연구는 때로는 완전한 무작위성을 얻진 못할 것이다. 정량적 테스트는 랜덤화를 통해 과제가 어떤 순서로 진행되든 결과가 치우치지 않도록 보장한다.

 

 

결론

정성적 테스트와 정량적 테스트는 서로 다른 목표를 추구하는 보완적 방법이다. 정성적 테스트는 소수의 사용자(5~8명)를 포함하며 인터페이스에서 주요 사용성 직접 식별한다. 이것은 종종 디자인 과정을 알리고 올바른 방향으로 이끌기 위해 사용된다. 정량적 사용성 테스트(또는 벤치마킹)은 다수의 참가자(종종 30명 이상)에 기반한다. 정량적 테스트 결과는 정확하게 분석, 해석될 경우 작위성에 대해 높은 보호를 받는다. 정량적 연구는 작업 완료율, 작업 시간 또는 만족도 등급과 같은 지표를 통해 현장의 사용성 테스트에 대한 간접적이고 종합적 평가를 제공하며 일반적으로 디자인 반복 주기에 걸쳐 시스템의 사용성을 추적하는데 사용된다.

 

인기있는 정량적 연구 방법, 각 방법의 사용 지침 및 투자 수익률 계산 방법은 Measurement UX 및 ROI를 참조하기 바란다.

 

 

댓글
최근에 올라온 글
최근에 달린 댓글