Ilościowe metody ewaluacyjne

Tradycyjnie badania ilościowe wywodzą się z psychologii eksperymentalnej, gdzie osoba badana wystawiona jest na pewne doświadczenie, a badacz obserwuje i mierzy jej zachowanie. Popularyzacja metod ilościowych wiąże się z ich zorientowaniem na obiektywizację analizy użyteczności systemów interaktywnych a także z faktu, że pierwsze metodologie ewaluacyjne były głęboko zakorzenione w praktyce psychologii eksperymentalnej.

Tradycja eksperymentalna jest do dziś bardzo silna w dziedzinie HCI, jednak dla potrzeb biznesu została ona zredukowana z precyzyjnych eksperymentów laboratoryjnych do ilościowego zbierania danych takich, jak ścieżki nawigacji, czas wykonania zadania, liczba popełnionych błędów, niemożność zakończenia zadania itp. Typowym podejściem przy tego typu badaniach jest (i) zdefiniowanie mierzalnych atrybutów użyteczności, (ii) dobranie metody ewaluacyjnej pozwalającej na pomiar wybranych atrybutów, oraz (iii) określenie znaczenia pomiaru. Do najczęściej używanych metod należą:

obserwacja
metoda „shadowing"
logowanie interakcji
dzienniczki (diaries)
wywiad środowiskowy w oparciu o pytania zamknięte

Ilościowa ewaluacja użyteczności jest w wielu przypadkach wyznacznikiem sukcesu lub porażki danego systemu mierzonym w oparciu o behawioralne reakcje użytkowników. Podejście to jest szeroko propagowane przez społeczność naukową i zawodową HCI, co objawia się na przykład tym, że z około 70% artykułów naukowych publikowanych na konferencji Human Factors in Computing Systems (CHI - największej i najbardziej prestiżowej konferencji HCI) raportuje wyniki badań ilościowych jako formę ewaluacji systemu lub nawet pomysłu na system. Wynik ilościowej analizy użyteczności sprawia wrażenie bardziej obiektywnego, faktycznego i naukowego. Jednak metody ilościowe charakteryzuje jeden zasadniczy problem - nie wyjaśniają one dlaczego dana sytuacja zaistniała, czemu użytkownik zachował się w dany sposób i czy zaobserwowane błędy mają istotny wpływ na postrzeganie wartości danego systemu (np. w przypadku gier komputerowych liczba błędów może stać się wyznacznikiem poziomu stymulacyjnego danej aplikacji).

metoda shadowing

Tego typu ewaluacyjne badania ilościowe mają tendencję do wpadania w pułapkę związaną z poszukiwaniem znaczącej wartości statystycznej. W tego typu badaniach nie zawsze definiuje się założenia hipotetyczne w sposób równie rygorystyczny jak w badaniach ekseprymentalnych i często badacz a posteriori skupia się na znalezieniu znaczących wyników statystycznych, raczej niż na poszukiwaniu wzorców ludzkich zachowań. Konsekwencją takiego dążenia do „statystycznie znaczącego wyniku obiektywnego" jest skupienie się na aspektach, które nie zawsze mają istotne znaczenie dla interakcji człowieka z technologią. Na przykład, zwiększona liczba błędów może oznaczać to, że użytkownik czuje się bezpiecznie w trakcie interakcji z systemem i nie obawia się eksplorować jego możliwości. W takim przypadku liczba popełnionych błędów może stać się miarą sukcesu a nie porażki systemu. Co więcej, z powodu braku rygorystycznie zdefiniowanych podstaw teoretycznych, większość porównawczych ewaluacyjnych badań ilościowych wskazuje na wyższą wartość alternatywnego rozwiązania nad rozwiązaniem pierwotnym (czyli na wartość nowego rozwiązania nad starym). Częstym powodem takiego wyniku jest wcześniej wspomniana selektywna analiza danych skupiona na znajdowaniu wyników statystycznie istotnych, bez dalszej analizy ich znaczenia dla satysfakcji użytkownika. Choć w wielu przypadkach wynik wskazujący na sukces nowej wersji systemu może być uzasadniony, trudno jest jednak uargumentować, że ocena ilościowa jest właściwym uzasadnieniem takiego wyniku.

Metoda dienników

Argumentowanie ważności wyniku ilościowego badania ewaluacyjnego jest często wspomagane poprzez quasi jakościowe (choć w dalszym ciągu zorientowane na obiektywność) badanie satysfakcji i akceptacji przy użyciu kwestionariuszy. Często stosuje się kwestionariusze zweryfikowane naukowo, na przykład SUMI, TAM czy UTAUT. Często tworzy się też nowe kwestionariusze na potrzeby danego problemu czy danego zakresu tematycznego, np. kwestionariusz ABC został stworzony w celu pomiaru postrzegania prywatności w systemach komunikacyjnych. Jednakże, Larsen i inni pokazali, że uczestnicy badań w wielu przypadkach przetwarzają pytania kwestionariuszowe na płytkim poziomie semantycznym (shallow semantic processing). Oznacza to, że użytkownicy mają tendencję do udzielania podobnych odpowiedzi, na pytania, które są językowo podobnie sformułowane. Na przykład, pytanie: Czy ten system jest łatwy w użyciu? może uzyskać podobną odpowiedź, co pytanie: Czy sposób nawigacji jest intuicyjny?, gdyż zostaną one zinterpretowane jako semantycznie jednoznaczne. Może się tak zdarzyć zwłaszcza w przypadkach, kiedy użytkownik jest zmęczony poprzednim badaniem interakcji z systemem lub niewystarczająco zaangażowany w badanie (np. w przypadku kwestionariuszy online). Na podstawie tych obserwacji Larsen i inni kwestionują wartość naukową danych zebranych przy pomocy kwestionariuszy a także wartość samych kwestionariuszy jako narzędzia do analizy i ewaluacji interakcji między człowiekiem a komputerem.

wywiad środowiskowy

Choć ilościowe metody ewaluacyjne są istotnym elementem oceny jakości i użyteczności systemów interaktywnych, to ich wyniki przedstawiane w oderwaniu od jakościowej analizy potrzeb i zachowań użytkowników mogą okazać się niewystarczająco obiektywne w ocenie korelacji pomiędzy zachowaniem użytkowników a zachowaniem systemu, a także mogą doprowadzić do trywializacji istotnych aspektów interakcji między człowiekiem a komputerem. Aby odpowiednio zgłębić ocenę takiej interakcji istotnym jest połączenie metodologii ilościowych z metodologiami jakościowymi, które w swej naturze skupiają się na określeniu motywacji ludzkich leżących u podstaw ich działań.

= = = =

Dr Agnieszka (Matysiak) Szóstek, 2010.

Kierownik Laboratorium Interaktywnych Technologii przy Ośrodku Przetwarzania Informacji (OPI) w Warszawie oraz pracownik naukowy na Politechnice w Eindhoven (Holandia), absolwentka studiów User-System Interaction Kontakt: aga.szostek [at] opi.org.pl

= = = =

Materiały źródłowe:

Artykuły naukowe:

M.S. Ackerman.The intellectual challenge of cscw: The gap between social requirements and technical feasibility. Human-computer interaction, 15(2):179-203, 2000
H. Beyer and K. Holtzblatt. Contextual design: deﬁning customer-centered systems. Morgan Kaufmann, 1998
J. Baren, W. IJsselsteijn, N. Romero, P. Markopoulos, and B. Ruyter. Aﬀective Beneﬁts in Communication: The development and ﬁeld-testing of a new questionnaire measure. In PRESENCE 2003, page 48. Citeseer, 2003.
L. Barkhuus and J. Rode. From Mice to Men-24 years of Evaluation in CHI. ACM CHI07-Alt. CHIF. D. Davis, R. P. Bagozzi, and P. R. Warshaw. User acceptance of computer technology: A comparison of two theoretical models. Management Science, 35(8):982-1003, 1989.
F.D. Davis. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 13(3):319-340, 1989.
J. Kirakowski. The software usability measurement inventory: background and usage. Usability evaluation in industry, pages 169-178, 1996
K.R. Larsen, D. Nevo, and E. Rich. Exploring the Semantic Validity of Questionnaire Scales. In International Conference on System Sciences, page 440. Citeseer, 2008.
D.J. Mayhew. The usability engineering lifecycle: a practitioner's handbook for user interface design. Morgan Kaufmann, 1999
V. Venkatesh, M. G. Morris, G. B. Davis, and F. D. Davis. User acceptance of information technology: Toward a uniﬁed view. MIS Quarterly, 27(3):425-478, 2003.