Servono davvero centinaia di utenti per ogni ciclo di test? Più tester = più bug, saremmo portati a pensare, ma in realtà il rapporto tra i due fattori prende la forma di una parabola discendente. In questo articolo scopriamo quanti tester servono DAVVERO per testare un prodotto digitale.
Jakob Nielsen, di Nielsen Norman Group (società americana di consulenza per la UX), sostiene che il numero perfetto per testare un prodotto digitale sia molto basso. Per semplificare il ragionamento di Nielsen, prendiamo il caso di un test con un solo utente. Con il primo tester, l'aumento della quantità di dati raccolta è enorme, visto che il punto di partenza è zero. L'arrivo di un secondo tester porterà un aumento di dati, ma molti di questi saranno stati già riportati dal tester 1. Secondo Nielsen, si può ipotizzare un calo drastico della curva a partire dal quinto tester, e a quel punto aggiungere tester potrebbe essere solo uno spreco di tempo ed energia.
"Aggiungendo più e più utenti, imparerai sempre di meno, perché continuerai a vedere le stesse cose. Non c'è realmente bisogno di continuare ad osservare le stesse cose più volte."
Secondo lo studio di Nielsen, il numero di tester perfetto per scovare tutti i problemi è 15. Ma il risultato ideale si ottiene con 3 test da 5 utenti ciascuno.
"Dopo che il primo studio fatto con 5 partecipanti ha trovato l'85% delle frizioni di usabilità, quello che dovresti fare è fermarti e fixare quei problemi".
Come sottolinea Jeff Sauro, Nielsen parla di 85% delle frizioni di usabilità perché stima che la probabilità che ha un utente di trovare un errore durante un test sia del 31%. Dopo il primo test, quindi, bisogna rivedere il prototipo, e una volta che il design è stato rivisto, è il momento di testare ancora. Questo significa che con un numero di tester (e un budget) inferiore, i benefici aumentano esponenzialmente.
"E' importante svolgere più cicli di test perché lo scopo finale dello usability engineering è quello di migliorare il design, non solo documentarne le debolezze. "
Purtroppo è inevitabile: un nuovo design porta con sé anche nuovi errori, che non si potranno scoprire se non ritestando. Nel secondo test, i tester troverebbero il rimanente 15% dei problemi non trovati nel primo test. Tuttavia, c'è un ulteriore 2% di errori che compariranno e che si potranno trovare solo con un terzo test.
"La UX migliora notevolmente con 3 studi da 3 utenti ciascuno rispetto a un singolo monster study da 15 tester."
Alcuni potrebbero chiedersi: ma se la maggior parte degli errori vengono trovati da un singolo utente, allora perché non fare un singolo test con un singolo tester?
La risposta, anzi, le risposte sono due:
Innanzitutto il tester è scelto sulla base della buyer persona o dell'utente tipo che usufruisce del prodotto digitale. Non sempre un prodotto è indirizzato a un singolo profilo di utente.
Nel testare più gruppi di utenti diversi non c'è bisogno di includere il numero più alto di utenti possibili. Secondo Nielsen, sarebbe ideale avere 3-4 utenti di ogni categoria se si testano due gruppi di utenti, 3 utenti invece se si hanno 3 o più gruppi - perché, ricordiamo, 3 è il numero minimo per accertarsi che il comportamento sia generalizzabile.
Ellie Martin sottolinea come i numeri di Nielsen non vadano presi alla lettera in ogni occasione. Il magic number, infatti, fa riferimento alla quantità di feedback. La qualità dell'esperienza che sperimentano i tester, invece, è diversa, e il numero di tester in questo caso non può derivare da una formula matematica stabilita a priori. Per spiegare cosa intende Martin, prendiamo ad esempio i colori del sito: magari alcuni tester trovano che il cambiamento del colore dalla home page al form di registrazione sia irritante. Un feedback qualitativo permetterebbe all'utente di spiegare il perché. Ad esempio, magari il blu usato nella barra di navigazione nella homepage è troppo simile al blu usato nel bottone "continua" nella schermata di registrazione.
Altre controversie sono emerse invece sul 31% stabilito da Nielsen come la percentuale di probabilità che ha un utente di trovare un errore durante un test. Anche se 31% è una frequenza rilevata da molti studi, solo siti web nuovi e nuove app sono effettivamente così vulnerabili. Prodotti già "ripuliti", o comunque già presenti sul mercato e con alcuni aggiornamenti alle spalle hanno probabilmente una frequenza di errore molto più bassa, che potrebbe toccare solo il 5% dei potenziali utenti finali. Questo cambia i numeri sui quali ci siamo basati finora.
E' impossibile sapere quale sia la probabilità di scoprire ogni potenziale problema. Una strategia, secondo MeasuringU, è quella di considerare la probabilità dell'occorrenza di un problema e la potenzialità di scoperta. Se poniamo che il primo dato sia 20% e il secondo 85%, in questo caso serviranno 9 tester. Dopo il lavoro di 9 tester saranno emersi la maggior parte dei problemi che potenzialmente avrebbero riscontrato il 20% o più degli utenti reali. Per aumentare la probabilità di scoperta, poniamo al 95%, il numero di tester sale a 13, sempre posto che la probabilità di scoperta sia del 20%.
Il livello di definizione del sito, la dimensione dello user base, la probabilità di riscontrare un problema, sono tutti fattori che possono cambiare drasticamente quello che Nielsen aveva definito il "magic number" dei tester per uno usability testing.
Conoscere il numero corretto di tester non è semplice. L'ideale? Rivolgersi ad aziende specializzate nel crowdtesting con esperienza nella selezione dei tester e nella gestione delle campagne. In UNGUESS, la prima piattaforma pure player di Crowdtesting italiana, per assicurare la massima qualità del servizio il team è strutturato su 4 elementi cardine: Customer Success Manager (Project Manager) dedicati, un network di Experience Designer, la piattaforma tecnologica proprietaria e la community di tester sparsa in tutto il mondo.
Fonti: Prototypr.io, Invisionapp.com, MeasuringU