La puissance du A/B testing

Publié le 08 janvier 2021
7 minutes de lecture
incertitude Image de Jon Tyson sur Unsplash

Le A/B testing est une technique de marketing consistant à proposer différentes versions d’un objet aux consommateurs en ne modifiant qu’un seul paramètre. Cette technique permet de déterminer avec rigueur les préférences d’un public cible, et ainsi d’optimiser les paramètres d’un environnement afin de rendre l’expérience utilisateur la plus concluante possible. Les test A/B sont très simples conceptuellement, mais il existe une riche littérature théorique permettant de les interpréter et surtout de les améliorer. Les concepts de base de cette théorie sont appelés problèmes de bandits manchots. Dans cette première partie, nous expliquerons d’abord ce qu’est le A/B testing, dans quels cas il peut être utilisé et quels sont ses avantages et limitations, puis dans un second article nous aborderons la base de la théorie des problèmes de bandits manchots.

Qu’est-ce que le A/B testing et que peut-il m’apporter ?


Rien de mieux pour introduire le concept de A/B testing qu’un exemple venant du monde réel : Un restaurateur trouve son livret présentant les différents plats servis un peu daté. Cependant, il est inquiet : son nouveau menu épuré, conçu par une prestigieuse agence de communication, lui semble bien moins clair, et il craint que cela n’impacte ses ventes. Pour tester cela, il met en place une petite expérience : à chaque service, le responsable de salle va distribuer à la moitié des tables l’ancien livret, et à la moitié des tables le nouveau. Ce même responsable de salle est chargé de noter minutieusement les additions de chaque table, ainsi que la version du menu présentée à cette table. Au bout de deux mois d’expérimentation, l’équipe se réunit et calcule l’addition moyenne pour les tables, selon qu’elles avaient l’ancien livret ou le nouveau. Surprise ! On constate une différence de 7% de l’addition moyenne en faveur du nouveau fascicule. Le restaurateur peut féliciter son agence, grâce à elle son chiffre d’affaires a augmenté, contrairement à son intuition qui lui laissait penser que la nouvelle carte risquait de lui faire perdre de l’argent.
Notre restaurateur est un Monsieur Jourdain du A/B testing : il a mis en place un protocole expérimental solide afin de savoir si une innovation lui était bénéfique. Il pourra maintenant envisager d’autres expériences variées, afin d’optimiser un grand nombre d’aspects de son restaurant.


En pratique

Dans ce cas, on veut savoir si le changement de couleur du texte sur la page d’accueil d’OpenStudio modifie le temps que les visiteurs passent sur le site. On présente donc aléatoirement aux visiteurs la version bleue (contrôle) ou rouge (test). Au bout d’un certain temps d’expérimentation, on peut observer la distribution du temps passé par les visiteurs sur la page en fonction de la version. On s’aperçoit ici que les visiteurs rencontrant la version bleue passent plus de temps sur la page. C’est donc la version que nous retiendrons


Le A/B testing consiste à mettre en place deux versions d’un site web ou d’une application. Ces deux versions, A et B, seront présentées aléatoirement à l’utilisateur. Ensuite, on définit les critères de performance à évaluer, puis l’on compare les performances de ces deux versions. L’analyse statistique des indicateurs de performance permet de conclure quelle version est la plus efficace au regard de nos indicateurs de performance. Une fois la certitude que l’une des versions est la meilleure, elle sera présentée à tous les visiteurs et permettra un gain de performance non négligeable.
Historiquement, le A/B testing a été conceptualisé par le statisticien Ronald Fischer afin de comparer des expériences scientifiques. Une des premières questions qu’il s’est posé était  » Quelle est la quantité idéale d’engrais pour fertiliser un champ ? ». Il a pour cela appliqué des quantités d’engrais différentes sur des champs par ailleurs identiques. En comparant les récoltes, il a pu trouver la quantité d’engrais optimale. Cette démarche est ensuite rapidement devenue cruciale en médecine, afin de tester l’efficacité de nouveaux traitements de manière rigoureuse. D’ailleurs, les versions A/B proposées à des utilisateurs, peu importe le domaine, sont appelées dans la littérature scientifique des traitements. Aujourd’hui, le A/B testing est un outil de marketing essentiel, utilisé sur plus des trois quarts des sites web ayant plus d’un million de visites par mois. Sur un site web, il est particulièrement pratique à mettre en place, car il est relativement simple de diviser le flux des utilisateurs vers deux traitements différents.


Quels sont les sujets concernés ?

En premier lieu, l’A/B testing peut être utilisé par un site de e-commerce afin d’analyser et d’optimiser son efficacité commerciale. Dans ce cas, le e-commerçant pourra proposer des traitements différents par leur apparence (bannière sur la page, design du site, produits mis en exergue). Il est intéressant de noter que dans certains pays, il est aussi légalement possible de faire de l’A/B testing sur le prix des produits proposés (cette pratique, qui permet d’optimiser le prix des produits, présente cependant le danger de donner au potentiel acheteur un sentiment d’injustice).

Les sites proposant du contenu rédactionnel peuvent quant à eux directement tester les performances de leur contenu. Cela peut aller de la modification des titres des articles pour obtenir plus d’affichages de la page, jusqu’à la proposition d’articles différents selon le traitement. Cette approche est un premier pas vers la personnalisation de contenu, et ouvre la question de ce qu’on appelle fréquemment les bulles de filtrage (deux utilisateurs sur le même site auront une expérience radicalement différente en fonction de leur profil car le site tendra a leur proposer uniquement des contenus susceptibles de les intéresser, au risque de les conforter dans leur vision du monde uniquement.)

L’A/B testing peut aussi être utilisé dans une approche plus prospective : il consiste alors à développer des campagnes publicitaires différentes et à quantifier l’efficacité de ces campagnes. À l’issue de plusieurs A/B testing, on peut proposer des campagnes publicitaires différentes et efficaces pour chaque segment du marché.

Une efficacité redoutable


L’A/B testing n’est rien d’autre que la mise en place de la méthode scientifique pour optimiser des aspects et processus commerciaux. La méthode scientifique a permis la révolution industrielle, et son extension a des domaines précédemment moins rigoureux permet de développer une approche empirique fondée sur des données observées de manière rigoureuse plutot que sur des a priori.

Microsoft a testé pour son moteur de recherche Bing de nombreuses chartes de couleurs différentes, afin de trouver la plus performante. Un des tests menés consistait à faire varier les couleurs des différents éléments du texte affiché à l’écran. À gauche, la version traditionnelle, et à droite le traitement à l’épreuve. Cette simple expérience, dans cette configuration particulière a montré une légère préférence des utilisateurs pour la nouvelle charte de couleur. Résultat : un gain de plus de $10 millions par an pour Microsoft pour un effort quasi nul. Avec le flux de visites enregistré chaque jour, Microsoft peut faire confiance aux statistiques issues du comportement de ses utilisateurs pour améliorer son design, en plus du travail des graphistes. Harvard Business Review



Une flexibilité quasi-infinie


Chaque année, le nombre de tests statistiques pratiqué par les entreprises leader sur le web augmente drastiquement. Les pratiques de testings permettent non seulement à ces entreprises d’améliorer leur performance, mais aussi de connaitre de mieux en mieux leur marché, et de prendre ainsi des décisions exécutives. Lorsque Microsoft s’est aperçu qu’un temps de chargement plus long diminuait la conversion, ils ont pu quantifier qu’une augmentation du temps de chargement de 100ms représentait une perte de $18 millions par an. Une somme suffisante pour financer une équipe pour optimiser les temps de chargements, améliorer l’expérience utilisateur et augmenter les revenus de l’entreprise Harvard Business Review .
Sous réserve de données statisquement robustes, tous les aspects d’une interface présentée à l’utilisateur peuvent être testés, ainsi que des algorithmes des contenus, et des combinaisons de ces différents aspects. En 2009, Google a testé pas moins de 41 nuances de bleu pour ses liens hypertextes New York Times.
Non seulement cette approche peut être utilisée sur tous les utilisateurs sans a priori, mais elle peut aussi servir à cibler les besoin d’un groupe d’utilisateurs plus précisément. Il suffira d’appliquer les traitements A et B uniquement aux utilisateurs concernés, tout en proposant la version « classique » aux autres utilisateurs. Par exemple, si un directeur marketing s’interroge sur le ton à utiliser pour une publicité adressée aux zoomers, il pourra concevoir deux campagnes publicitaires, et une « classique » et une « zoomers ». Il adressera la publicité « zoomers » à 50 % des personnes dans cette classe d’âge, et la campagne « classique » aux 50 % restants ainsi qu’au reste des utilisateurs. Il pourra déduire l’efficacité de sa campagne spécifique grâce à une simple analyse statistique.


Une facilité de conception et de mise en place


Le A/B testing est devenu un outil essentiel, et non une méthodologie réservée à des structures employant des data scientists et des chercheurs en statistiques grâce à sa facilité d’implémentation et de compréhension. Dans un environnement adapté, il suffit de déterminer les paramètres à tester, pour avoir au bout de quelques temps des indicateurs statistiques fiables de l’efficacité des traitements proposés. Le prescripteur du test statistique peut se concentrer sur les questions qu’il se pose, et non la technique : Quels sont les indicateurs de performances de mon site ? Quel comportement je veux induire chez l’utilisateur ? Quels éléments de mon site suis-je prêt à remanier ?

Un besoin de robustesse statistique


La définition de la robustesse statistique d’une méthode est sa capacité à ne pas être perturbée par une petite modification Wikipedia . Dans le cas d’un site web, les visiteurs peuvent avoir des profils très différents. En les affectant aléatoirement à un traitement A ou B, on s’assure que sur le long terme, il n’y aura pas de corrélation entre le profil des utilisateurs et les résultats. En revanche, si l’échantillon est trop petit, les profils typiques des utilisateurs affectés aux traitements A et B pourront être très différents. Dans ce cas, les « résultats » du test ne seront pas significatifs, c’est-à-dire que l’on n’aura pas assez de données pour savoir si ce que l’on observe est un effet réel ou une fluctuation aléatoire. Prenons par exemple un dé non truqué. Chaque face apparait normalement avec une fréquence de 1/6. Ceci se vérifie très bien si l’on effectue un très grand nombre de tirs. En revanche, si je lance deux fois le dé, qu’il tombe les deux fois sur 6, on ne pourra pas conclure qu’il est truqué pour autant, par manque de robustesse statistique (un dé tombant 1000 fois sur 6 à la suite n’est pas forcément truqué pour autant, mais la probabilité qu’il ne le soit pas est infiniment faible). Un A/B test rigoureux implique donc un flux relativement important et une durée suffisante pour s’assurer que l’on observe bien un effet réel.


Un besoin d’interprétation


Si le A/B testing permet de répondre à des questions quantitatives, il ne permet pas de répondre à des questions causales. Ce n’est pas parce que l’on sait qu’un nuance de bleu entraine plus de clics sur un lien que l’on sait pourquoi cet effet est présent, ni pour combien de temps il sera présent. Il est alors important de se détacher de ces a priori et de se concentrer sur l’efficacité comme but en soi du A/B testing, et non une meilleure connaissance globale.

Equilibre entre exploration et exploitation

Le dernier point intéressant du A/B testing est la recherche de l’équilibre entre exploration et exploitation. En effet, si l’on répartit aléatoirement le flux de visiteurs entre deux traitements, et que l’un des deux sous-performe, on peut considérer que l’on crée un manque à gagner à chaque fois que l’on assigne un visiteur à cette branche. dans ce cas, on favorise l’exploration de nos hypothèse à l’exploitation de la meilleure solution. il existe des modèles mathématiques permettant de répartir automatiquement le flux de manière plus évoluée que 50/50, afin de maximiser en même temps la vérification de nos hypothèses et le gain total. Nous aborderons ces modèles en détail dans la deuxième partie de cet article.

Pour aller plus loin : A l’origine du A/B testing : le « multi-armed bandit »