Menu Fermer

Inférence causale à l’aide de variables instrumentales

Les scientifiques des données se retrouvent souvent à répéter le mantra “Corrélation n’est pas causalité”. C’est une bonne chose de le rappeler constamment à nos parties prenantes – et à nous-mêmes – parce que les données peuvent être traîtres, et parce que l’esprit humain ne peut s’empêcher d’interpréter les preuves statistiques de manière causale. Mais il s’agit peut-être d’une caractéristique, et non d’un bug : nous recherchons instinctivement l’interprétation causale parce que c’est finalement ce dont nous avons besoin pour prendre des décisions correctes. Sans histoires causales derrière elles, les corrélations ne sont pas particulièrement utiles aux décideurs.

Mais en fin de compte, tout ce que nous pouvons lire à partir des données sont des corrélations et il est très difficile de s’assurer que l’histoire causale que nous attachons à ces corrélations est réellement vraie. Et il y a plusieurs façons de se tromper dans l’histoire causale. L’erreur la plus courante consiste à ne pas tenir compte des causes communes ou des facteurs de confusion. En utilisant l’exemple canonique, il existe une corrélation positive entre l’hospitalisation et la mort. En d’autres termes, les personnes qui sont hospitalisées sont plus susceptibles de mourir que celles qui ne le sont pas. Si nous ignorons le fait que le fait d’être malade peut entraîner à la fois l’hospitalisation et la mort, nous risquons de nous retrouver avec une histoire causale erronée : les hôpitaux tuent.

L’autre piège commun survient lorsque nous poussons trop loin les leçons tirées des facteurs de confusion et que nous tenons compte des effets communs ou des collisionneurs. L’exemple ci-dessous est adapté de la description du paradoxe de Berkson dans le Book of Why de Pearl et Mackenzie. Supposons que nous essayons de voir si les infections à COVID-19 peuvent induire le diabète. Disons qu’en réalité, il n’y a pas de lien de cause à effet mais qu’un patient diabétique est plus susceptible d’être hospitalisé s’il est infecté par le virus. Dans notre volonté de prendre en compte tous les facteurs de confusion potentiels, nous avons décidé de limiter notre étude aux personnes hospitalisées. Cela pourrait nous amener à observer une corrélation entre le COVID-19 et le diabète, même en l’absence de tout lien de causalité direct. Et si nous sommes encore moins prudents, nous pourrions raconter une histoire sur la façon dont COVID provoque le diabète.

Si nous ne considérons que la population hospitalisée, nous pourrions observer une corrélation entre le COVID-19 et le diabète même en l’absence de tout lien de causalité direct et en déduire à tort que le COVID-19 cause le diabète.

Une autre façon dont les histoires causales tournent mal est de tenir compte des médiateurs. Pour poursuivre sur le thème morbide de cet article, disons que nous étudions si le tabagisme peut effectivement causer une mort précoce. Si nous prenons en compte/ajustons/contrôlons toutes les façons (cancer du poumon, maladies cardiaques) dont le tabagisme peut conduire à la mort, alors nous pouvons trouver peu ou pas de corrélation entre le tabagisme et la mort, même si le tabagisme augmente en fait la mortalité.

“Alors, qu’est-ce qu’il y a de si difficile ?” Vous pourriez dire. “Il suffit d’ajuster pour les facteurs de confusion et de laisser de côté les collisionneurs et les médiateurs !” L’inférence causale est difficile parce que, premièrement, nous n’aurons probablement jamais de données pour tous les facteurs de confusion possibles. Ensuite, il est souvent difficile de faire la distinction entre les collatéraux, les médiateurs et les facteurs de confusion. Enfin, il arrive que la causalité aille dans les deux sens et qu’il devienne presque impossible d’isoler ces effets bidirectionnels.

Un exemple de Roblox

Alors, comment contourner ces véritables défis ? La solution la plus fiable, en particulier dans le domaine de la technologie, est l’expérimentation ou les tests A/B. Cependant, cette solution n’est pas toujours réalisable. Vous devez en avoir assez des exemples morbides, alors utilisons un exemple amusant. Sur Roblox, nos utilisateurs expriment leur identité et leur créativité à travers leur Avatar, en se parant de différents objets qu’ils peuvent acquérir dans la boutique Avatar.

Mon avatar

Comme vous pouvez l’imaginer, le maintien de la santé de cette fonctionnalité est très important pour nous. Afin de déterminer le nombre de ressources que nous investissons dans cette place de marché, nous voudrions savoir dans quelle mesure elle contribue finalement aux objectifs de notre entreprise. Plus précisément, nous voulons estimer l’impact d’Avatar Shop sur l’engagement de la communauté. Malheureusement, une expérience directe n’est pas réalisable.

Nous ne pouvons pas simplement désactiver Avatar Shop pour une partie de notre population d’utilisateurs car il s’agit d’une partie très importante de l’expérience utilisateur sur notre plateforme.
Avatar Shop est une place de marché où les utilisateurs interagissent entre eux en tant qu’acheteurs et vendeurs. Le désactiver pour un groupe d’utilisateurs a également un impact sur les utilisateurs pour lesquels il n’a pas été désactivé.

Entre-temps, l’estimation de cette relation de cause à effet à l’aide de données non expérimentales est un chemin semé d’embûches car (i) nous avons identifié plusieurs facteurs de confusion qui ne sont pas clairement ajustables ou qui ne sont pas observables, et parce que (ii) nous avons constaté que les mouvements de nos paramètres de base ont également un impact inverse sur l’engagement envers le magasin.

Pourquoi l’inférence causale est difficile.

Ce problème n’est pas rare et il existe plusieurs méthodologies statistiques qui pourraient être utiles. Par exemple, une estimation des différences dans les différences ou des effets fixes à deux voies (TWFE) permettrait de suivre un ensemble d’utilisateurs dans le temps et de voir comment leurs heures d’engagement ont changé après avoir utilisé la boutique Avatar. Une autre technique populaire est le Propensity Score Matching (PSM), qui tente de faire correspondre les utilisateurs qui utilisent Avatar Shop avec ceux qui ne l’ont pas fait en fonction de divers facteurs. Ces méthodes ont leurs propres avantages et défis, mais souffrent souvent du même défaut fatal, même lorsqu’elles sont mises en œuvre correctement : des facteurs non observés qui peuvent influencer à la fois l’engagement dans la boutique Avatar et les heures d’engagement, c’est-à-dire des facteurs de confusion. (Remarque : la méthode des différences dans les différences est censée être robuste face aux facteurs de confusion fixes, mais elle reste vulnérable face aux facteurs de confusion qui changent avec le temps).

Les variables instrumentales à la rescousse

Les variables instrumentales peuvent fournir une solution pour les facteurs de confusion non observés que les autres techniques d’inférence causale ne peuvent pas fournir. L’accent est mis ici sur “peuvent”, car le plus difficile est de trouver la variable spéciale qui satisfait aux deux principales conditions d’une estimation IV valide :

Première étape : elle doit être fortement associée à la variable d’intérêt (l’engagement dans la boutique Avatar, dans notre cas).
Exclusion : Sa seule association avec le résultat (heures d’engagement) se fait via la variable d’intérêt (engagement dans la boutique Avatar).

Si nous pouvons identifier un tel instrument, notre estimation causale à l’aide de données non expérimentales devient beaucoup plus simple : toute variation du résultat (Y) corrélée avec la variation de la variable d’intérêt (X) expliquée par l’instrument (Z) est un impact causal de X sur Y. Voir le diagramme pour un exemple simplifié de l’idée de base des variables instrumentales.

Z prédit le mouvement de l’engagement moyen dans la boutique Avatar de X1 à X2. Et, par conséquent, le nombre moyen d’heures engagées augmente de Y1 à Y2. Alors, la pente est une estimation causale de la relation X -&gt ; Y.

Le diagramme ci-dessus indique également à quel point ces deux conditions sont cruciales. Premièrement, l’instrument doit fortement prédire le mouvement de X1 à X2. Ensuite, nous partons en quelque sorte du principe que le mouvement de Y2 à Y1 est entièrement dû au mouvement de X1 à X2. Si Z a un moyen d’influencer Y autrement que par l’intermédiaire de X, alors nous attribuerons à tort tout le mouvement de Y à X.

Comme vous pouvez le constater, c’est à la deuxième condition que les estimations IV échouent le plus souvent, car il s’agit d’une affirmation assez forte dans un système complexe. Alors, quel est exactement l’instrument dans notre cas et pourquoi sommes-nous convaincus qu’il satisfait à la deuxième condition ?

Notre instrument

Il y a environ un an, nous avons effectué un test A/B pour évaluer notre nouvelle fonction “Recommandé pour vous” pour la boutique Avatar. Nous avions observé un impact considérable sur l’engagement dans la boutique Avatar. En d’autres termes, le groupe expérimental auquel appartenait un utilisateur prédisait fortement son engagement dans la boutique Avatar (première étape). Nous avons également observé l’impact sur les heures d’engagement. Et comme cette expérience a été conçue spécifiquement pour évaluer un changement dans la boutique Avatar et qu’elle n’a touché à rien d’autre sur Roblox, nous avons de fortes raisons de croire que tout changement dans les heures engagées doit être uniquement dû à des changements dans l’engagement dans la boutique (Exclusion).

L’expérience de nos recommandations est un bon instrument car elle a eu un fort impact (F-stat &gt ; 15000) sur l’engagement dans les magasins et nous n’avons aucune raison de croire qu’elle aurait pu influencer les heures d’engagement par un autre chemin.

Disposer d’un bon instrument signifie que nous pouvons estimer le lien de causalité entre l’engagement dans Avatar Shop et les heures d’engagement sans avoir à désactiver Avatar Shop pour certains de nos utilisateurs, comme un test A/B direct.

Constatations

En utilisant l’estimation IV telle que décrite ci-dessus, nous trouvons une relation causale positive et statistiquement significative entre nos deux variables. Plus précisément, une augmentation de 1 % de l’engagement dans la boutique Avatar entraîne une augmentation de 0,08 % (SE : 0,008 %, valeur p

Nous estimons que l’engagement dans la boutique Avatar a un impact beaucoup plus fort sur l’engagement communautaire pour nos utilisateurs les plus récents.

Il s’agit d’un aperçu très utile qui peut nous aider à concevoir une expérience d’accueil pour nos nouveaux utilisateurs. C’est également une bonne occasion de discuter d’une limite importante des VI : elles estiment les effets de traitement moyens locaux (LATE) plutôt que les effets de traitement moyens (ATE) comme le ferait une expérience directe. En d’autres termes, ces estimations sont spécifiques aux utilisateurs dont le comportement a été influencé par notre instrument, et ne peuvent donc pas nécessairement être généralisées à l’ensemble de la population. Et cette distinction est pertinente chaque fois que nous pensons que les effets de traitement ne sont pas homogènes, comme nous le voyons ci-dessus. Dans la pratique, il est toujours prudent de supposer que l’effet du traitement est hétérogène et donc que les estimations IV, même lorsqu’elles sont valides en interne, ne sont pas des substituts parfaits aux expériences. Mais parfois, elles peuvent être tout ce que nous pouvons faire.

Les prochaines étapes

Un antidote au problème des LATE des IV consiste en fait à trouver plus d’instruments et à estimer un tas de LATE. L’objectif est de pouvoir construire l’estimation de l’effet moyen global du traitement en combinant une série d’estimations de l’effet local. C’est précisément ce que nous prévoyons de faire ensuite et nous pouvons le faire parce que nous menons un large éventail d’expériences sur différents côtés de la boutique Avatar. Chacune d’entre elles devrait servir d’instrument valable pour nos objectifs. Comme vous pouvez l’imaginer, il y a beaucoup de problèmes analytiques intéressants et stimulants à résoudre. Et si c’est votre tasse de thé, nous aimerions que vous rejoigniez l’équipe de science des données et d’analyse de Roblox.

Dernières réflexions sur les variables instrumentales

Nous espérons que ce message d’amour et d’introduction aux variables instrumentales démontre sa puissance et suscite votre intérêt. Si cette méthode d’estimation causale a pu être surutilisée dans certains contextes, nous pensons qu’elle est criminellement sous-utilisée dans le domaine de la technologie, où ses hypothèses ont beaucoup plus de chances de se vérifier, surtout lorsque l’instrument provient d’une expérience. Autre bonne nouvelle : comme elle existe depuis les années 1920, il existe une riche littérature avec des discussions actives et animées sur sa mise en œuvre et ses interprétations correctes.

– – –

Ujwal Kharel est un scientifique de données senior chez Roblox. Il travaille sur la boutique Avatar pour s’assurer que son économie est saine et prospère.

Ni Roblox Corporation ni ce blog ne cautionnent ou ne soutiennent une entreprise ou un service. De même, aucune garantie ou promesse n’est faite concernant l’exactitude, la fiabilité ou l’exhaustivité des informations contenues dans ce blog.

©2021 Roblox Corporation. Roblox, le logo Roblox et Powering Imagination font partie de nos marques déposées et non déposées aux États-Unis et dans d’autres pays.

L’article sur l’inférence causale à l’aide de variables instrumentales est apparu en premier sur le blog Roblox.