Mot du président

le 17 octobre 2017 à 16:12
communications

Le congrès mondial de la statistique permet de discerner les axes de développement de notre domaine. J’aimerais, dans ce billet, vous soumettre quelques réflexions notées lors de ma participation à ce congrès qui a eu lieu à Marrakech en juillet dernier sous le haut patronage du roi Mohammed VI. Dans son allocution lors de la cérémonie d’ouverture, le haut-commissaire au Plan (équivalent marocain du statisticien en chef au Canada) a souligné que le Maroc a pris un important virage statistique en 2011 et qu’il compte sur la statistique officielle pour documenter sa participation et celle de ses partenaires à l’espace de libre-échange africain créé il y a quelques années.

La cérémonie d’ouverture du congrès a été l’occasion de souligner la création du Prix international de statistiques, un honneur fondé par cinq sociétés statistiques importantes : l’American Statistical Association, la Royal Statistical Society, l’Institut international de statistique, l’Institut de statistique mathématique et la Société internationale de biométrie. Il s’agit du prix le plus prestigieux en statistique, une sorte de prix Nobel de notre domaine. Le premier récipiendaire est Sir David Cox, honoré pour son article de 1972 sur les modèles à risques proportionnels (ou modèle de Cox) qui a eu un impact immense dans la recherche en santé.

Plusieurs séances et présentations du congrès ont porté sur les données massives et l’apprentissage machine. En informatique, l’apprentissage sert à prédire un résultat, par exemple, déterminer la lettre correspondant à un ensemble de pixels, noirs ou blancs, lus sur un écran. Pour ce faire, on utilise des algorithmes qui sont un peu comme des boîtes noires; le meilleur algorithme est celui qui donne les meilleures prédictions sur un ensemble d’entraînement où les résultats sont connus. La statistique fait aussi de la prédiction; la démarche est un peu différente car elle s’appuie sur des modèles et comporte des étapes de sélection de variables et de validation qui n’interviennent pas en apprentissage. Plusieurs présentations ont mis l’accent sur la complémentarité des deux approches : apprentissage machine et modélisation statistique. L’apprentissage donne habituellement des prédictions un peu meilleures qu’un modèle statistique, mais la modélisation statistique permet de comprendre le phénomène sous-jacent puisqu’il identifie les variables prédictives les plus importantes. Selon plusieurs conférenciers, il faut maintenant faire de « l’apprentissage statistique », une sorte de fusion entre apprentissage machine et modélisation statistique.

Traditionnellement, le congrès mondial donne une grande place à l’échantillonnage et à la statistique officielle. À Marrakech, on s’est interrogé sur l’utilisation des nouvelles données issues des téléphones portables, des GPS ou du « web scraping » à des fins de statistiques officielles. Ces nouvelles variables interviennent dans des modèles de régression pour les estimations standards et sont incorporées à l’estimation finale grâce à des méthodes pour les petits domaines. Plusieurs présentations ont traité de ce sujet. Ainsi, en Italie, « iHappy », le pourcentage sur un an des tweets positifs dans une province, est corrélé négativement à la proportion des dépenses d’un ménage consacrée à l’alimentation (c’est-à-dire qu’on dépense proportionnellement moins en alimentation dans les provinces où les tweets sont plus optimistes) et la relation demeure significative une fois incluses dans le modèle les variables socio-économiques standards sur la composition des ménages. De même, pour prédire le taux de chômage des jeunes dans une province, le résultat obtenu grâce à l’outil « Google trend » avec la variable offre d’emploi semble être un prédicteur utile.

Il faut finalement souligner la forte présence québécoise à ce congrès. Le président du comité du programme local était Belkacem Abdous, directeur de la statistique au Haut-Commissariat au Plan, actuellement en congé de l’Université Laval. De plus, le comité comptait de nombreux autres universitaires québécois et le programme incluait des représentants de toutes les universités québécoises. Ce fut une semaine très intéressante qui alliait activités statistiques et sorties culturelles pour s’initier à la vie et à l’histoire de Marrakech.

FacebookTwitterGoogle+LinkedIn
  • Sarah Legendre-Bilodeau

    Merci pour ces réflexions !
    La comparaison entre les modèles prédictifs statistiques et les méthodes d’apprentissage machine est intéressante.
    Dans mon équipe chez Desjardins, nous arrivons à des constats similaires. Nous observons effectivement que certaines méthodes d’apprentissage machine nous permettent d’obtenir des performances légèrement supérieures qu’avec des méthodes statistiques. En mettant beaucoup d’efforts sur le développement de modèles statistiques (transformations de variables, méthodes de sélection de variables performantes), les performances, bien qu’un peu plus faibles, se rapprochent de celles obtenues avec des méthodes d’apprentissage machine. Dans le cas de plusieurs méthodes d’apprentissage machine, il y a un important prix à payer : l’impossibilité d’interpréter le modèle. En revanche, ajuster un modèle prédictif performant avec des méthodes d’apprentissage machine est souvent beaucoup plus rapide. Ainsi, en fonction du besoin d’affaires, les deux types de modèles prédictifs ont leur place. Le plus important : la meilleure méthode sera celle qui permettra de répondre parfaitement au besoin d’affaires.