Il développe l'apprentissage automatique en python avec le projet Scikit-learn, qu'il dirige à partir de 2018[3]. L'article Scikit-learn: Machine learning in Python, publié en 2011 dans The Journal of machine Learning research, a fait l'objet de plus de 66 000 citations fin 2022[5]. Cette bibliothèque open source contenant plus de 150 méthodes statistiques pour classer des objets est présente dans de nombreux projets et a un téléchargement mensuel en octobre 2024 de 80 millions [6],[7],[4].
L'une de ses grosses préoccupations est l'efficacité des méthodes d'intelligence artificielle appliquées à de grosses masses de données, par exemple pour prédire des maladies dans le domaine de la santé[8]. Il démontre statistiquement que les progrès algorithmiques sont très faibles, et que lorsque l'on applique à des quantités de données toujours plus importantes on n'obtient pas nécessairement d'améliorations. Selon lui, seules des approches interdisciplinaires peuvent améliorer les prédictions[2],[9],[4].
D'après Google, l'indice h de ses publications est 57 en 2022[10].
En 2023, il est à l'origine de la création de Probabl, une jeune pousse chargée de commercialiser les programmes d'intelligence artificielle développés par l'INRIA. L'année suivante, il propose le vocable d'« intelligence artificielle tabulaire » pour désigner l'IA appliquée aux données en tableaux[4].
Prises de positions
« Il a la réputation de dire les choses que les gens n'aiment pas entendre », souligne Arthur Mensch, le dirigeant de Mistral AI. Ainsi, en 2018, il critique le rapport Villani qui, selon lui, néglige le succès de Scikit-learn[4].
2022 : D'après Clarivate, il fait partie des 134 scientifiques français dont les publications sont le plus citées. Pour l'année 2022, il fait partie des 25 scientifiques français ayant été le plus cités, toutes disciplines confondues[11],[12].