La mise en forme de cet article est à améliorer (août 2024).
La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ».
Les points d'amélioration suivants sont les cas les plus fréquents. Le détail des points à revoir est peut-être précisé sur la page de discussion.
Source
Pour une aide détaillée, merci de consulter Aide:Wikification.
Si vous pensez que ces points ont été résolus, vous pouvez retirer ce bandeau et améliorer la mise en forme d'un autre article.
La notion de modélisation du territoire avec sa population est un outil utilisé en sociologie et en statistique, dans l'optique de mieux gérer les systèmes de mobilités[1], un système de santé[2],[3] les situations d'urgence[4], la gestion d'une épidémie[5], etc.
Pour des raisons de protections des droits individuels, la totalité des caractéristiques de la population d'un territoire et ses activités ne sont pas connues. En revanche, il est possible de modéliser cette population sous la forme d'agents munis d'attributs, avec des chaînes d'activités, et des fonctions d'utilité qui leur permettent d'interagir entre eux. Cette population est générée à partir de données sur le territoire, elle est appelée population synthétique, elle est constituée d'agents.
Par extension, cette "population synthétique" peut aussi contenir des véhicules, des bâtiments, etc.
La population synthétique générée permet de faire directement des analyses sur un territoire. Elle peut aussi être utilisée comme données d'entrée de simulation multi-agents.
Elle s'effectue en plusieurs étapes
Ces différentes étapes sont conventionnelles car la spatialisation, les activités et les fonctions d'utilités peuvent aussi être considérés comme des attributs, au sens large, des agents. C'est pourquoi la génération de la population synthétique désigne aussi bien la première étape que l'ensemble du processus.
Il existe deux grands modèles opposés l'un à l'autre, le modèle à quatre étapes, et les simulations multi-agents[6].
Dans la génération d'une population synthétique utilisée pour analyser les mobilités, l'une des méthodes consiste à enrichir les données de base de la population via le modèle à quatre étapes. Il s'oppose au modèle SMA (simulation multi-agents)[6]. Ces quatre étapes consistent à répondre aux questions les suivantes :
Dans les cas les plus usuels, des données de recensements sont disponibles sur un territoire donnée sous la forme d'un échantillons de ménages anonymisés enquêtés sur le territoire, comme les fichiers de recensement de l'Insee, et de données agrégées externes comme par exemple, le nombre de ménages du territoire. Ces données agrégées sont aussi appelées données marginales.
À partir de ces données, il faut générer une population synthétique de ménages, comprenant des individus, la plus proche possible de la population réelle. De nombreux algorithmes peuvent être mis en œuvre. Il est proposé dans l'article[8] un classement des algorithmes selon la typologie suivante.
Les algorithmes de ce type consistent à modifier les poids des ménages afin de coller aux données agrégées externes. Les algorithmes les plus connus consistent à adapter l'IPF (Iterative Proportional Fitting) (en) aux cas d'individus dans des ménages : Iterative Proportional Update, Hierarchical Iterative Proportional Fitting (HIPF), entropy maximization (ent) and Generalized Ranking (GR).
Les algorithmes, classés dans cette catégorie, ont comme entrées deux populations synthétiques générées à partir de l'échantillon. Ces populations synthétiques sont modifiés de manière itérative : deux ménages des deux populations sont échangées si ceci améliore la qualité (goodness of fit) des populations ainsi modifiées, ces échanges sont effectués jusqu'à obtenir une population dont les attributs agrégées correspondent aux données agrégées externes.
Ces algorithmes se base sur une modélisation probabiliste du problème. Une loi de probabilité conjointe compatible avec l'échantillon est exhibée selon différents algorithmes possibles : réseau bayésien, Méthode de Monte-Carlo par chaînes de Markov hiérarchique, Auto-encodeur variationnel[9]. Un tirage d'une population est alors effectué à partir de cette loi de probabilité, puis un des algorithmes de reconstruction synthétique est appliqué pour rendre cette population compatible avec les données agrégées externes.