Soutenance de thèse d'Estelle MEDOUS le 14 décembre

14 Décembre 2023 Recherche

Estelle MEDOUS soutiendra publiquement ses travaux de thèse en Mathématiques JEUDI 14 DECEMBRE 2023 à 14h00 Auditorium 5.

Titre : "Méthode Généralisée de Partage des Poids et Intégration de données pour l’amélioration de la précision des estimations de trafic postal en France"

Directrices de thèse : Madame Anne RUIZ-GAZEN et Madame Camelia GOGA

Pour assister à la conférence, merci de contacter le secrétariat Laurène MOTHE

Membres du jury :

  • Mme Anne RUIZ-GAZEN - Université Toulouse Capitole, TSE, Directrice de thèse
  • Mme Camelia GOGA - Université de Franche-Comté, Co-directrice de thèse
  • M. Patrice BERTAIL - Université Paris Nanterre, Rapporteur
  • M. Yves TILLE - Université de Neuchâtel, Rapporteur
  • M. Éric GAUTIER - Université Toulouse Capitole, TSE - Examinateur
  • M. Pierre-André CORNILLON - Université de Rennes 2, Examinateur

Résumé

La Poste française a mis en place une étude par sondage pour effectuer un suivi de la distribution des objets postaux en France Métropolitaine. Le but des travaux réalisés lors de cette thèse est d'améliorer la précision des estimateurs du trafic total postal. La Poste souhaite observer des tournées de facteurs, mais ne peut pas les échantillonner directement. Elle a donc mis en place un tirage indirect et utilise une Méthode Généralisée de Partage des Poids (MGPP) double, inspirée de la MGPP simple proposée par Deville et Lavallée (2006), pour calculer les estimations du trafic postal. Dans un premier temps, nous étudions dans le cadre de La Poste l'existence d'une MGPP simple optimale, au sens que la variance des estimateurs est minimale, et la comparons aux estimateurs postaux actuels. La MGPP double, telle qu'utilisée à La Poste, est plus facile à mettre en place que la MGPP simple, mais est moins précise que la MGPP simple optimale. Nous nous penchons donc sur la question d'une MGPP double optimale dans le cas de La Poste et proposons des alternatives basées sur l'utilisation de données auxiliaires. Dans un deuxième temps, nous nous intéressons à l'Intégration Statistique de Données (ISD), qui consiste à utiliser un échantillon non-probabiliste, généralement une base de données massives, et un échantillon probabiliste pour construire des estimateurs de totaux. La littérature sur l'ISD traite majoritairement de cas où la variable d'intérêt est disponible dans la base de données massives. Les données massives de La Poste, intitulées Traitement Automatisé de l'Enveloppe (TAE), sont récoltées sur les objets triés par machine et ne contiennent pas d'information sur certaines variables d'intérêt. Des méthodologies adaptées au cas particulier de La Poste doivent donc être développées. Nous proposons une amélioration des estimateurs présentés dans Kim et Tam (2021) en utilisant une famille de prédicteurs, dits prédicteurs QR, proposée par Wright (1983), pour prédire le total des variables d'intérêt sur TAE. Nous utilisons un estimateur de Hájek pour estimer le total des variables d'intérêt sur le complémentaire de TAE. Nous étudions les propriétés théoriques des estimateurs QR et préconisons l'utilisation de l'estimateur cosmétique qui est un cas particulier d'estimateur QR. Les résultats présentés dans cette thèse sont illustrés par des études Monte-Carlo basées sur des données simulées et sur des données historiques postales, afin d'évaluer le gain de précision potentiel apporté par l'utilisation des différents estimateurs que nous proposons.