Laboratoire de l'Intégration du Matériau au Système

Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Soutenance de thèse de Paul STEFFEN - 1er juillet 2022

Paul STEFFEN soutiendra sa thèse, le 1er juillet 2022 à 14h30 (Faculté des STAPS 12 avenue Camille Julian 33600 Pessac - Salle A) sur le sujet : "Modélisation statistique des probabilités d'évènements faisant l'objet d'un pari sportif : Théorie et applications au football, tennis et basketball".
L’établissement de cotes pour un ensemble de paris sportifs passe, entre autres, par l’établissement de probabilités d’un ensemble d’événements caractéristiques. Si l'on prend l'exemple d'un match de football, le score à la mi-temps est un événement. Le score final est aussi un événement (dépendant du score à la mi-temps). On peut également parier sur le buteur, l'équipe qui ouvre le score…
Comme le montre les études préliminaires sur le thème de l’analyse et la prédiction sportive, depuis la moitié du XXème siècle, plus les données utilisées par ce modèle seront importantes, précises et pertinentes, plus l’estimation de la probabilité d’un événement pourra être fiable. 
Avec le développement récent du volume de données, de leur accessibilité, et des moyens techniques permettant leur traitement, des données concernant les rencontres sportives passées, jusqu’alors très rarement utilisées, ont alors été collectées depuis 6 sites internet spécialisés dans la publication d’informations sur les résultats et les statistiques sportifs. Ainsi, une base de données structurée, concernant des rencontres datant de 1991 à 2018,  a été créée.
Une fois les données collectées, ces dernières ont été nettoyées, vérifiées et formatées afin d’en faire un ensemble de données utilisable. Du fait qu’elles proviennent de différentes sources, il a été nécessaire de joindre les données entre elles, à l’aide d’index en commun, construits sur la proximité syntaxique des observations.
A l’aide des avancées proposées dans le domaine de l’analyse sportive, les données brutes ont pu être transformées en features représentant plus précisément le problème sous-jacent. Ainsi, les expected goals, les box-scores ou les points Elo, qui sont des métriques spécialisées dans le domaine étudié, permettent une amélioration considérable de la performance du modèle.
Face au problème de la modélisation de la probabilité d’un événement sportif, les algorithmes de classification supervisée capables de prédire une distribution de probabilités sur un ensemble de classes, plutôt que d’afficher uniquement la classe la plus probable, pour une observation donnée, ont été utilisés.
Ainsi, on peut avoir un certain niveau de confiance sur la survenue de l’ensemble des événements sportifs, et ne pas s’intéresser uniquement à l’événement le plus probable. De plus, c’est toujours cette distribution de probabilité, qui va être utilisée pour comparer les modèles entre eux, à l’aide de métriques d’évaluation adaptées.
Dans l’objectif de minimiser une fonction de perte, représentant la performance du modèle, les features ont été sélectionnées et les hyper-paramètres du modèle ajustés, suite à une division des données en plusieurs échantillons, afin de simuler une utilisation du modèle selon laquelle les probabilités puissent être proposées avant le début de chaque rencontre.
Suite à une comparaison avec d’autres bookmakers, la qualité avérée des résultats permet à Betclic de proposer des cotes pertinentes concernant l’issue des rencontres de tennis, de basketball et de football. La déclinaison sur des événements plus fins, tel que le score exact, est également possible.
 
sports analytics data 1

Les Actualités