Thèse Cifre TRIMANE
Modèle générique de métadonnées centré qualité pour les Data Lake : Application aux données de santé.
Cette thèse se situe dans le domaine de la gestion et l’analyse des données massives supportées par des Data Lakes (lacs de données) avec des applications aux données de santé.
Au cours de la dernière décennie, le concept de lac de données a émergé comme une alternative aux entrepôts de données pour le stockage et l’analyse des données massives. Le lac de données propose un stockage des données sans schéma prédéfini.
Dans ce contexte, l’objectif de ce travail de thèse vise à apporter des solutions scientifiques aux problématiques de la détection d’entités ou de valeurs sémantiquement équivalentes dans les Data Lakes et notamment il s’agit de caractériser des possibles homograph (des valeurs similaires avec différentes sémantiques).
Ces problématiques sont cruciales pour d’une part permettre un stockage et un requêtage consistants sur des données massives (multi-sources et multi-format), et pour d’autre part exploiter efficacement ces données lors des analyses.
Doctorante : Lamisse Fatiha BOUABDELLI
Chercheur impliqué : Slimane HAMMOUDI