Séminaire DEVI – Vincent Courjault-Radé

Date - Heure / Date - Hour
Date(s) - 14/12/2017
11h00 - 12h00

Emplacement / Location
ENAC, bât. Caudron, salle C016


Ballstering: Density peak clustering for large datasets

Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu’elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de « partitionnement de données » ou « clustering ». Récemment un algorithme de partitionnement « Fast Density Peak Clustering » (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu’il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d’un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable. Compte tenu de ces limites, nous avons repris l’idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d’améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering.
Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d’estimation de densité suivie d’une phase de partitionnement. Son élaboration est principalement fondée sur ICDMW, une sous-procédure permettant d’effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous avons également remanié certaines des définitions au coeur de FDPC et revu entièrement la phase 2 en s’appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC.

Vincent Courjault-Radé, DEVI, ENAC, Toulouse.