Date
17 mar 2014

Le mardi 18 mars, à partir de 14h15, en salle 201, par Cyril Seguin (doctorant cifre co-encadré par G. Le Mahec)

De larges variétés d’applications, notamment dans le calcul haute performance (analyse probabiliste, météorologie, ... ), ont recours aux systèmes distribués pour produire et analyser de grandes quantités de données. Des infrastructures distribuées et plus récemment les infrastructures de type cloud ont émergé afin de permettre l’exécution de tels calculs. Citons par exemple les Infrastructures en tant que service (IAAS), qui sont de plus en plus utilisées dans le calcul à haute performance comme un moyen simple et peu onéreux de disposer ponctuellement de ressources de calculs. Sur ce type d’infrastructures, les données sont habituellement stockées sur des plateformes extérieures (Amazon S3, OpenStack Swift, ...) puis copiées sur les instances lorsque les applications scientifiques en ont besoin. Cependant, les images disques de ces infrastructures ont une taille limitée et ne peuvent être partagées entre toutes les instances. La quantité de données à stocker augmentant continuellement, des solutions de stockage réseaux efficaces et supportant le passage à l’échelle supérieure sont nécessaires afin de fournir aux applications un accès aux données. De nos jours, la principale solution de stockage utilisée est le système de fichiers distribués (DFS) qui fournit un espace de stockage permanent et permet le partage d’un ensemble de fichiers sous la forme d’une vue unifiée en fédérant des ressources de stockages dispersées au travers d’un réseau.

Cependant, les IAAS sont des infrastructures élastiques : des ressources sont ajoutées ou retirées selon les besoins et les stratégies de placement de données des DFS actuels ne sont pas conçues pour supporter cette élasticité : elles répartissent les données de manière à utiliser au maximum l’espace de stockage disponible (c’est à dire l’ensemble des ressources) rendant difficile la suppression de ressources sans perte de données. De plus, elles ne tiennent pas compte des différentes popularités des données (nombre d’accès sur une periode de temps), ni des différents débits fournis par les ressources, impactant les performances de la plateforme. Nous proposons donc de repenser les stratégies de placement de données autour de leur po- pularité. Dans cet exposé, nous présentons plusieurs algorithmes de placement de données permettant d’optimiser l’efficacité de la plateforme (c’est à dire de minimiser le nombre de ressources utilisées tout en optimisant les débits en lecture de la plateforme). Pour tester l’efficacité de ces algorithmes, nous simulons une plateforme de calculs distribués de type IAAS, hétérogène en débits, sur laquelle un DFS est déployé pour stocker et partager les données. Les premiers résultats obtenus sur des jeux de données simples montrent que le placement des données en fonction de leur popularité, ainsi que des débits fournis par les ressources permet d’améliorer l’efficacité de la plateforme par rapport au placement par défaut des DFS.

Mots-clés : Système de fichiers distribué, Placement de données

UPJV