Bacula et PostgreSQL, optimisation et retour d'expérience

Eric Bollengier / Marc Cousin

PGDay07/11/2009 2

Plan 1/2

Présentation Bacula

Présentation

Historique

Architecture

Le catalogue des sauvegardes

Schéma simplifié du catalogue

Problématiques

Code d'insertion original

Pourquoi cela ne fonctionne pas sous PostgreSQL

PGDay07/11/2009 3

Plan 2/2

Solutions proposées

Procédures stockées

Solution dite « Mode Batch »

Situation actuelle

Quelques chiffres sympas

Performances sur la restauration

Pourquoi préférer PostgreSQL ?

PGDay07/11/2009 4

Présentation

Bacula : solution de sauvegarde réseau *BSD, Linux, Mac OS X, Unix, Windows.

Projet initial :

Sauvegarde du Palm au Mainframe

Fonctions “Enterprise”

Relecture des données pour une période de 30 ans (si materiel adéquat)

Scalable

Licence libre (GPL v2) - FSFE

PGDay07/11/2009 5

Historique 1/2

Bacula = Backup + Dracula

Janvier 2000 – Démarrage du Projet – Kern Sibbald

14 Avril 2002 – 1er version sur Source Forge (version 1.16)

29 Juin 2006 – Version 1.38.11

Janvier 2007 – Version 2.0.0 ←

Aout 2007 – Version 2.2.0

Aout 2008 – Version 2.4.0

Avril 2009 – Version 3.0.0 (actuellement 3.0.3)

+ de 1 million de téléchargements (toutes versions)

PGDay07/11/2009 6

Historique 2/2

Catalogue SQL

État de l'art en 2002 : catalogue spécialisé

Nombreuses critiques sur l'utilisation de SQL

Mysql, SQLite puis PostgreSQL

Une connexion SQL pour l'ensemble des threads

PGDay07/11/2009 7

Architecture

Chaque élément peut se trouver sur un serveur différent

PGDay07/11/2009 8

Schéma simplifié du catalogue

PGDay07/11/2009 9

Job (id, nom, date, client, ...) (1 tuple par sauvegarde)

PGDay07/11/2009 10

(id, jobid, index, filenameid, pathid, stat(), checksum)

(1 tuple par fichier sauvegardé)

PGDay07/11/2009 11

(1 tuple par fichier sauvegardé)Path

(Nom du répertoire)

PGDay07/11/2009 12

Filename(Nom des fichiers)

PGDay07/11/2009 13

Gain de place

PGDay07/11/2009 14

Pas de clef étrangèredéclarée

PGDay07/11/2009 15

Procédure historique

PGDay07/11/2009 16

/etc/passwd Index Lstat Checksum

Ancienne procédure 1/6

Lock de « la » connexion SQLpour toute la procédure

Fichier

PGDay07/11/2009 17

Filename

Cherche « passwd » dans la table Filename

PGDay07/11/2009 18

Filename

Si absent, insert

PGDay07/11/2009 19

Filename

Si absent, insert

Cherche « /etc/ » dans la table Path

PGDay07/11/2009 20

Filename

Si absent, insert

PGDay07/11/2009 21

Filename

Si absent, insert

FileInsert (PathId, FilenameId, Index, Lstat, Checksum)

PGDay07/11/2009 22

PostgreSQL est lent !

Une transaction par opération (autocommit!)

Une seule session à la base

Temps d'aller et retour entre le director et la base pour chaque opération

Jusqu'à 5 requêtes pour chaque fichier

Reparsing de chaque requête

Perfs acceptables pour MyIsam et SQLite 2, pas pour PostgreSQL, InnoDB, SQLite 3

PGDay07/11/2009 23

Première tentative d'optimisation

Communauté => fsync = off

Solution «instinctive» pour un DBA : procédure stockée ! Réduit les problèmes de dialogue entre SGBD et director, et pas de parsing

Gain : X2, peu intrusif au niveau du code

Rejeté : propriétaire à Postgres, ne s'attaque qu'à une partie des problèmes

PGDay07/11/2009 24

Procédure actuelle« Mode Batch »

PGDay07/11/2009 25

Insertion « Batch » 1/5

/etc/passwd Index Lstat ChecksumFichier

PGDay07/11/2009 26

Temporary Batch Table

(une par session)

insert dans une table temporaireVia une connexion dédiée + COPY sous Postgres

PGDay07/11/2009 27

Temporary Batch table

Insertion des nouveauxrépertoires

Backup terminé, ou bien limite atteinte.

BeginLock de la tableInsertionCommit (unlock)

PGDay07/11/2009 28

Filename

Insertion des nouveauxnoms de fichier

BeginLock de la tableInsertionCommit (unlock)

PGDay07/11/2009 29

Path Filename

File Insertion des fichiers(avec jointure sur Path et Filename)Pas de verrouillage

PGDay07/11/2009 30

Et ça marche ?

En production :

PGDay07/11/2009 31

En production…

File :

1,1 milliard de tuples

Heap : 150 Go

Index : PK : 30 Go, (jobid, pathid, filenameid) : 50 G

Filename :

100 millions de tuples

Heap : 7Go

Index : 10 Go

Path :

23 millions de tuples

Heap : 3 Go

Index : 3 Go

PGDay07/11/2009 32

En production…

PGDay07/11/2009 33

En production…

Côté sauvegardes :

Chaque dimanche :

50 millions de fichiers, 10 To, 373 jobs

Week-end entier :

Chaque semaine :

En ligne dans le système de sauvegardes : 292To/1.1 milliard de fichiers

PGDay07/11/2009 34

<troll>Comparaison entre moteur</troll>

0 5 10 15 20 25 30 35 40 45 50

Backup timing with new accurate code

45 jobs of 1.5M files (2 in //)

3.1.x isamNew psqlNew innodbNew sqlite3

Backup number

PGDay07/11/2009 35

Et la restauration dans tout ça ?

Vitesse Sauvegarde Temps Restauration

PGDay07/11/2009 36

Et la restauration dans tout ça ?

File75M tuples

FileSystem

Sélection des fichiers : 1.5M fichiers sur 50 jobs ~ 60s

Ecriture du disque (reiserfs)

~ 5mins

PGDay07/11/2009 37

Sélection des fichiers pour la restauration

SELECT Path.Path, Filename.Name, Temp.FileIndex, Temp.JobId, Temp.LStat FROM (

SELECT DISTINCT ON (FilenameId, PathId) StartTime, JobId, FileId, FileIndex, PathId, FilenameId, LStat FROM File JOIN Job USING (JobId) WHERE JobId IN (1,2,3,4) ORDER BY FilenameId, PathId, StartTime DESC

) AS Temp JOIN Filename ON (Filename.FilenameId = Temp.FilenameId) JOIN Path ON (Path.PathId = Temp.PathId) WHERE Temp.FileIndex > 0 ORDER BY Temp.JobId, Temp.FileIndex ASC

PGDay07/11/2009 38

Pourquoi préférer PostgreSQL ?

Administration « maîtrisée »

Efficacité sur purges

Stabilité de PostgreSQL

PGDay07/11/2009 39

Contact et Questions

Marc Cousincousinmarc@gmail.com

Eric Bollengiereric.bollengier@baculasystems.com

PS : Sur youtube, rechercher :'faroult sql practice' (merci à lui)

Bacula et PostgreSQL, optimisation et retour d'expérience · 07/11/2009 PGDay 4 Présentation...

Transcript of Bacula et PostgreSQL, optimisation et retour d'expérience · 07/11/2009 PGDay 4 Présentation...

Bacula et PostgreSQL, optimisation et retour d'expérience · 07/11/2009 PGDay 4 Présentation...

Documents

Transcript of Bacula et PostgreSQL, optimisation et retour d'expérience · 07/11/2009 PGDay 4 Présentation...

PostGIS, un module de PostgreSQL pour les données … · PostGIS, un module de PostgreSQL pour les données spatiales Olivier Courtin – Vincent Picavet PGDay.eu 2009 ... Architecture

Decouverte MySQL PostgreSQL Oracle

Nouveautés de PostgreSQL 9.5

Guide de transition à PostgreSQL : aide à la décision

alphorm.com - Formation PostgreSQL administration

INSIA Bases de données PostgreSQL - 3 – PL-SQL …bliaudet.free.fr/IMG/pdf/PostgreSQL-03-PL-SQL-2.pdf · INSIA - BASES DE DONNÉES – POSTGRESQL - 03 - page 1/23 - Bertrand LIAUDET

Superviser PostgreSQL

Bacula - RESINFO · Présentation • Bacula est un logiciel de sauvegarde centralisée distribué sous licence GPL. – Backup + Dr acula • Prend en charge l’automatisation des

SeSQL : un moteur de recherche en Python et PostgreSQL

BSD - CRE TECHNOLOGY€¦ · A61Z0_FR_ Documentation Technique_V1.1 6/43 1 Présentation du BSD 1.1 Général Le BSD agit comme pont entre Modbus TCP et Modbus RTU, permettant à

Bacula et PostgreSQL, optimisation et retour d'expériencewiki.postgresql.org/images/1/16/Bacula_PGDay2009.pdf · 2009. 11. 8. · Solution dite « Mode Batch ... Bacula = Backup

Administration de PostgreSQL/PostGIS

PostgreSQL 9.0 et la réplication - dalibo.org · PostgreSQL 9.0 et la réplication 3 Version 9.0 • Sortie le 20 septembre 2010 • Dernière version corrective : 9.0.4 (18/04/2011)

PostgreSQL 9.0 et la réplication

PostgreSQL sous linux

PostgreSQL / Postgis Premiers pas

Bacula - OSSIR · Présentation •Bacula est un logiciel de sauvegarde centralisée distribué sous licence GPL. •Prend en charge l’automatisation des sauvegardes

PostgreSQL, un éléphant rencontre des éléPHPants

Alphorm.com Formation PostgreSQL, la Haute Disponibilité

retour D'expérience Migration Oracle Vers Postgresql · Retour d'expérience migration Oracle vers PostgreSQL Vincent Moreau – Adeo Services