Reprise sur incident - ConFoo 2012

Reprise surincidentConFoo 2012

Passionné de web depuis 1996, de PHP depuis 2000 et de musique depuis 1977

Jean-Marc Fontaine

‣ Consultant PHP chez Alter Way‣ Ex-Président de l’AFUP‣ Co-Auteur du livre blanc

«Industrialisation PHP»‣ Auteur du blog

industrialisation-php.com

Cela va arriver !

Limiter le périmètre du problème

Diminuer la portée

‣ Indisponibilité‣ Perte de données‣ Rupture de la confidentialité

Limiter les conséquences du problème

Minimiser l’impact

‣ En terme financier‣ En terme d’image

Se préparer

“Les plans ne sont rien; c'est la planification qui compte”

Dwight Eisenhower

Avoir un plan

Se préparer à être efficace le jour JConnaître son rôle et ses actions

Avoir une équipe spécialiséeCellule transverse de crise

Mesures de mitigation

Machines virtuellesPossibilité d’augmenter très rapidement la capacité

Base de donnéesRéplication master/slave

Feature flippingDésactivation de fonctionnalité pour préserver le cœur de l’activité

Version statiqueTout ou partie du site devient statique pour être servi très rapidement

Sauvegardes

Sauvegarder toutChaque élément manquant dans la sauvegarde est un élément perdu en cas de problème

Sauvegarder régulièrementIl faut éviter d’avoir une trop grande différence entre la production et la dernière sauvegarde

Vérifier les sauvegardesUne sauvegarde peut être inutilisable. On doit donc la vérifier régulièrement.

Garder un historique intelligentIl est inutile d’accumuler les sauvegardes sans discernement

Journalisation

Que journaliser ?L’activité système, celle des applications, les déploiements, opérations de maintenance

Privilégier les fichiers platsIls sont plus facilement manipulables

Déporter les logsLa centralisation des logs permet de mieux les aggréger

Communiquer en interne

Certains pics de fréquentations sont anticipablesPériode de l'année, publicité, promotion, ommunication dans les médias

Déploiement automatisé

RapideUn script ira toujours plus vite qu’un humain

Pas sujet à la pressionLa criticité du problème n’impactera en rien le travail du script

Tester les procédures

RégulièrementRien ne vaut une mise en situation

Avec précautionNe surtout pas impacter la production

Détecter

Supervision

Surveiller les ressources

Surveiller les journauxY chercher des indices de problèmes

Surveiller l’applicationEst-elle disponible pour les utilisateurs

Faciliter le contactVos utilisateurs sont autant de sondes de surveillance

Communiquer

Isoler l'équipe d'interventionToute leur énergie doit être mobilisée pour régler le problème

Parefeu humainLa communciation ne doit pas être faite par l’équipe d’intervention

Amazon Web Services

Twitter

Analyser

Identification de la cause

InternePanne matérielle, instabilité logicielle, bogue applicatif, erreur humaine, etc.

ExterneAttaque, panne matérielle, pic de fréquentation, etc.

Identification de la portée

Quels sont les services touchés ?

Le service est-il réduit voire coupé ?

Identification de l’impact

Problème de sécurité ?

Perte de données ?

Atteinte à l’image ?

Corriger

Activer les mesures de mitigation nécessairesY aller progressivement et se limiter au strict nécessaire

Appliquer les mesures correctives

Déployer l’application si nécessaire

En dernier recours : tout couperC’est parfois la seule solution

Le problème est réglé.Il est donc temps de…

Fêter cela !

Apprendre

Capitaliser le savoir acquisUn problème résolu ne doit jamais se reproduire … en théorie

Méthodes des 5 pourquois

Intégrer les résultats aux procédures de test

CommuniquerLa communication est primordiale mais ne doit pas nuire à la résolution

AnalyserPrendre le temps de comprendre le problème

CorrigerIntervenir de manière précise et efficace pour corriger le problème

ApprendreAccumuler le savoir pour éviter de voir le problème se reproduire

Se préparerCe n’est pas le jour J qu’il faut commencer à chercher des solutions 1

Merci !

‣ Commentaires et slides : https://joind.in/6086‣ Blog : http://www.industrialisation-php.com/‣ Twitter : @jmfontaine / @indusphp‣ Email : jean-marc.fontaine@alterway.fr

Les photos et illustrations suivantes ont été utilisées dans cette présentation. Merci à leurs auteurs !

Crédits photographiques

‣ http://www.flickr.com/photos/r000pert/136999467/

‣ http://www.flickr.com/photos/illetirres/2214018398/

‣ http://www.flickr.com/photos/larimdame/2575986601/

‣ http://www.flickr.com/photos/techne/107093245/

‣ http://www.flickr.com/photos/p-doodle/466500483/

‣ http://www.flickr.com/photos/dennissylvesterhurd/141183312/

Reprise sur incident - ConFoo 2012

Technology

Transcript of Reprise sur incident - ConFoo 2012

La qualité au-delà du code - ConFoo 2012

RAPPORT INCIDENT B747 ROISSY CDG

Incident Ligne benzène Petroineos fev 2012 1 INCIDENT HDT ligne effluent réacteur LAVERA / Aout 2013 Journées GEMER 2014 P Sebastiani.

Incident sur la colline - Editions Allia · daniel lang Incident sur la colline 192 victimes de guerre Traduit de l’américain par julien besse ditions allia 16, rue charlemagne,

Leçon 12 : Le déroulement de l'instance sans incident : la ...

estudio - Bmtec.free.frbmtec.free.fr/Doc/Toshiba/estudio281c.pdf · EA20 Incident transport papier EA30 Incident à l’allumage Power ON EA40 Incident porte ouverte ... (Engine-CPU)

Trouvez la faille! - Confoo 2012

Mobile confoo 2013

Decision Support during Biological Incident Management ... · their omission. Nevertheless, the advantages of the utilization for biological incident management purposes prevail.

haute Disponibilité et reprise sur incident dans SharePoint avec groupes de disponibilités SQL

Dossier Reprise

Confoo 2011-planifier-accessibilite-dans-votre-organisation

PECB Certified ISO/CEI 27035 Lead Incident Manager...CEI 27035 Incident Manager Examen PECB Certified ISO/CEI 27035 Incident Manager ou équivalent Deux années : Une année d’expérience

LemonLDAP::NG, un WebSSO libre (ConFoo 2011)

Rex Analyse Incident - DSAC_Synthese

INCIDENT HDT ligne effluent réacteur LAVERA / Aout 2013

ACCIDENT, INCIDENT DÉTECTION et GESTION des RISQUES.

Reprise entrainement

Lettre DRH - Incident CFDT

Reprise sur incident - RMLL 2011