Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

18
Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009

Transcript of Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Page 1: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Activité du Groupe Monitoring LCG/SA1 fr

LCG T2 T3 Face to Face meeting

18-19 Mai 2009

Page 2: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Plan

1)Contexte et rappels des problèmatiques

2)Monitoring des sites EGEE et LCG

3)Monitoring Régional: (NagiosRegional+Dashboard)

4)Interaction avec l’OAT (Operation Automation Team) et évolution EGI/NGI

5)Prochaines actions

Page 3: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

1)Contexte et rappels des problèmatiquesLa présentation / l’échange/ la corrélation des données de monitoring restent les challenges

majeurs du monitoring d’une grille Liés aux operations: Qui à la charge de surveiller? Ne pas oublier les utilisateurs

Solutions choisies par EGEE: Nagios + ActiveMQ

Que font les autres Regions/Grilles ? Présentation des données: OSG: UWA avec netvibes ou igoogle

Monitoring régionalisé/centralisée des jobs

Technologies souvent utilisées: DB + XML. Peut être investigué sur eXist (http://exist-db.org/webdb.pdf)?

Page 4: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

2)Monitoring au niveau des sites EGEE et LCG

Tous les sites certifiés ont un outil de monitoring local pour surveiller leurs ressources A grains plus ou moins fins Avec ou sans actions correctrices Avec ou sans alarmes Avec ou sans graphes de performance

Encore besoin d’échanger dans ce domaine: création d’un repository ROC-fr en cours Template quattor prêt (verrou technique/politique à lever) Visios/tutoriaux

Page 5: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

3)Monitoring Régional: (NagiosRegional+Dashboard) Disparition des tests SAM => Installation d’un Nagios Regional.

Nagios Regional installé sur une machine virtuelle au CC Surveille tous les sites dépendants du ROC français Utilise les sondes développées par le projet EGEE (OAT) Utilisation de NDOutils: les résultats des sondes sont stocké dans une

DB mysql.

Besoin d’un outil pour les opérations capable de synthétiser tous les résultats de monitoring=> Développement d’un Dashboard Régional L'idée est d'avoir une vue synthétique et la possiblité de rajouter

n'importe quelle source d'info (+ création de tickets - outils de contacts )

Page 6: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

3)Nagios Regional: L’interface

Page 7: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

3)Nagios Régional: La DB mysqlmysql> select nagios_services.display_name, nagios_hosts.display_name, output from nagios_servicestatus,

nagios_services, nagios_hosts where nagios_services.service_object_id=nagios_servicestatus.service_object_id and nagios_services.host_object_id=nagios_hosts.host_object_id and nagios_services.display_name like "org.bdii%" and nagios_servicestatus.last_time_critical like "2009-05-06%" and nagios_servicestatus.check_command like "ncg_check_native%";

+--------------------+----------------------+------------------------------------+| display_name | display_name | output |+--------------------+----------------------+------------------------------------+| org.bdii.Published | bdii.egee.fr.cgg.com | CRITICAL: GlueServiceEndpoint=NULL || org.bdii.Published | bdii.grif.fr | CRITICAL: GlueServiceEndpoint=NULL || org.bdii.Freshness | grid01.lal.in2p3.fr | (Service Check Timed Out) || org.bdii.Published | grid01.lal.in2p3.fr | (Service Check Timed Out) || org.bdii.Services | grid01.lal.in2p3.fr | (Service Check Timed Out) || org.bdii.Freshness | grid07.lal.in2p3.fr | (Service Check Timed Out) || org.bdii.Published | lyobdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL || org.bdii.Published | nansbdii.in2p3.fr | CRITICAL: GlueServiceEndpoint=NULL || org.bdii.Published | topbdii.cci.ucad.sn | CRITICAL: GlueServiceEndpoint=NULL |+--------------------+----------------------+------------------------------------+9 rows in set (0.03 sec)

Cyril peux tu ajouter un commentaire sur le mail envoyer à l’OAT concernant l’optimisation de la DB?

Page 8: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

3) Nagios Régional => Nagios Site:Echange de données avec ActiveMQ

Page 9: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

3)Dashboard Régional

Page 10: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

4)Interaction avec l’OAT et évolution EGI/NGI Interaction avec l’OAT

L’OAT semble peu intéressé par le dashboard developpé au CC L’adoption par le projet EELA va peut etre faire avancer les choses? Sinon, comment améliorer les choses?

Nagios Régionale: Version définitive pour Juillet, d’ici la commentaires envoyés sur la version actuelle pour éviter de futur problèmes Facile à installer MAIS difficile à utiliser (beaucoup de sondes en erreurs: il faut connaitre chacune de ses sondes et les

adapter) L’architecture de la Base de donnée n’est pas optimisée ….a pousuivre

Evolution EGI/NGI GOC DB va perdurer. CIC aussi La NGI Française va devoir mettre en place son infrastructure de monitoring: Rédaction d’un

document décrivant l’infrastructure de monitoring en cours, pour: formaliser les demandes de la région à ses sites (options/obligations). informer des intentions et besoins faire l’état de l’art dans ce domaine et justifier les solutions choisies pour cette infrastructure.

Page 11: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

5)Prochaines actions actions achevées depuis Novembre:

tutorial nagios: http://indico.in2p3.fr/conferenceDisplay.py?confId=1403 Template quattor pour nagios + NCG production de rpms nagios pour différentes version de SL production de rpm de sonde nagios tester nagiosgraph Installation d’un nagios regional Création d’un repository (à valider, ou à mettre dans Prochaines actions) Tester les échanges de données monitoring entre site et ROC via ActiveMQ (à faire avec le site GRIF

la semaine prochaine)

Prochaines actions:

Verous à lever concernant les templates Quattor pour Nagios: 2 versions de templates à merger (Refus de la communauté Quattor d’avoir 2 versions de templates

pour une même fonctionnalité: action à entreprendre avec le Groupe Monitoring GRIF) Bloquant pour 1 site

Adapter le Nagios régional désolidariser le dashboard du CIC (En cours - Prototype pour EELA en novembre) remplacer l’interface du dashboard avec les tests SAM par une interface avec les sondes nagios (du nagios

régional) En cours - intégration des infos Nagios d'ici Juin Rédiger le document decrivant l’infrastructure de monitoring Refaire un bilan de l’état et des besoins des sites

Page 12: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

FIN

Page 13: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Réf http://indico.in2p3.fr/conferenceDisplay.py?confId=1779 + Anciens slides :

Page 14: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

OAT Strategy: site-level monitoring using nagiosSeptembre 2008

NCG (Nagios Configuration Generator): generates a nagios configuration for a grid site using GOCDB and BDII

Page 15: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Etat des sites Francais : homogénéité des sites?-OS: SL3/SL4 32bits/64bits OUI

-installer : Yaim, quattor, Homemade tool, vendor product OUI

-Fabric monitoring tools: Nagios, script, ganglia, cacti, centreon, lemon, nothing (only one site) NON/MAIS

-Les sites qui n’utilisent pas Nagios veulent bien l’essayer au moins pour les services grille

-Certains sites ont déjà utilise NCG

-Network monitoring tools: mrtg, extra, cacti, nagios, cricket, homemade tool, snmp, nothing (3 sites) NON mais comment partager?

-Security monitoring: firewall, snort IDS, Extra, logs, tripwire, fail2ban, jack the ripper, outils internes, centralised syslog with script, ntop, prelude, log parsing, nothing (3sites)NON mais comment partager?

-external tools used to verify site and Alarms: SAM, GGUS, CIC portal alerts, gstat, appel, sync, Monalisa, AtlasDashboard, GOCdb, GridView NON mais c’est le contexte actuel qui veut ca: l’integration de tous ces outils serait une bonne chose.

Page 16: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Etat des sites Francais :

Resources grilles=resources locales ?-Same Network : Yes 36%-Same team: YES 45%-Same monitoring: Yes 55%

-time to develop component in your fabric Management tools to integrate easily the monitoring part: Maybe 1 (not full time) -time to develop probes: (not full time)

-maybe 1 -2 for nagios -1 for lemon-1 for bioinformatics probes

-All sites Ok to integrate grid probes developed by the community-Vobox monitoring: 55% NO-publish grid probes at ROC level: 36% NO (should be 100% yes ? )

-Evolution foreseen at site:Try nagios, Adding test to nagios, update nagios to version3, migration vers nagios, evolving with nagios

-issue encounter with monitoring tool: flooding emails when network failure

Page 17: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

Etat des sites Français: Conclusion Les sites Francais semblent en adéquation avec les projets EGEE et WLCG

-Volonté des sites -d’utiliser nagios-de garder la maîtrise de ce qui est monitoré chez eux-restreindre le nombre des outils de monitoring

-Pour partager:-repository commun -documentation-training

Mais la collaboration avec les projets EGEE et WLCG (OAT) pas toujours facile:-Repository ne contient pas toujours les bonnes versions.-Etics ne permet pas de faire ce qu’on veut-NCG pas facile à integrer avec une configuration Nagios existante-quattor: template en cours de création: les templates actuels sont trop

compliqués.

Page 18: Activité du Groupe Monitoring LCG/SA1 fr LCG T2 T3 Face to Face meeting 18-19 Mai 2009.

le groupe de travail monitoring LCG-fr et SA1-fr

Mandat:

collecter les besoins des responsables des sites et de services de la région,

recenser les pratiques des sites et les outils de monitoring utilisés,

représenter et défendre les intérêts de la région dans les différents groupes de travail existants au sein de WLCG-EGEE sur un sujet connexe (OAT)

identifier les standards qui doivent être suivis ainsi que les outils pertinents à tous les niveaux (services, site et région), proposer aux responsables des sites, des services grid et de l’opération régionale de la grille EGEE un ensemble d'outils répondant à leurs besoins,

proposer, si besoin, des améliorations sur les outils et procédures d’alertes au niveau des sites, au niveau de la région

établir, s’il y a lieu, un plan pour la poursuite de ses travaux au-delà de la période initiale des 6 premiers mois.