VMware Availability Guide PG FR

download VMware Availability Guide PG FR

of 62

Transcript of VMware Availability Guide PG FR

Guide de disponibilit vSphereESX 4.1 ESXi 4.1 vCenter Serveur 4.1

Ce document prend en charge la version de chacun des produits rpertoris, ainsi que toutes les versions publies par la suite jusqu'au remplacement dudit document par une nouvelle dition. Pour rechercher des ditions plus rcentes de ce document, rendez-vous sur : http://www.vmware.com/fr/support/pubs.

FR-000316-00

Guide de disponibilit vSphere

Vous trouverez la documentation technique la plus rcente sur le site Web de VMware l'adresse : http://www.vmware.com/fr/support/pubs/ Le site Web de VMware propose galement les dernires mises jour des produits. Nhsitez pas nous transmettre tous vos commentaires concernant cette documentation ladresse suivante : [email protected]

Copyright 2009, 2010 VMware, Inc. Tous droits rservs. Ce produit est protg par les lois amricaines et internationales relatives au copyright et la proprit intellectuelle. Les produits VMware sont protgs par un ou plusieurs brevets rpertoris l'adresse http://www.vmware.com/go/patents-fr. VMware est une marque dpose ou une marque de VMware, Inc. aux tats-Unis et/ou dans d'autres juridictions. Toutes les autres marques et noms mentionns sont des marques dposes par leurs propritaires respectifs.

VMware, Inc. 3401 Hillview Ave. Palo Alto, CA 94304 www.vmware.com

VMware, Inc. 100-101 Quartier Boieldieu 92042 Paris La Dfense France www.vmware.com/fr

2

VMware, Inc.

Table des matires

propos de ce guide 5

1 Continuit d'activit et minimisation des interruptions de service 7Rduction des interruptions de service prvues 7 Prvention les interruptions de service imprvues 8 VMware HA assure une reprise d'activit rapide suite une interruption VMware Fault Tolerance assure la continuit de la disponibilit 9 8

2 Cration et utilisation des clusters VMware HA 11Fonctionnement de VMware HA 11 Contrle d'admission VMware HA 13 Liste de vrification VMware HA 20 Cration d'un cluster VMware HA 20 Personnalisation du comportement de VMware HA 26 Meilleures pratiques aux clusters VMware HA 28

3 Fourniture de la tolrance aux pannes des machines virtuelles 33

Fonctionnement de la tolrance aux pannes 33 Utilisation de la tolrance aux pannes avec DRS 35 Cas d'utilisation de tolrance aux pannes 35 Liste de vrification de tolrance aux pannes 36 Interoprabilit de la tolrance aux pannes 37 Prparation du cluster et des htes la tolrance aux pannes 39 Fourniture de la tolrance aux pannes des machines virtuelles 43 Affichage des informations sur les machines virtuelles tolrantes aux pannes 45 Recommandations relatives la tolrance aux pannes 46 Recommandations de configuration de la tolrance aux pannes par VMware 49 Dpannage de la tolrance aux pannes 49

Annexe : Message d'erreurs de tolrance aux pannes 53 Index 59

VMware, Inc.

3

Guide de disponibilit vSphere

4

VMware, Inc.

propos de ce guide

Le Guide de disponibilit vSphere prsente des solutions assurant la continuit d'activit, ainsi que la mise en place de VMware Haute disponibilit (HA) et de VMware Fault Tolerance.

Public cibleCe livre est destin tous ceux qui veulent assurer la continuit d'activit l'aide des solutions VMware HA et Tolrance aux pannes. Les informations fournies dans ce livre sont destines aux administrateurs du systme Windows ou Linux expriments qui connaissent le fonctionnement de la technologie des machines virtuelles et des centres de donnes.

Glossaire VMware Technical PublicationsVMware Technical Publications fournit un glossaire des termes qui peuvent ventuellement ne pas vous tre familiers. Pour consulter la dfinition des termes utiliss dans la documentation technique VMware, visitez le site Web http://www.vmware.com/support/pubs.

Commentaires sur les documentsVMware prend en considrations vos suggestions pour amliorer sa documentation. Si vous avez des commentaires, envoyez-les [email protected]

documentation de vSphereLa documentation vSphere se compose de la combinaison de l'ensemble des documentations de VMware vCenter Server et ESX/ESXi. Le Guide de disponibilit vSphere traite d'ESX , d'ESXi et de vCenter Server.

Ressources de support technique et de formationLes ressources de support technique suivantes sont votre disposition. Pour accder la version actuelle de ce guide et d'autres guides, allez sur http://www.vmware.com/support/pubs. Support en ligne et tlphonique Pour soumettre des demandes d'ordre technique l'assistance en ligne, consulter les informations concernant vos produits et contrats et inscrire vos produits, rendez-vous sur http://www.vmware.com/support.

VMware, Inc.

5

Guide de disponibilit vSphere

Les clients ayant souscrit des contrats de support appropris peuvent utiliser le support tlphonique pour obtenir une rponse rapide leurs problmes prioritaires. Allez sur http://www.vmware.com/support/phone_support.html. Offres de support Pour en savoir plus sur la faon dont les offres d'assistance VMware peuvent satisfaire les besoins de votre entreprise, rendez-vous sur http://www.vmware.com/support/services. Les cours VMware Education Services proposent de nombreux exercices pratiques, des exemples d'tude de cas, ainsi que de la documentation destine servir de rfrence sur site. Les cours sont disponibles sur site, en salle de cours et en ligne et en direct. Pour les programmes pilotes sur site et les meilleures pratiques de mise en uvre, VMware Consulting Services propose des offres destines vous aider valuer, planifier, laborer et grer votre environnement virtuel. Pour accder aux informations sur les classes de formation, les programmes de certification et les services-conseil, rendez-vous sur http://www.vmware.com/services.

VMware Professional Services

6

VMware, Inc.

Continuit d'activit et minimisation des interruptions de service

1

Qu'elles soient prvues ou imprvues, les interruptions de service engendrent des cots considrables. Mais les solutions assurant des niveaux levs de disponibilit ont toujours t chres et difficiles implmenter et grer. Les logiciels de VMware assurent facilement et moindre cot un niveau lev de disponibilit pour les applications importantes. Avec vSphere, les entreprises peuvent augmenter facilement le niveau de disponibilit de base assur pour toutes les applications et fournir des niveaux levs de disponibilit plus facilement et moindre frais. Avec vSphere, vous pouvez :n

Assurer une disponibilit leve indpendamment du matriel, du systme d'exploitation et des applications. liminer les interruptions de service prvues pour les oprations de maintenance ordinaires. Assurer la restauration automatique en cas de dysfonctionnement.

n n

vSphere permet de rduire les interruptions de service prvues, d'viter des interruptions de service imprvues et de rcuprer rapidement suite des interruptions. Ce chapitre aborde les rubriques suivantes :n n n n

Rduction des interruptions de service prvues , page 7 Prvention les interruptions de service imprvues , page 8 VMware HA assure une reprise d'activit rapide suite une interruption , page 8 VMware Fault Tolerance assure la continuit de la disponibilit , page 9

Rduction des interruptions de service prvuesLes interruptions de service prvues reprsentent gnralement plus de 80 % des interruptions de service d'un centre de donnes. La maintenance matrielle, la migration des serveurs et les mises niveau des microprogramme imposent une interruption du service des serveurs physiques. Pour rduire les rpercussions de ces interruptions de service, les entreprises doivent reporter la maintenance des plages horaires peu pratiques et difficiles planifier. vSphere permet aux entreprises de rduire considrablement les interruptions de service prvues. Comme les charges de travail d'un environnement vSphere peuvent tre dplaces dynamiquement sur diffrents serveurs physiques sans interruptions de service, la maintenance des serveurs peut tre effectue sans exiger une interruption des applications et du service. Avec vSphere, les entreprises :n n n

liminent les interruptions de service pour les oprations de maintenance ordinaires. liminent les plages de maintenance prvues. excutent la maintenance tout moment sans perturber les utilisateurs et les services.

VMware, Inc.

7

Guide de disponibilit vSphere

VMware vMotion et la fonctionnalit Storage vMotion de vSphere permet aux entreprises de rduire les interruptions de service prvues car les charges de travail d'un environnement VMware peuvent tre dplaces dynamiquement sur d'autres serveurs physiques ou sur d'autres stockages sous-jacents sans interruption de service. Les administrateurs peuvent effectuer plus rapidement des oprations de maintenance entirement transparentes, sans devoir planifier des plages de maintenance peu pratiques.

Prvention les interruptions de service imprvuesAlors qu'un hte ESX/ESXi constitue une plate-forme stable pour l'excution d'applications, les entreprises doivent aussi se protger contre les interruptions de service imprvues provoques par des dfaillances matrielles ou logicielles. vSphere renforce considrablement les capacits des infrastructures des centres de donnes, ce qui contribue viter des interruptions de service imprvues. Ces capacits vSphere font partie d'une infrastructure virtuelle et sont transparentes pour le systme d'exploitation et les applications excutes sur les machines virtuelles. Ces fonctions peuvent tre configures et utilises par toutes les machines virtuelles sur un systme physique, ce qui rduit le cot et la complexit de la prvision d'une disponibilit suprieure. Les fonctions cls de la tolrance aux pannes sont intgres vSphere :n

Stockage partag. limine des points de panne isols en stockant les fichiers des machines virtuelles dans des espaces de stockage partags, comme Fibre Channel ou iSCSI SAN, ou encore NAS. Il est possible de faire appel aux fonctions de rplication et de mise en miroir SAN pour conserver les copies mises niveau des disques virtuels dans des sites de reprise. Association d'interfaces rseau. Assure la tolrance aux dfaillances des cartes rseau individuelles. chemins multiples du stockage. Assure la tolrance aux dfaillances des emplacements de stockage.

n n

En outre, les fonctions de VMware HA et Tolrance aux pannes peuvent rduire ou liminer les interruptions de service imprvues en assurant respectivement la reprise d'activit rapide suite une interruption et la continuit de la disponibilit.

VMware HA assure une reprise d'activit rapide suite une interruptionVMware HA a recours plusieurs htes ESX/ESXi configurs en cluster pour assurer une reprise d'activit rapide suite une interruption et une haute disponibilit moindres cots pour les applications excutes sur des machines virtuelles. VMware HA protge la disponibilit des applications de manire suivante :n

Il protge contre une dfaillance du serveur en redmarrant les machines virtuelles sur d'autres htes au sein du cluster. Il protge contre les dfaillances des applications en surveillant en permanence une machine virtuelle et en la rinitialisant en cas de dtection d'une dfaillance.

n

Contrairement aux autres solutions de mise en clusters, VMware HA fournit l'infrastructure ncessaire la protection de toutes les charges de travail :n

Il n'est pas ncessaire d'installer des logiciels spciaux dans l'application ou sur la machine virtuelle. Toutes les charges de travail sont protges par VMware HA. Aprs la configuration de VMware, aucune action n'est requise pour protger de nouvelles machines virtuelles. Elles sont protges automatiquement. Vous pouvez associer VMware HA VMware Distributed Resource Scheduler (DRS) pour assurer la protection contre les pannes, et pour rpartir la charge entre tous les htes d'un cluster.

n

8

VMware, Inc.

Chapitre 1 Continuit d'activit et minimisation des interruptions de service

VMware HA prsente plusieurs avantages face aux solutions de basculement habituelles : Configuration minimale Quand un cluster VMware HA a t configur, toutes les machines virtuelles du cluster sont incluses dans le basculement sans configuration supplmentaire. La machine virtuelle fait office de conteneur portable pour les applications et elle peut tre dplace parmi les htes. Les administrateurs vitent ainsi de reproduire les configurations sur plusieurs machines. Lorsque vous utilisez VMware HA, vous devez disposer de suffisamment de ressources pour le basculement de tous les htes protgs par VMware HA. Toutefois, le systme vCenter Server gre automatiquement les ressources et configure les clusters. Une application excute au sein d'une machine virtuelle a accs une disponibilit accrue. Comme la machine virtuelle peut rcuprer d'une dfaillance matrielle, toutes les applications qui dmarrent au moment de l'initialisation ont une disponibilit accrue sans accrotre la charge de calcul, mme si l'application n'est pas en cluster. En surveillant et en rpondant aux signaux de pulsation des VMware Tools et en rinitialisant les machines virtuelles qui ne rpondent plus, elle assure galement une protection contre les dfaillances du systme d'exploitation client. En cas de dfaillance d'un hte et du redmarrage des machines virtuelles sur d'autres htes, DRS peut fournir des recommandations de migration ou faire migrer les machines virtuelle en quilibrant les ressources alloues. Si l'hte source et/ou l'hte de destination d'une migration sont dfaillants, VMware HA peut faciliter la rcupration suite la dfaillance.

Cots et configuration matrielle rduits

Disponibilit accrue des applications

Intgration DRS et vMotion

VMware Fault Tolerance assure la continuit de la disponibilitVMware HA assure un niveau de protection de base pour vos machines virtuelles en les redmarrant en cas de panne de l'hte. VMware Fault Tolerance assure un niveau de disponibilit suprieur en permettant aux utilisateurs de protger les machines virtuelles contre une dfaillance de l'hte sans perte de donnes, de transactions ou de connexions. Tolrance aux pannes applique la technologie de VMware vLockstep sur la plate-forme de l'hte ESX/ESXi pour assurer la continuit de la disponibilit. La continuit de la disponibilit s'effectue en vrifiant que les tats des machines virtuelles principales et secondaires demeurent identiques tout au long de l'excution des instructions de la machine virtuelle. vLockstep s'en assure en faisant excuter des squences d'instructions x86 identiques aux machines virtuelles principales et secondaires. La machine virtuelle principale capture les entres et vnements (en provenance du processeur et destination des priphriques d'E/S virtuels) et les relit sur la machine virtuelle secondaire. La machine virtuelle secondaire excute les mmes instructions que la machine virtuelle principale, alors qu'une seule image de machine virtuelle (la machine virtuelle principale) excute toute la charge de travail. Si l'hte excutant la machine virtuelle principale ou l'hte excutant la machine virtuelle secondaire est dfaillant, un basculement transparent se produit. L'hte ESX/ESXi en tat de marche devient la machine virtuelle principale sans perte de connexions rseau ou de transactions en cours. Le basculement transparent vite toute perte de donnes et assure le maintien des connexions rseau. En cas de basculement transparent, une nouvelle machine virtuelle est raffecte et la redondance est rtablie. Le processus est entirement transparent et automatis et se produit mme en cas d'indisponibilit du vCenter Server.

VMware, Inc.

9

Guide de disponibilit vSphere

10

VMware, Inc.

Cration et utilisation des clusters VMware HA

2

Les clusters VMware HA permettent de runir plusieurs htes ESX/ESXi de faon ce qu'ils fournissent, en tant que groupes, un niveau de disponibilit suprieur pour les machines virtuelles celle d'un seul hte ESX/ ESXi. Quand vous prvoyez la cration et l'utilisation d'un nouveau VMware HA, les options choisies affectent la manire dont le cluster correspondant ragit aux pannes des htes ou des machines virtuelles. Avant de crer un cluster VMware HA, vous devez savoir comment VMware HA identifie les dfaillances et l'isolement de l'hte et comment il ragit dans ces situations. Vous devez aussi connatre le mode de fonctionnement du contrle d'admission de faon tre capable de choisir les rgles qui rpondent le mieux vos besoins de basculement. Lorsqu'un cluster a t cr, vous pouvez en personnaliser le comportement avec des attributs avancs et en optimiser les performances en suivant les meilleures pratiques recommandes. Ce chapitre aborde les rubriques suivantes :n n n n n n

Fonctionnement de VMware HA , page 11 Contrle d'admission VMware HA , page 13 Liste de vrification VMware HA , page 20 Cration d'un cluster VMware HA , page 20 Personnalisation du comportement de VMware HA , page 26 Meilleures pratiques aux clusters VMware HA , page 28

Fonctionnement de VMware HAVMware HA assure la disponibilit leve des machines virtuelles en les plaant avec leurs htes respectifs dans un cluster. Les htes du cluster sont surveills et, en cas de dfaillance, les machines virtuelles d'un hte dfectueux sont redmarrs sur d'autres htes.

Htes principaux et secondaires d'un cluster VMware HALorsque vous ajoutez un hte dans un cluster VMware HA, un agent est transfr vers l'hte et configur afin de communiquer avec d'autres agents du cluster. Les cinq premiers htes ajouts dans le cluster sont nomms des htes principaux et tous les htes suivants sont nomms des htes secondaires. Les htes principaux conservent et copient tous les tats du cluster et servent initier des actions de basculement. Si un hte principal est supprim du cluster, VMware HA promeut un autre hte (secondaire) au rang d'hte principal. Si un hte principal va tre dconnect pendant une dure prolonge, supprimez-le du cluster, de faon pouvoir le remplacer par un hte secondaire. Tout hte rejoignant le cluster doit communiquer avec un hte principal existant pour achever sa configuration (sauf au moment de l'ajout du premier hte au cluster). Un hte principal au moins doit tre oprationnel pour le bon fonctionnement de VMware HA. Si tous les htes principaux ne sont pas disponibles (sans raction), aucun hte ne peut tre configur correctement avec VMware HA. Tenez compte de la limite fixe cinq htes

VMware, Inc.

11

Guide de disponibilit vSphere

principaux par cluster lors de la planification de l'tendue du cluster. De plus, si le cluster est implment dans un environnement de serveur lame, ne placez pas plus de quatre htes principaux sur un seul chssis de lame. Si les cinq htes principaux sont dans le mme chssis et que celui-ci choue, votre cluster perd la protection VMware HA. L'un des htes principaux est aussi nomm hte principal actif. Ses responsabilits sont les suivantes :n n n

Dcision du point de dpart du redmarrage des machines virtuelles. Suivi des tentatives de redmarrage choues. Choix du moment appropri pour continuer essayer de redmarrer une machine virtuelle.

Si l'hte principal actif est dfectueux, un autre hte principal le remplace.

Dtection des pannes et isolation du rseau de l'hteLes agents communiquent les uns avec les autres et surveillent la ractivit des htes du cluster. Cette communication s'effectue par l'change de signaux de pulsation un intervalle d'une seconde par dfaut. Si 15 secondes passent sans rception de signaux de pulsation de la part d'un hte et que l'hte ne peut pas excuter de ping, il est dclar dfaillant. En cas de dfaillance de l'hte, les machines virtuelles excutes sur cet hte sont bascules, c'est--dire qu'elles sont redmarres sur des htes de remplacement. REMARQUE En cas de dfaillance de l'hte, VMware HA ne bascule pas de machines virtuelles vers un hte qui est en mode de maintenance. L'isolation du rseau de l'hte se produit lorsque l'hte fonctionne toujours, mais qu'il ne peut plus communiquer avec d'autres htes du cluster. D'aprs les paramtres par dfaut, si un hte cesse de recevoir les signaux de pulsation de tous les autres htes du cluster pendant plus de 12 secondes, il tente d'envoyer un ping ses adresses d'isolation. Si cela choue aussi, l'hte se dclare isol du rseau. Le ping est uniquement envoy une adresse d'isolation lorsque les pulsations ne sont plus reues d'aucun autre hte du cluster. Si la connexion rseau de l'hte isol n'est pas restaure au bout de 15 secondes ou davantage, les autres htes du cluster considrent l'hte isol comme dfectueux et tentent de basculer ses machines virtuelles. Mais lorsqu'un hte isol conserve l'accs au stockage partag, il conserve aussi le verrouillage disque sur les fichiers des machines virtuelles. Pour viter une corruption potentielle des donnes, le verrouillage disque VMFS empche les oprations d'criture simultane dans les fichiers disque des machines virtuelles et les tentatives de basculement des machines virtuelles des htes isols chouent. Par dfaut, l'hte isol arrte ses machines virtuelles, mais il est possible de modifier la raction d'isolation de l'hte en optant pour [Laisser sous tension] ou [Mise hors tension] . Reportez-vous Options de machine virtuelle , page 23. REMARQUE Si vous vous assurez que l'infrastructure rseau est suffisamment redondante et qu'un chemin d'accs au rseau est disponible en permanence, l'isolation du rseau de l'hte devrait se produire trs rarement.

Utilisation conjointe de VMware HA et DRSL'utilisation de VMware HA avec Distributed Resource Scheduler (DRS) allie le basculement automatique avec l'quilibrage de charge. Cette combinaison peut aboutir un rquilibrage plus rapide des machines virtuelles aprs leur dplacement sur d'autres htes par VMware HA. Quand VMware HA excute le basculement et redmarre les machines virtuelles sur des htes diffrents, la premire priorit est la disponibilit immdiate de toutes les machines virtuelles. Aprs le redmarrage des machines virtuelles, les htes sur lesquels elles sont excutes peuvent se retrouver surchargs, tandis que la charge d'autres htes est plus lgre, en comparaison. VMware HA utilise le CPU et la rservation de mmoire de la machine virtuelle pour dterminer si un hte dispose de suffisamment de capacit disponible pour prendre en charge la machine virtuelle.

12

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Dans un cluster utilisant DRS et VMware HA avec le contrle d'admission activ, les machines virtuelles ne sont pas ncessairement vacues des htes passant en mode de maintenance. Ce comportement intervient par suite des ressources rserves pour le redmarrage des machines virtuelles en cas de panne. Il faut migrer manuellement les machines virtuelles en dehors des htes avec vMotion. Dans certains scnarios, VMware HA ne parvient pas basculer des machines virtuelles par suite de contraintes de ressources. Ceci peut se produire pour plusieurs raisons.n

Le contrle d'admission HA est dsactiv et Gestion de l'alimentation distribue (DPM) est activ. Cela peut aboutir la consolidation par DPM des machines virtuelles sur un nombre infrieur d'htes et la mise en veille des htes vides, ce qui ne laisse pas suffisamment de rserve de capacit active pour effectuer un basculement. Les rgles (requises) d'affinit de machine virtuelle/hte peuvent limiter les htes sur lesquels certaines machines virtuelles peuvent tre places. Il peut y avoir suffisamment de ressources cumules mais celles-ci sont fragmentes sur plusieurs htes de sorte qu'elles ne peuvent pas tre utilises par les machines virtuelles pour le basculement.

n

n

Dans ce cas, VMware HA utilise DRS pour essayer d'ajuster le cluster (par exemple, en sortant les htes du mode de veille ou en migrant les machines virtuelles pour dfragmenter les ressources du cluster) de sorte que HA puisse excuter les basculements. Si DPM est en mode manuel, vous devrez ventuellement confirmer les recommandations de mise sous tension des htes. De mme, si DPM est en mode manuel, vous devrez ventuellement confirmer les recommandations de migration. Si vous utilisez les rgles d'affinit entre machine virtuelle et hte requises, sachez que ces rgles doivent obligatoirement tre respectes. VMware HA n'effectue pas de basculement si cela risque d'enfreindre une rgle. Pour plus d'informations sur DRS, reportez-vous au Guide de gestion des ressources.

Contrle d'admission VMware HAvCenter Server utilise le contrle d'admission pour assurer que suffisamment de ressources sont disponibles dans un cluster pour permettre la protection par basculement et pour assurer que les rservations de ressources pour les machines virtuelles sont respectes. Trois types de contrle d'admission sont disponibles. Hte Pool de ressources Garantit qu'un hte dispose de suffisamment de ressources pour satisfaire les rservations de toutes les machines virtuelles qui y sont excutes. Garantit qu'un pool de ressources dispose de suffisamment de ressources pour satisfaire les rservations, les partages et les limites de toutes les machines virtuelles qui y sont associes. Garantit qu'une part suffisante des ressources du cluster sont rserves la restauration des machines virtuelles en cas de dfaillance de l'hte.

VMware HA

Le contrle d'admission impose des contraintes d'utilisation des ressources et toute action contrevenant ces contraintes n'est pas autorise. Parmi les exemples d'actions pouvant tre interdites, on peut citer :n n n

Mise sous tension d'une machine virtuelle. Migration d'une machine virtuelle sur un hte ou dans un cluster ou un pool de ressources. Augmentation de la rservation de CPU ou de mmoire d'une machine virtuelle.

VMware, Inc.

13

Guide de disponibilit vSphere

Parmi les trois types de contrle d'admission, seul le contrle d'admission VMware HA peut tre dsactiv. Mais sans ce contrle, il n'est pas possible d'assurer que toutes les machines virtuelles du cluster peuvent tre redmarres aprs une dfaillance d'hte. VMware dconseille de mettre hors tension le contrle d'admission, mais vous pouvez avoir besoin de le faire temporairement pour les raisons suivantes :n

Si vous devez enfreindre les contraintes de basculement lorsqu'il n'y a pas suffisamment de ressources pour les prendre en charge (par exemple, si vous mettez les htes en veille pour en tester le fonctionnement avec DPM). Si un processus automatis doit effectuer des actions qui risquent d'enfreindre temporairement les contraintes de basculement (par exemple, dans le cadre d'une mise niveau dirige par VMware Update Manager). Si vous devez excuter des tests ou des oprations de maintenance.

n

n

Rgles de contrle d'admission Dfaillances d'hte tolres par le clusterVous pouvez configurer VMware HA pour tolrer un nombre spcifi de dfaillances d'htes. Avec les rgles de contrle d'admission Dfaillances d'hte tolres par le cluster, VMware HA s'assure que mme si un nombre d'htes spcifi est dfectueux, les ressources demeurent en quantit suffisante sur le cluster pour le basculement de toutes les machines virtuelles de ces htes. Avec les rgles Dfaillances d'hte tolres par le cluster, VMware HA effectue le contrle d'admission de la manire suivante : 1 Calcule la taille du slot. Un slot est une reprsentation logique de la mmoire et des ressources CPU. Par dfaut, il est dimensionn pour satisfaire aux exigences de chaque machine virtuelle sous tension dans le cluster. 2 3 Dtermine le nombre de slots pouvant se trouver sur chaque hte du cluster. Dtermine la Capacit de basculement actuelle du cluster. Il s'agit du nombre d'htes dfectueux permettant de conserver un nombre suffisant de slots pour satisfaire toutes les machines virtuelles sous tension. 4 Dtermine si la Capacit de basculement actuelle est infrieure ou non la Capacit de basculement configure (prcise par l'utilisateur). Si c'est le cas, le contrle d'admission n'autorise pas l'opration. REMARQUE La Capacit maximale de basculement configure pouvant tre dfinie est limite quatre. Chaque cluster contient jusqu' cinq htes principaux et s'ils tombent tous en panne simultanment, le basculement de toutes les machines virtuelles risque d'chouer.

Calcul de la taille du slotLa taille d'un slot est dtermine par deux composants, la CPU et la mmoire.n

VMware HA calcule la taille de CPU partir de la CPU rserve par chaque machine virtuelle sous tension, en slectionnant la valeur la plus leve. Si aucune CPU n'a t rserve pour une machine virtuelle, une valeur de 256 MHz est dfinie par dfaut. Cette valeur peut tre modifie par l'attribut avanc das.vmcpuminmhz.) VMware HA calcule la taille du composant de mmoire partir de la mmoire rserve (plus la capacit supplmentaire de mmoire) de chaque machine virtuelle sous tension, en slectionnant la valeur la plus leve. Il n'y a pas de valeur par dfaut pour la mmoire rserve.

n

14

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Si le cluster contient des machines virtuelles ayant des valeurs de rservation bien plus leves que d'autres, celles-ci influeront sur le calcul de la taille du slot. Pour l'viter, vous pouvez prciser une limite suprieure pour la CPU ou le composant de mmoire de la taille du slot en utilisant respectivement les attributs avancs das.slotcpuinmhz ou das.slotmeminmb.

Utilisation des slots pour dterminer la capacit de basculement actuelleUne fois la taille du slot calcule, VMware HA dtermine les ressources de CPU et de mmoire disponibles sur chaque hte pour les machines virtuelles. Ces valeurs sont contenues dans le pool de ressources racine de l'hte, et non dans les ressources physiques totales de l'hte. Les ressources utilises des fins de virtualisation ne sont pas incluses. Seuls les htes qui sont connects, qui ne sont pas en mode de maintenance et qui ne prsentent pas d'erreurs VMware HA sont pris en compte. Le nombre maximum de slots pouvant tre pris en charge par chaque hte est alors dtermin. cette fin, la quantit de ressources CPU de l'hte est divise par le composant de CPU de la taille de slot et le rsultat est arrondi. Le mme calcul est fait pour la quantit de ressources de mmoire de l'hte. Ces deux valeurs sont compares et la plus basse quivaut au nombre de slots pouvant tre pris en charge par l'hte. La Capacit de basculement actuelle est calcule en dterminant le nombre d'htes (en commenant par le plus gros) pouvant tre dfectueux tout en conservant un nombre suffisant de slots pour satisfaire toutes les machines virtuelles sous tension.

Informations d'excution avancesLorsque vous slectionnez les rgles de contrle d'admission Dfaillances d'hte tolres par le cluster, le lien [Informations d'excution avances] apparat dans la rubrique VMware HA de l'onglet [Rsum] du cluster dans vSphere Client. Cliquez sur ce lien pour afficher les informations suivantes propos du cluster :n n

Taille du slot. Nombre total de slots dans le cluster. Somme des slots pris en charge par les htes en tat de marche dans le cluster. Slots utiliss. Nombre de slots associs aux machines virtuelles sous tension. Ce nombre peut tre suprieur au nombre de machines virtuelles sous tension si vous avez dfini une limite suprieure pour la taille du slot au moyen des options avances. Ceci parce que quelques machines virtuelles peuvent occuper plusieurs slots. Slots disponibles Nombre de slots disponibles pour mettre sous tension des machines virtuelles supplmentaires dans le cluster. VMware HA rservation le nombre de slots requis par le basculement. Les slots restants sont disponibles pour mettre sous tension de nouvelles machines virtuelles. Nombre total de machines virtuelles sous tension dans le cluster. Nombre total d'htes dans le cluster. Nombre total d'htes en marche dans le cluster. Nombre d'htes qui sont connects, qui ne sont pas en mode de maintenance et qui ne prsentent pas d'erreurs VMware HA.

n

n

n n n

VMware, Inc.

15

Guide de disponibilit vSphere

Exemple 2-1. Rgles de contrle d'admission Dfaillances d'hte tolres par le cluster Nous allons illustrer par un exemple le mode de calcul de la taille de slot et son utilisation avec cette rgle de contrle d'admission. Effectuons les suppositions suivantes propos d'un cluster :n

Le cluster est compos de trois htes, ayant chacun des quantits diffrentes de CPU et de ressources mmoire disponibles. Le premier hte (H1) a 9 Ghz de ressources CPU et 9 Go de mmoire disponibles. Le second (H2) a 9 Ghz de CPU et 6 Go de mmoire disponibles et le troisime (H3) a 6 Ghz de CPU et 6 Go de mmoire disponibles. Il y a cinq machines virtuelles sous tension dans le cluster avec des besoins en CPU et en mmoire diffrents. VM1 a besoin de 2 Ghz de ressources CPU et 1 Go de mmoire, tandis que VM2 utilise 2 Ghz et 1 Go VM3 a besoin de 1 Ghz et de 2 Go, VM4 exige 1 Ghz et 1 Go, VM5 ncessite 1 Ghz et 1 Go. Dfaillances d'hte tolres par le cluster sont dfinies sur la valeur 1.

n

n

Figure 2-1. Exemple de contrle d'admission avec des rgles de Dfaillances d'hte tolres par le cluster

VM1 2 Ghz 1 Go

VM2 2 Ghz 1 Go

VM3 1 Ghz 2 Go taille du slot 2 Ghz, 2 Go

VM4 1 Ghz 1 Go

VM5 1 Ghz 1 Go

H1 9 Ghz 9 Go 4 slots

H2 9 Ghz 6 Go 3 slots

H3 6 Ghz 6 Go 3 slots

6 slots restants Si H1 est dfectueux1 La taille du slot est calcule en comparant la fois les exigences de CPU et de mmoire des machines virtuelles et en slectionnant la plus leve. Le besoin en CPU le plus lev (partag par VM1 et VM2) est de 2 Ghz, tandis que le besoin en mmoire le plus lev (VM3) est de 2 Go. Partant de l, la taille du slot se compose d'une CPU de 2 Ghz et d'une mmoire de 2 Go. 2 Le nombre maximum de slots pouvant tre pris en charge par chaque hte est dtermin. H1 peut prendre en charge quatre slots. H2 peut prendre en charge trois slots (le plus bas de 9 Ghz/2 Ghz et 6 Go/2 Go) et H3 peut aussi en prendre en charge trois. 3 La Capacit de basculement actuelle est calcule. Le plus gros hte est H1 et s'il est dfectueux, le cluster contient toujours six slots, ce qui est suffisant pour les cinq machines virtuelles sous tension. Si H1 et H2 sont dfectueux, il ne reste que trois slots, ce qui est insuffisant. Par consquent, la Capacit de basculement actuelle est de 1. Le cluster a un slot disponible (les six slots de H2 et H3 moins les cinq slots utiliss).

16

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Rgles de contrle d'admission Pourcentage de ressources de cluster rservesIl est possible de configurer VMware HA pour effectuer le contrle d'admission en rservant un pourcentage spcifique de ressources de cluster la rcupration en cas de pannes d'hte. Avec les rgles de contrle d'admission Pourcentage de ressources de cluster rserves, VMware HA assure qu'un pourcentage spcifi de ressources de cluster cumules est rserv au basculement. VMware HA effectue le contrle d'admission conformment aux rgles de Ressources de cluster rserves. 1 2 3 4 Calcul des besoins totaux en ressources pour toutes les machines virtuelles sous tension dans le cluster. Calcul les ressources totales de l'hte disponibles pour les machines virtuelles. Calcul la Capacit CPU de basculement actuelle et la Capacit mmoire de basculement actuelle du cluster. Dtermine si la Capacit CPU de basculement actuelle est infrieure ou non la Capacit de basculement configure (spcifiquee par l'utilisateur). Si c'est le cas, le contrle d'admission n'autorise pas l'opration. VMware HA utilise les rservations effectives des machines virtuelles. Si une machine virtuelle n'a pas de rservations, c'est--dire que la valeur de rservation est nulle, alors 0 Mo de mmoire par dfaut et 256 MHz de CPU sont appliqus.

Calcul de la Capacit de basculement actuelleLes besoins totaux en ressources des machines virtuelles sous tension sont composs de deux composants, CPU et mmoire. VMware HA calcule ces valeurs.n

Le besoin en composant CPU est obtenu en additionnant la CPU rserve par les machines virtuelles sous tension. Si aucune CPU n'a t rserve pour une machine virtuelle, une valeur de 256 MHz est dfinie par dfaut (cette valeur peut tre modifie par l'attribut avanc das.vmcpuminmhz). La taille du composant de mmoire est obtenue en additionnant la mmoire rserve (plus la capacit supplmentaire de mmoire) de chaque machine virtuelle sous tension.

n

Les ressources totales des htes disponibles pour les machines virtuelles sont calcules en additionnant les ressources de CPU et de mmoire des htes. Ces valeurs sont contenues dans le pool de ressources racine de l'hte, et non dans les ressources physiques totales de l'hte. Les ressources utilises des fins de virtualisation ne sont pas incluses. Seuls les htes qui sont connects, qui ne sont pas en mode de maintenance et qui ne prsentent pas d'erreurs VMware HA sont pris en compte. La Capacit CPU de basculement actuelle est calcule en soustrayant les besoins totaux en ressources CPU des ressources CPU totales des htes et en divisant le rsultat par les ressources CPU totales des htes. La Capacit mmoire de basculement actuelle est calcule de la mme manire.

VMware, Inc.

17

Guide de disponibilit vSphere

Exemple 2-2. Rgles de contrle d'admission Pourcentage de ressources de cluster rserves Nous allons illustrer par un exemple le mode de calcul de la Capacit de basculement actuelle et son utilisation avec cette rgle de contrle d'admission. Effectuons les suppositions suivantes propos d'un cluster :n

Le cluster est compos de trois htes, ayant chacun des quantits diffrentes de CPU et de ressources mmoire disponibles. Le premier hte (H1) a 9 Ghz de ressources CPU et 9 Go de mmoire disponibles. Le second (H2) a 9 GHz de CPU et 6 Go de mmoire disponibles et le troisime (H3) a 6 GHz de CPU et 6 Go de mmoire disponibles. Il y a cinq machines virtuelles sous tension dans le cluster avec des besoins en CPU et en mmoire diffrents. VM1 a besoin de 2 Ghz de ressources CPU et 1 Go de mmoire, tandis que VM2 utilise 2 Ghz et 1 Go, VM3 a besoin de 1 Ghz et de 2 Go, VM4 exige 1 Ghz et 1 Go, VM5 ncessite 1 GHz et 1 Go. La Capacit de basculement configure est de 25 %.

n

n

Figure 2-2. Exemple de contrle d'admission utilisant les rgles de Pourcentage de ressources de cluster rserves

VM1 2 Ghz 1 Go

VM2 2 Ghz 1 Go

VM3 1 Ghz 2 Go

VM4 1 Ghz 1 Go

VM5 1 Ghz 1 Go

besoins totaux en ressources 7 Ghz, 6 Go H1 9 Ghz 9 Go H2 9 Ghz 6 Go H3 6 Ghz 6 Go

ressources totales de l'hte 24 GHz, 21 GoLes besoins totaux en ressources des machines virtuelles sous tension sont de 7 Ghz et 6 Go. Les ressources totales de l'hte disponibles pour les machines virtuelles sont de 24 Ghz et 21 Go. Partant de l, la Capacit CPU de basculement actuelle s'lve 70% ((24 Ghz - 7 Ghz)/24 Ghz). De mme, la Capacit mmoire de basculement actuelle s'lve 71% ((21 Go - -6 Go)/21 Go). Comme la Capacit de basculement configure pour le cluster est de 25 %, 45 % des ressources CPU totales du cluster et 46 % des ressources mmoire totales du cluster sont toujours disponibles pour les machines virtuelles supplmentaires.

Rgles de contrle d'admission Spcifier un hte de basculementIl est possible de configurer VMware HA afin de dsigner un hte spcifique comme hte du basculement. En cas de dfaillance d'un hte, les rgles de contrle d'admission Spcifier un hte de basculement prvoient que VMware HA tente de redmarrer ses machines virtuelles sur un hte de basculement prdfini. Si ce n'est pas possible car l'hte de basculement est lui-mme en panne ou ses ressources sont insuffisantes, par exemple, VMware HA tente de redmarrer ces machines virtuelles sur d'autres htes du cluster. Pour s'assurer que des capacits restent disponibles sur l'hte de basculement, il n'est pas possible de mettre sous tension des machines virtuelles ou d'utiliser vMotion pour faire migrer des machines virtuelles vers l'hte de basculement. De plus, DRS n'utilise pas l'hte de basculement pour la rpartition de la charge.

18

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

L'hte de basculement actuel apparat dans la section VMware HA de l'onglet [Rsum] du cluster dans vSphere Client. L'icne de statut qui se trouve ct de l'hte peut tre verte, jaune ou rouge.n

Vert. L'hte est connect, il n'est pas en mode de maintenance et ne prsente pas d'erreurs VMware HA. Aucune machine virtuelle sous tension ne rside sur l'hte. Jaune. L'hte est connect, il n'est pas en mode de maintenance et ne prsente pas d'erreurs VMware HA. Mais des machines virtuelles sous tension rsident sur l'hte. Rouge. L'hte est dconnect, il est en mode de maintenance ou prsente des erreurs VMware HA.

n

n

Choix d'une rgle de contrle d'admissionLes rgles de contrle d'admission VMware HA doivent tre choisies en fonction des besoins de disponibilit et des caractristiques du cluster. Diffrents critres doivent tre pris en compte lors du choix de rgles de contrle d'admission.

viter la fragmentation des ressourcesLa fragmentation des ressources se produit lorsqu'il y a suffisamment de ressources cumules pour le basculement d'une machine virtuelle. Toutefois, ces ressources sont rparties sur plusieurs htes et sont inutilisables car une machine virtuelle peut uniquement tre excute sur un seul hte ESX/ESXi la fois. Les rgles de Dfaillances d'hte tolres par le cluster vitent la fragmentation des ressources en dfinissant un slot comme rservation maximale des machines virtuelles. Les rgles de Pourcentage de ressources de clusters ne traitent pas du problme de la fragmentation des ressources. Les rgles Spcifier un hte de basculement n'entranent pas la fragmentation des ressources car un seul hte est rserv au basculement.

Flexibilit de la rservation des ressources de basculementLes rgles de contrle d'admission diffrent de part la granularit qu'elles accordent au moment de la rservation des ressources du cluster pour la protection du basculement. Les rgles de Dfaillances d'hte tolres par le cluster permettent de dfinir le niveau de basculement d'un quatre htes. Les rgles de Pourcentage de ressources de cluster permettent de dfinir jusqu' 50 % de ressources du cluster pour le basculement. Les rgles Spcifier un hte de basculement autorisent uniquement la spcification d'un seul hte de basculement.

Htrognit des clustersLes clusters peuvent tre htrognes en termes de rservations des ressources des machines virtuelles et de capacits des ressources totales des htes. Dans un cluster htrogne, les rgles de Dfaillances d'hte tolres par le cluster peuvent tre insuffisantes puis qu'elles tiennent uniquement compte des plus grosses rservations de machines virtuelles lors de la dfinition de la taille du slot et qu'elles envisagent uniquement la dfaillance du plus gros hte lors de l'estimation de la Capacit de basculement actuelle. Les deux autres rgles de contrle d'admission ne sont pas affectes par l'htrognit des clusters. REMARQUE VMware HA tient compte de l'utilisation des ressources des machines virtuelles pour la tolrance aux pannes dans les calculs de contrle d'admission. Les rgles de Dfaillances d'hte tolres par le cluster veulent qu'un slot soit affect une machine virtuelle secondaire, tandis que les rgles de Pourcentage de ressources de clusters prvoient que l'utilisation des ressources des machines virtuelles secondaires soit prise en compte lors de l'valuation de l'utilisation des ressources du cluster.

VMware, Inc.

19

Guide de disponibilit vSphere

Liste de vrification VMware HALa liste de vrification VMware HA contient les exigences que vous devez connatre avant de crer et d'utiliser un cluster VMware HA.

Exigences applicables un cluster VMware HAConsultez cette liste avant de configurer un cluster VMware HA. Pour plus d'informations, suivez les rfrences croises appropries ou consultez Cration d'un cluster VMware HA , page 20.n n n n

Tous les htes doivent disposer d'une licence pour VMware HA. Le cluster doit contenir deux htes au minimum. Tous les htes doivent avoir un nom d'hte unique. Tous les htes doivent tre configurs avec des adresses IP statiques. Si vous utilisez DHCP, vrifiez que l'adresse de chaque hte est conserve aprs les redmarrages. Tous les htes doivent avoir accs aux mmes rseaux de gestion. Il doit au moins y avoir un rseau de gestion commun parmi tous les htes et il est recommand d'avoir au moins deux rseaux de gestion communs. Les rseaux de gestion diffrent selon la version de l'hte que vous utilisez.n n n

n

Htes ESX - rseau de la console du service. Htes ESXi antrieurs la version 4.0 - Rseau VMkernel. Htes ESXi version 4.0 et ultrieure - Rseau VMkernel et case cocher active [Rseau de gestion] .

Reportez-vous Meilleures pratiques de mise en rseau , page 29.n

Pour vous assurer que toutes les machines virtuelles peuvent tre excutes sur n'importe quel hte du cluster, tous les htes doivent avoir accs aux mme rseaux et banques de sonnes de machines virtuelles. De mme, les machines virtuelles doivent se trouver sur des stockages partags, et non locaux, sinon il ne peut pas y avoir de basculement en cas de dfaillance de l'hte. Le fonctionnement de surveillance des machines virtuelles ncessite l'installation des outils VMware. Reportez-vous Surveillance MV et application , page 25. DNS doit tre configur pour tous les htes d'un cluster VMware HA de faon ce que des noms d'hte courts (sans suffixe de domaine) de tous les htes du cluster puissent tre rsolus avec l'adresse IP appropries partir de n'importe quel hte du cluster. Sinon, la tche de Configuration de HA risque d'chouer. Si vous ajoutez l'hte l'aide de l'adresse IP, activez aussi la recherche DNS inverse (l'adresse IP doit pouvoir tre rsolue en nom d'hte court).

n

n

REMARQUE VMware HA ne prend pas en charge IPv6

Cration d'un cluster VMware HAVMware HA fonctionne dans le cadre d'un cluster d'htes ESX/ESXi. Vous devez crer un cluster, le remplir d'htes et configurer les paramtres VMware HA avant de pouvoir tablir la protection du basculement. Lorsque vous crez un cluster VMware HA, vous devez configurer divers paramtres qui dterminent la mise en uvre de la fonction. Avant de commencer, identifiez les nuds du cluster. Ces noeuds sont les htes ESX/ ESXi qui fourniront les ressources pour la prise en charge des machines virtuelles et qui seront utiliss par VMware HA pour la protection du basculement. Dterminez ensuite la manire dont ces nuds doivent tre relis les uns aux autres et au stockage partag o rsident les donnes de la machine virtuelle. Lorsque l'architecture de la mise en rseau est en place, vous pouvez ajouter les htes au cluster et terminer de configurer VMware HA.

20

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Vous pouvez activer et configurer VMware HA avant d'ajouter des nuds d'htes au cluster. Toutefois, tant que les htes n'ont pas t ajouts, le cluster n'est pas entirement oprationnel et quelques paramtres du cluster ne sont pas disponibles. Par exemple, les rgles de contrle d'admission Spcifier un hte de basculement ne sont pas disponibles tant qu'un hte n'a pas t dfini comme hte de basculement. REMARQUE La fonction de dmarrage et d'arrt de machine virtuelle (dmarrage automatique) est dsactive pour toutes les machines virtuelles rsidant sur des htes qui se trouvent dans un cluster VMware HA (ou qui y ont t places). VMware recommande de ne pas ractiver manuellement ce paramtre pour l'une des machines virtuelles. Cela risque d'interfrer avec les actions des fonctions du cluster, comme VMware HA ou Tolrance aux pannes.

Crer un cluster VMware HAVotre cluster peut tre activ pour VMware HA. Un cluster avec VMware HA est une condition pralable pour la tolrance aux pannes. VMware recommande de commencer par crer un cluster vide. Aprs avoir planifi les ressources et l'architecture rseau du cluster, vous pouvez utiliser vSphere Client pour ajouter des htes au cluster et dfinir les paramtres VMware HA du cluster. Connectez vSphere Client vCenter Server en utilisant un compte ayant des droits d'accs administrateur au cluster. Prrequis Vrifiez que toutes les machines virtuelles et leurs fichiers de configuration rsident sur des stockages partags. Vrifiez que les htes sont configurs pour accder ce stockage partag, afin de pouvoir mettre sous tension les machines virtuelles l'aide de diffrents htes dans le cluster. Vrifiez que chaque hte d'un cluster VMware HA possde un nom d'hte (de 26 caractres au maximum) attribu attribu et une adresse IP statique associe chacune des cartes rseau virtuelles. Vrifiez que les htes sont configurs pour avoir accs au rseau de machines virtuelles. REMARQUE VMware recommande des connexions rseau de gestion redondantes pour VMware HA. Pour plus d'informations sur la configuration d'un rseau redondant, consultez la rubrique Redondance des chemins d'accs de rseau , page 30. Procdure 1 2 3 Slectionnez les vues {[Htes & Clusters]}. Cliquez avec le bouton droit sur le centre de donnes dans l'arborescence d'inventaire d'inventaire d'inventaire et slectionnez [Nouveau cluster] . Compltez le paramtre de l'assistant Nouveau cluster. N'activez pas VMware HA (ou DRS) ce moment. 4 Cliquez sur [Terminer] pour fermer l'assistant et crer le cluster. Vous avez cr un cluster vide. 5 6 Utilisez vSphere Client pour ajouter des htes au cluster en vous rfrant la planification des ressources et de l'architecture rseau du cluster. Cliquez avec le bouton droit sur le cluster et slectionnez [Modifier les paramtres] . La bote de dialogue Paramtres du cluster permet de modifier les paramtres de VMware HA (et autres) pour le cluster. 7 Slectionnez [Allumer VMware HA] sur la page des fonctions de cluster.

VMware, Inc.

21

Guide de disponibilit vSphere

8

Configurez les paramtres VMware HA comme il convient pour le cluster.n n n n

tat de surveillance d'hte Contrle d'admission Options de machine virtuelle Surveillance de VM

9

Cliquez sur [OK] pour fermer la bote de dialogue Paramtres du cluster.

Vous avez maintenant un cluster VMware HA disponible, rempli avec des htes.

Fonctions de clusterLe premier panneau de l'assistant Nouveau cluster permet de dfinir les options de base du cluster. Ce panneau permet de nommer le cluster et de choisir une ou deux fonctions de cluster. Nom Allumer VMware HA Nommez le cluster. Ce nom figure dans le panneau d'inventaire de vSphere Client. Vous devez saisir un nom pour continuer crer le cluster. Lorsque cette case cocher est slectionne, les machines virtuelles redmarrent sur un autre hte du cluster en cas de dysfonctionnement d'un hte. Vous devez allumer VMware HA pour activer VMware Fault Tolerance sur n'importe quelle machine virtuelle du cluster. Si cette case cocher est slectionne, DRS rpartit la charge des machines virtuelle travers le cluster. DRS place et migre galement les machines virtuelles lorsqu'elles sont protges par HA.

Allumer VMware DRS

Vous pouvez modifier ces fonctions de cluster ultrieurement.

tat de surveillance d'hteAprs avoir cr un cluster, activez la surveillance d'hte de faon ce que VMware HA puisse surveiller les pulsations mises par l'agent VMware HA sur chaque hte dans le cluster. Quand [Activer la surveillance de l'hte] est slectionn, chaque hte ESX/ESXi du cluster est surveill pour s'assurer de son bon fonctionnement. En cas de dfaillance d'un hte, les machines virtuelles sont redmarres sur un autre hte. La surveillance d'hte est aussi requise pour le bon fonctionnement du processus de rcupration VMware Fault Tolerance. REMARQUE Si vous devez effectuer des oprations de maintenance rseau risquant de dclencher des ractions d'isolation des htes, VMware vous recommande de suspendre pralablement VMware HA en dsactivant la surveillance d'hte. Lorsque la maintenance est termine, activez nouveau la surveillance d'hte.

22

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Activation ou dsactivation du contrle d'admissionL'assistant Nouveau cluster permet d'activer ou de mettre hors tension le contrle d'admission pour le cluster VMware HA et de choisir les rgles d'application. Il est possible d'activer ou de mettre hors tension le contrle d'admission pour le cluster HA. Activer : Ne mettez pas sous tension les machines virtuelles qui violent les contraintes de disponibilit Dsactiver : Mettez sous tension les machines virtuelles qui violent les contraintes de disponibilit Active le contrle d'admission, applique des contraintes de disponibilit et conserve la capacit de basculement. Il est interdit d'effectuer sur une machine virtuelle toute opration qui rduit les ressources non rserves dans le cluster et qui enfreint les contraintes de disponibilit. Dsactive le contrle d'admission Les machines virtuelles peuvent, par exemple, tre mises sous tension mme si cela aboutit une capacit de basculement insuffisante. Lorsque vous faites cela, aucun avertissement n'est prsent et le cluster ne devient pas rouge. Si un cluster a une capacit de basculement insuffisante, VMware HA peut continuer effectuer des basculements et il utilise le paramtre de priorit de redmarrage de la machine virtuelle pour prciser quelles machines virtuelles doivent tre mise sous tension les premires.

VMware HA prvoit trois rgles d'application du contrle d'admission en cas d'activation.n n n

Dfaillances d'hte que le cluster tolre Pourcentage des ressources de cluster rserves en tant que capacit de basculement de secours Spcifier un hte de basculement

REMARQUE Voir Choix d'une rgle de contrle d'admission , page 19 pour plus d'informations sur le fonctionnement du contrle d'admission VMware HA.

Options de machine virtuelleLes paramtres par dfaut des machines virtuelles contrlent l'ordre dans lequel les machines virtuelles sont redmarres (priorit de redmarrage VM), ainsi que la rponse de VMware HA lorsque des htes ne sont plus relis par rseau d'autres htes (rponse d'isolation de l'hte). Ces paramtres s'appliquent toutes les machines virtuelles du cluster en cas de dfaillance des htes ou d'isolation. Vous pouvez configurer des exceptions pour des machines virtuelles spcifiques. Reportez-vous Personnaliser le comportement de VMware HA pour une machine virtuelle , page 28.

Paramtre de priorit de redmarrage des machines virtuellesLa priorit de redmarrage des machines virtuelles dtermine l'ordre relatif de redmarrage des machines virtuelles en cas d'chec de l'hte. Les machines virtuelles sont redmarres successivement sur leurs nouveaux htes, les machines virtuelles ayant la priorit la plus leve commencent, et vient le tour de celles ayant une priorit infrieure, jusqu' ce que toutes les machines virtuelles aient redmarr ou qu'il n'y ait plus de ressources de cluster disponibles. Si le nombre de dfaillances d'htes dpasse le seuil autoris par le contrle d'admission, les machines virtuelles ayant une priorit infrieure risquent de ne pas redmarrer tant que davantage de ressources ne sont pas disponibles. Les machines virtuelles sont redmarres sur l'hte de basculement, s'il a t pralablement dfini.

VMware, Inc.

23

Guide de disponibilit vSphere

Les valeurs de ce paramtre sont les suivantes : Dsactiv, Basse, Moyen (par dfaut) et Haut. Si Dsactiv est slectionn, VMware HA est dsactiv pour la machine virtuelle, ce qui signifie qu'elle n'est pas redmarre sur d'autres htes ESX/ESXi en cas de dysfonctionnement de son hte ESX/ESXi. La slection de Dsactiv n'affecte pas la surveillance des machines virtuelles. Par consquent, si une machine virtuelle est dfaillante sur un hte qui fonctionne correctement, cette machine virtuelle est rinitialise sur le mme hte. Vous pouvez modifier ce paramtre pour des machines virtuelles individuelles. Les paramtres de priorit du redmarrage des machines virtuelles varient en fonction des besoins de l'utilisateur. VMware vous recommande d'associer une priorit de redmarrage leve aux machines virtuelles qui fournissent les services les plus importants. Par exemple, dans le cas d'une application multitche, vous pouvez classer les attributions d'aprs des fonctions hberges sur les machines virtuelles.n n

Haute. Serveurs de base de donnes qui fournissent des donnes aux applications. Moyenne. Serveurs d'application qui exploitent les donnes de la base de donnes et fournissent des rsultats sur des pages web. Basse. Serveurs Web qui reoivent des demandes d'utilisateurs, transmettent des requtes des serveurs d'application et transmettent les rsultats aux utilisateurs.

n

Paramtre de rponse d'isolation de l'hteLa rponse d'isolation de l'hte dtermine les vnements survenant lorsqu'un hte dans un cluster VMware HA perd ses connexions rseau de gestion mais poursuit son excution. Les rponses d'isolation des htes exigent que l'tat de surveillance d'hte soit activ. Si l'tat de surveillance d'hte est dsactiv, les rponses d'isolation des htes sont galement suspendues. Un hte dtermine qu'il est isol lorsqu'il cesse de recevoir des heartbeats de tous les autres htes et qu'il est incapable d'envoyer un ping des adresses d'isolation. Lorsque cela se produit, l'hte excute sa rponse d'isolation. Les rponses sont les suivantes : Laisser sous tension, Mettre hors tension et Arrter (par dfaut). Vous pouvez personnaliser cette proprit pour des machines virtuelles individuelles. Pour utiliser le paramtre Arrter la machine virtuelle, vous devez installer VMware Tools dans le systme d'exploitation client de la machine virtuelle. L'arrt de la machine virtuelle offre l'avantage de conserver son tat. L'arrt est prfrable la mise hors tension de mise hors tension de machine virtuelle qui ne purge pas les dernires modifications apportes aux disques ni ne valide les transactions. Le basculement des machines virtuelles qui sont teintes est plus long car l'arrt doit aussi tre effectu. Les machines virtuelles qui n'ont pas t arrtes au bout de 300 secondes ou du dlai dfini par l'attribut avanc das.isolationshutdowntimeout seconds, sont mises hors tension. REMARQUE Lorsque vous avez cr un cluster VMware HA, vous pouvez remplacer les paramtres par dfaut du cluster relatifs la Priorit de redmarrage et la Rponse d'isolation pour les machines virtuelles spcifiques. Ces remplacements sont utiles pour les machines virtuelles qui sont utilises pour les tches spciales. Par exemple, les machines virtuelles qui fournissent des services d'infrastructure, comme DNS ou DHCP, doivent ventuellement tre mises sous tension avant d'autres machines virtuelles du cluster.

24

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Surveillance MV et applicationSurveillance de VM redmarre les machines virtuelles si leurs heartbeats VMware Tools n'ont pas t reus pendant une certaine priode. De mme, la Surveillance d'application peut redmarrer une machine virtuelle si les heartbeats d'une application excute ne sont pas reus. Il est possible d'activer ces fonctions et de configurer la sensibilit de la surveillance de l'absence de raction par VMware HA. Lorsque vous activez Surveillance de VM, le service Surveillance de VM (utilisant VMware Tools) vrifie si chaque machine virtuelle du cluster fonctionne en contrlant les pulsations rgulires et l'activit d'E/S du processus VMware Tools excut sur le client. Si aucune pulsation ou activit d'E/S n'est reue, c'est probablement parce que le systme d'exploitation client est dfectueux ou que les VMware Tools n'ont pas eu le temps de terminer les tches. Dans ce cas, le service Surveillance de VM dtermine que la machine virtuelle est dfectueuse et la machine virtuelle redmarre pour tre remise en service. Occasionnellement, les machines virtuelles ou les applications qui continuent fonctionner correctement cessent d'mettre des heartbeats. Pour viter les rinitialisations superflues, le service Surveillance de VM surveille aussi l'activit d'E/S d'une machine virtuelle. Si aucun heartbeat n'est reu pendant la priode de dfaillance, l'intervalles statistique d'E/S (un attribut dfini au niveau du cluster) est vrifi. L'intervalle statistique d'E/S dtermine si un disque ou une activit rseau s'est produite pour la machine virtuelle au cours des deux minutes (120 secondes) passes. Si ce n'est pas le cas, la machine virtuelle est rinitialise. Cette valeur par dfaut (120 secondes) peut tre modifie l'aide de l'attribut avanc das.iostatsinterval. Pour activer la surveillance d'application, il faut d'abord obtenir le SDK appropri (ou utiliser une application qui prend en charge la surveillance de l'application VMware) et l'utiliser pour configurer des pulsations personnalises pour les applications devant tre surveilles. Une fois fait, la surveillance d'application fonctionne de la mme manire que Surveillance de VM. Si les pulsations d'une application ne sont pas reues pendant un certain temps, sa machine virtuelle est redmarre. Vous pouvez configurer le niveau de sensibilit de la surveillance. Une sensibilit de surveillance leve permet de conclure plus rapidement un dysfonctionnement. Mme si c'est peu probable, une sensibilit de surveillance leve peut aboutir l'identification errone de dysfonctionnements alors que la machine virtuelle ou l'application en question fonctionne toujours mais que les heartbeats ne sont pas reus cause de contraintes de ressources notamment. Une sensibilit de surveillance basse rsulte en des interruptions de service prolonges entre les dfaillances avres et le redmarrage des machines virtuelles. Slectionnez l'option qui offre un compromis efficace vos besoins. Les paramtres par dfaut de la sensibilit de surveillance sont dcrits dans Tableau 2-1. Vous pouvez aussi indiquer des valeurs personnalises la fois pour la sensibilit de la surveillance et les intervalles statistiques d'E/S en slectionnant la case cocher [Personnalis] . Tableau 2-1. Paramtres de surveillance des machines virtuellesParamtre Haut Moyen Faible Intervalle d'chec 30 60 120 Priode de rinitialisation 1 heure 24 heures 7 jours

Lorsque des dysfonctionnements ont t dtects, VMware HA rinitialise les machines virtuelles. La rinitialisation contribue garantir que les services demeurent disponibles. Pour viter de rinitialiser constamment des machines virtuelles en cas d'erreurs non provisoires, les machines virtuelles sont rinitialises par dfaut trois fois seulement au cours d'une priode configurable. Aprs trois reinitialisations des machines virtuelles, VMware HA n'effectue aucune autre tentative pour redmarrer les machines virtuelles aprs des checs ultrieurs jusqu' ce que la priode dfinie ne soit coule. Vous pouvez configurer le nombre de rinitialisations l'aide du paramtre personnalis [Rinitialisations maximales par machine virtuelle] .

VMware, Inc.

25

Guide de disponibilit vSphere

Personnalisation du comportement de VMware HAAprs avoir cr un cluster, vous pouvez modifier les attributs spcifiques qui affectent le comportement de VMware HA. Vous pouvez galement modifier les paramtres par dfaut du cluster hrits par des machines virtuelles individuelles. Examinons les paramtres avancs que vous pouvez utiliser pour optimiser les clusters VMware HA dans votre environnement. Comme ces attributs affectent le fonctionnement de HA, modifiez-les avec prudence.

Dfinir les options avances de VMware HAPour personnaliser le comportement de VMware HA, dfinissez les options avances VMware HA. Prrequis Cluster VMware HA dont il faut modifier les paramtres. Privilges de l'administrateur du cluster. Procdure 1 2 3 4 Slectionnez [VMware HA] dans la bote de dialogue Paramtres du cluster. Cliquez sur le bouton [Options avances] pour ouvrir la bote de dialogue Options avances (HA). Saisissez chaque attribut avanc devant tre modifi dans une zone de texte de la colonne [Option] et saisissez une valeur dans la colonne [Valeur] . Cliquez sur [OK] .

Le cluster utilise des options que vous avez ajoutes ou modifies.

Attributs avancs de VMware HAVous pouvez dfinir des attributs avancs qui affectent le comportement du cluster VMware HA. Tableau 2-2. Attributs avancs de VMware HAAttribut das.isolationaddress[...] Description Rgle l'adresse pour excuter un ping pour dterminer si un hte est isol du rseau. Le ping est uniquement envoy cette adresse lorsque les heartbeats ne sont plus reus d'aucun autre hte du cluster. En l'absence de prcision, la passerelle par dfaut du rseau de gestion est utilis. Cette passerelle par dfaut doit tre une adresse fiable et disponible, de sorte que l'hte puisse dterminer s'il est isol du rseau. Vous pouvez indiquer plusieurs adresses d'isolation (jusqu' 10) pour le cluster : das.isolationaddressX, o X = 1-10. Vous devez gnralement en indiquer une par rseau de gestion. L'indication d'un nombre excessif d'adresses ralentit la dtection de l'isolation. Par dfaut, VMware HA utilise la passerelle par dfaut du rseau de console comme adresse d'isolation. Cet attribut indique l'utilisation ou non de ce rglage par dfaut (vrai| faux). Modifie la dure par dfaut de dtection de panne pour la surveillance d'hte. La valeur par dfaut est de 15 000 millisecondes (15 secondes). Cela correspond la dure pendant laquelle un hte n'a pas reu de heartbeats de la part d'un autre hte et l'coulement de laquelle il dclare que l'hte est dfectueux.

das.usedefaultisolationaddress

das.failuredetectiontime

26

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Tableau 2-2. Attributs avancs de VMware HA (suite)Attribut das.failuredetectioninterval Description Modifie l'intervalle des heartbeats parmi les htes VMware HA. Cela se produit par dfaut toutes les 1 000 millisecondes (1 seconde). Priode pendant laquelle le systme attend que la machine virtuelle s'arrte avant de la mettre hors tension. Cela s'applique uniquement si la rponse d'isolation de l'hte est Arrter la machine virtuelle. La valeur par dfaut est de 300 secondes. Dfinit la limite maximale de la taille d'un slot de mmoire. Si cette option est utilise, la taille du slot est infrieure cette valeur ou la rservation de mmoire maximale plus la capacit supplmentaire de toute machine virtuelle sous tension dans le cluster. Dfinit la limite maximale de la taille d'un slot de CPU. Si cette option est utilise, la taille du slot est infrieure cette valeur ou la rservation de CPU maximale de toute machine virtuelle sous tension dans le cluster. Dfinit la valeur de ressources de mmoire par dfaut associe une machine virtuelle si sa rservation de mmoire n'est pas prcise ou nulle. C'est utilis pour les rgles de contrle d'admission Dfaillances d'hte tolres par le cluster. Si aucune valeur n'est spcifie, la valeur par dfaut est de 0 Mo. Dfinit la valeur des ressources CPU par dfaut associe une machine virtuelle si sa rservation de CPU n'est pas prcise ou nulle. C'est utilis pour les rgles de contrle d'admission Dfaillances d'hte tolres par le cluster. Si aucune valeur n'est spcifie, la valeur par dfaut est de 256 MHz. Modifie l'intervalle statistique d'E/S par dfault de sensibilit de surveillance des machines virtuelles. La valeur par dfaut est de 120 (secondes). Peut tre dfinie sur une valeur suprieure ou gale 0. Une valeur nulle dsactive la vrification.

das.isolationshutdowntimeout

das.slotmeminmb

das.slotcpuinmhz

das.vmmemoryminmb

das.vmcpuminmhz

das.iostatsinterval

REMARQUE Si vous modifiez la valeur de l'un des attributs avancs suivants, vous devez mettre hors tension, puis ractiver VMware HA avant que les modifications ne s'appliquent.n n n n n

das.isolationaddress[...] das.usedefaultisolationaddress das.failuredetectiontime das.failuredetectioninterval das.isolationshutdowntimeout

VMware, Inc.

27

Guide de disponibilit vSphere

Personnaliser le comportement de VMware HA pour une machine virtuelleLes paramtres par dfaut du cluster relatifs la priorit de redmarrage, la rponse d'isolation et la surveillance des machines virtuelles sont associs chaque machine virtuelle d'un cluster VMware HA. Vous pouvez prciser des comportements spcifiques chaque machine virtuelle en changeant ces valeurs par dfaut. Si la machine virtuelle quitte le cluster, ces paramtres sont perdus. Procdure 1 2 3 4 5 6 Slectionnez le cluster et choisissez [Modifier les paramtres] dans le menu contextuel. Slectionnez [Options de machine virtuelle] sous VMware HA. Slectionnez une machine virtuelle dans le panneau Paramtres de la machine virtuelle et personnalisez son paramtre [Priorit redmarrage VM] ou [Rponse isolation hte] . Slectionnez [Surveillance de VM] sous VMware HA. Slectionnez une machine virtuelle dans le panneau Paramtres de la machine virtuelle et personnalisez son paramtre [Surveillance de VM] . Cliquez sur [OK] .

Le comportement de la machine virtuelle diffre dsormais des rglages par dfaut du cluster pour chaque paramtre modifi.

Meilleures pratiques aux clusters VMware HAPour des performances optimales des clusters VMware HA, VMware recommande de respecter quelques rgles lmentaires. La configuration du rseau et la redondance sont des critres importants de la conception et de l'implmentation du cluster.

Paramtre d'alarmes pour contrler les changements des clustersQuand VMware HA ou Tolrance aux pannes interviennent pour prserver la disponibilit en effectuant un basculement de machine virtuelle, par exemple, vous voulez probablement tre averti des changements. Il est possible de configurer des alarmes dans vCenter Server qui seront dclenches lorsque ces actions sont effectues et de dfinir des alertes, sous forme de messages lectroniques, par exemple, envoyes un groupes d'administrateurs prdfinis.

Contrle de la validit du clusterUn cluster valide ne prsente aucune violation des rgles de contrle d'admission. Un cluster activ pour VMware HA devient non valide (rouge) lorsque le nombre de machines virtuelles sous tension dpasse les conditions de basculement, c'est--dire que la capacit de basculement actuelle est infrieure la capacit de basculement configure. Si le contrle d'admission est dsactiv, les clusters ne deviennent pas non valides. La page Rsum du cluster dans vSphere Client prsente la liste des problmes de configuration des clusters. La liste dtaille les causes de la non validit d'un cluster ou de son affectation excessive (jaune). Le comportement DRS n'est pas affect par le fait qu'un cluster soit rouge cause d'un problme li VMware HA.

28

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Vrification de l'tat oprationnel du clusterUn cluster ou ses htes peuvent connatre des problmes de configuration et d'autres erreurs qui nuisent au bon fonctionnement de VMware HA. Vous pouvez vrifier ces erreurs sur l'cran tat oprationnel de cluster qui est accessible dans vSphere Client, sous la rubrique VMware HA de l'onglet [Rsum] du cluster. Vous devez rsoudre tous les problmes rpertoris.

Meilleures pratiques de mise en rseauVMware met quelques recommandations relatives la configuration des cartes d'interface rseau htes et de la topologie du rseau pour VMware HA. Les meilleures pratiques incluent des recommandations pour vos htes ESX/ESXi, et traitent aussi du cblage, des commutateurs, des routeurs et des pare-feu.

Configuration et maintenance du rseauLes suggestions suivantes de maintenance du rseau contribuent viter la dtection accidentelle d'htes dfectueux et une isolation rseau cause de la perte de signaux de pulsation VMware HA.n

En cas de modification des rseaux sur lesquels se trouvent les htes ESX/ESXi en clusters, VMware recommande de suspendre la fonction de surveillance d'hte. Les changements de matriel ou de paramtres rseau peuvent interrompre les signaux de pulsation utiliss par VMware HA pour dtecter les dfaillances d'htes, ce qui risque d'entraner des tentatives malvenues de basculement des machines virtuelles. Lorsque vous modifiez la configuration rseau directement sur les htes ESX/ESXi, par exemple, pour ajouter des groupes de port ou pour supprimer des vSwitches, VMware recommande de placer l'hte en mode maintenance en plus de suspendre sa surveillance.

n

REMARQUE Comme la mise en rseau est un aspect essentiel de VMware HA, l'administrateur de VMware HA doit tre tenu inform de toute maintenance du rseau.

Rseaux utiliss pour les communications VMware HAPour identifier les oprations rseau qui risquent de perturber le bon fonctionnement de VMware HA, il est ncessaire d'identifier les rseaux de gestion utiliss pour les pulsations et d'autres communications VMware HA.n

Sur les htes ESX du cluster, les communications VMware HA sont achemines via tous les rseaux qui sont identifis comme rseaux de console de service. Les rseaux VMkernel ne sont pas utiliss par ces htes pour les communications VMware HA. Sur les htes ESX du cluster, les communications VMware HA sont achemines par dfaut via tous rseaux VMkernel sauf ceux spcifiques vMotion. S'il n'y a qu'un seul rseau VMkernel, VMware HA le partage avec vMotion, si ncessaire. Avec ESXi 4.0 et version ultrieure, il faut aussi cocher explicitement la case Gestion de rseau si VMware HA doit utiliser ce rseau.

n

Considrations lies au rseau au niveau du clusterPour le bon fonctionnement de VMware HA, tous les htes du cluster doivent avoir des rseaux compatibles. Le premier nud ajout au cluster impose les rseaux devant tre accepts par tous les htes suivants autoriss entrer dans le cluster. Les rseaux sont considrs comme compatibles lorsque la combinaison de l'adresse IP et du masque de sous-rseau produit un rseau dont la combinaison correspond celle d'un autre hte. Si vous essayez d'ajouter un hte ayant trop ou pas assez de rseaux de gestion ou si l'hte ajout a des rseaux incompatibles, la configuration choue et le panneau Dtails de la tche fournit des informations sur cette incompatibilit.

VMware, Inc.

29

Guide de disponibilit vSphere

Par exemple, si le premier hte ajout dans le cluster comporte deux rseaux utiliss pour les communications VMware HA (10.10.135.0/255.255.255.0 et 10.17.142.0/255.255.255.0), les deux mme rseaux doivent tre configurs sur tous les htes suivants et utiliss pour les communications VMware HA.

Adresses d'isolation rseauUne adresse d'isolation rseau est une adresse IP qui reoit une commande ping pour dterminer si un hte est isol du rseau. Le ping est uniquement envoy cette adresse lorsqu'un hte a cess de recevoir les signaux de pulsation de tous les autres htes du cluster. Si un host peut envoyer un ping son adresse d'isolation rseau, l'hte n'est pas isol du rseau et les autres htes du cluster ont chou. Mais si l'hte ne peut pas envoyer de ping son adresse d'isolation, il est probable que l'hte ait t isol du rseau et aucune action de basculement n'est entreprise. L'adresse d'isolation rseau est la passerelle par dfaut de l'hte. Une seule passerelle est dfinie par dfaut, quel que soit le nombre de rseaux de gestion dfinis. Par consquent, il faut utiliser l'attribut avanc das.isolationaddress[...] pour ajouter des adresses d'isolation pour des rseaux supplmentaires. Reportezvous Attributs avancs de VMware HA , page 26. Lorsque vous dfinissez des adresses d'isolation supplmentaires, VMware recommande d'augmenter la valeur de l'attribut avanc das.failuredetectiontime 20 000 millisecondes (20 secondes) ou d'avantage. Un nud isol du rseau a besoin d'un certain dlai pour lever le verrouillage VMFS de sa machine virtuelle si la rponse d'isolation de l'hte est de basculer les machines virtuelles (et non de les laisser allumes). Cela doit se produire avant que les autres nuds ne dclarent que le nud a chou, de faon ce qu'ils puissent allumer les machines virtuelles sans recevoir de message d'erreur indiquant que les machines virtuelles sont toujours verrouilles par le nud isol. Pour plus d'informations sur les attributs avanc VMware HA, voir Personnalisation du comportement de VMware HA , page 26.

Autres considrations sur la mise en rseauConfiguration des commutateurs. Si les commutateurs rseau physiques qui relient les serveurs prennent en charge le paramtre PortFast (ou quivalent), activez-le. Ce paramtre empche un hte de se tromper en dterminant qu'un rseau est isol au cours de l'excution de longs algorithmes STA. Pare-feu d'htes Sur les htes ESX/ESXi, VMware HA doit ouvrir automatiquement les ports de pare-feu suivants.n n

Port entrant : TCP/UDP 8042-8045 Port sortant : TCP/UDP 2050-2250

Noms de groupes de ports et tiquettes rseau. Utilisez des noms de groupes de ports cohrents et des tiquettes rseau sur les VLAN des rseaux publics. Les noms de groupes de ports permettent de reconfigurer l'accs au rseau par les machines virtuelles. Si vous utilisez des noms incohrents entre le serveur d'origine et le serveur de basculement, les machines virtuelles sont dconnectes de leur rseau aprs le basculement. Les tiquettes rseau sont utilises par les machines virtuelles pour rtablir la connectivit rseau au redmarrage.

Redondance des chemins d'accs de rseauLa redondance des chemins d'accs entre les nuds de cluster est importante pour la fiabilit de VMware HA. Un rseau de gestion isol finit par tre un point de panne isol, ce qui aboutit des basculements mme si le rseau uniquement est dfectueux. S'il n'y a qu'un seul rseau de gestion, toute dfaillance entre l'hte et le cluster peut provoquer une situation de basculement inutile (ou errone). Les dfaillances possibles incluent les pannes de cartes rseau, les pannes de cbles rseau, la suppression de cbles rseau et les rinitialisations de commutateurs. Examinez ces causes possibles de dfaillances entre les htes et efforcez-vous de les minimiser en prvoyant la redondance du rseau.

30

VMware, Inc.

Chapitre 2 Cration et utilisation des clusters VMware HA

Il est possible d'implmenter la redondance du rseau au niveau de l'association de cartes rseau, ou au niveau rseau de gestion. Dans la plupart des implmentations, l'association des cartes rseau offre une redondance suffisante, mais il est possible d'utiliser ou d'ajouter au besoin la redondance de rseau de gestion. La mise en rseau de gestion redondante garantit la fiabilit de la dtection des pannes et vite la ralisation de conditions d'isolation car les signaux de pulsation peuvent tre transmis via plusieurs rseaux. Configurez un nombre aussi rduit que possible de segments matriels entre les serveurs d'un cluster. L'objectif est de limiter les points de panne isols. De plus, les chemins contenant trop de bonds peuvent provoquer des retards de paquets de signaux de pulsation et augmenter les points de panne ventuels.

Redondance par association de cartes rseauL'utilisation d'une association de deux cartes rseau connectes pour sparer les commutateurs physiques amliore la fiabilit d'un rseau de gestion. Le cluster est plus rsilient car les serveurs connects par deux cartes rseau (et par des commutateurs spars) ont deux chemins indpendants pour la transmission et la rception de signaux de pulsation. Pour configurer une association de cartes rseau pour rseau de gestion, configurez les vNIC de la configuration vSwitch pour la configuration Active ou Standby. Les rglages recommands pour les paramtres des vNIC sont les suivants :n n

quilibrage de charge par dfaut = Router en fonction de l'ID du port d'origine Retour arrire = Non

Lorsque vous avez ajout un adapteur rseau l'hte de votre cluster VMware HA, vous devez reconfigurer VMware HA sur cet hte.

Redondance rseau utilisant un rseau secondaireAu lieu d'associer des cartes rseau pour assurer la redondance des signaux de pulsation, vous pouvez crer une connexion de rseau de gestion secondaire qui est lie un commutateur virtuel distinct. La connexion de rseau de gestion principale est utilise pour le rseau et des fins de gestion. Lorsque la connexion de rseau de gestion secondaire est cre, VMware HA transmet des signaux de pulsation la fois sur les connexions de rseau de gestion principales et secondaires. Si un chemin est dfaillant, VMware HA peut continuer transmettre et recevoir des signaux de pulsation sur l'autre chemin.

VMware, Inc.

31

Guide de disponibilit vSphere

32

VMware, Inc.

Fourniture de la tolrance aux pannes des machines virtuelles

3

Il est possible d'activer VMware Fault Tolerance pour les machines virtuelles afin d'assurer la continuit d'activit avec des niveaux de disponibilit et de protection des donnes suprieurs ceux offerts par VMware HA. La tolrance aux pannes est intgre la plate-forme hte ESX/ESXi (par la technologie VMware vLockstep) et elle assure la continuit de la disponibilit en excutant des machines virtuelles identiques en mode rigide virtuel sur des htes distincts. Pour obtenir des rsultats optimums de la tolrance aux pannes, il est ncessaire d'en comprendre le fonctionnement, de savoir comment l'activer sur un cluster et sur des machines virtuelles, de connatre les recommandations d'usage et les conseils de dpannage. Ce chapitre aborde les rubriques suivantes :n n n n n n n n n n n

Fonctionnement de la tolrance aux pannes , page 33 Utilisation de la tolrance aux pannes avec DRS , page 35 Cas d'utilisation de tolrance aux pannes , page 35 Liste de vrification de tolrance aux pannes , page 36 Interoprabilit de la tolrance aux pannes , page 37 Prparation du cluster et des htes la tolrance aux pannes , page 39 Fourniture de la tolrance aux pannes des machines virtuelles , page 43 Affichage des informations sur les machines virtuelles tolrantes aux pannes , page 45 Recommandations relatives la tolrance aux pannes , page 46 Recommandations de configuration de la tolrance aux pannes par VMware , page 49 Dpannage de la tolrance aux pannes , page 49

Fonctionnement de la tolrance aux pannesVMware Fault Tolerance assure la disponibilit continue des machines virtuelles en crant et maintenant une VM secondaire identique la VM primaire et disponible en permanence pour la remplacer en cas de situation de basculement. Il est possible d'activer la tolrance aux pannes sur la plupart des machines virtuelles cruciales pour une mission. Une copie de la machine virtuelle, qui se nomme la machine virtuelle secondaire, est cre et excute en mode rigide virtuel avec la machine virtuelle principale. VMware vLockstep capture les entres et les vnements qui se produisent sur la machine virtuelle principale et les transmet celle de la machine virtuelle

VMware, Inc.

33

Guide de disponibilit vSphere

secondaire qui est excute sur un autre hte. partir de ces informations, l'excution de la machine virtuelle secondaire est identique celle de la machine virtuelle principale. Comme la machine virtuelle secondaire est en mode rigide virtuel avec la machine virtuelle principale, elle peut reprendre l'excution tout moment sans interruption, assurant ainsi une protection tolrante aux pannes. Figure 3-1. Machine virtuelle principale et machine virtuelle secondaire dans une paire avec tolrance aux pannesprimaire applications systmes d'exploitation client systme VMware client ENREGISTREMENT RPTITION vnements non dterministes vnements non dterministes Entre (rseau, utilisateur), Rsultat = reproductible E/S asynchrone (disque, excution de la machine virtuelle priphriques) temporisateur CPU vnements secondaire applications systmes d'exploitation client systme VMware

journalisation du trafic

Les machines virtuelles principale et secondaire changent des heartbeats en continu. Cet change permet la paire de machines virtuelles de contrler mutuellement leur tat pour assurer le maintien permanent de la tolrance aux pannes. Un basculement transparent se produit en cas de dfaillance de l'hte sur lequel la machine virtuelle principale est excute. Dans ce cas, la machine virtuelle secondaire est immdiatement active pour remplacer la machine virtuelle principale. Une nouvelle machine virtuelle secondaire dmarre et la redondance de la tolrance aux pannes est rtablie en quelques secondes. Si l'hte de la machine virtuelle secondaire devient dfectueux, il est aussi immdiatement remplac. Dans l'un ou l'autre cas, les utilisateurs ne constatent aucune interruption de service ni perte de donnes. Une machine virtuelle tolrante aux pannes et sa copie secondaire ne sont pas autorises fonctionner sur le mme hte. Cette restriction garantit qu'une dfaillance de l'hte ne peut pas entraner la perte des deux machines virtuelles. Vous pouvez aussi utiliser les rgles d'affinit entre machine virtuelle et hte pour prciser les htes sur lesquels certaines machines virtuelles peuvent tre excutes. Si vous utilisez ces rgles, souvenezvous que pour chaque machine virtuelle principale affecte par une rgle prcise, la machine virtuelle secondaire qui y est associe est aussi affecte par la mme rgle. Pour plus d'informations sur les rgles d'affinit, reportez-vous au Guide de gestion des ressources. La tolrance aux pannes vite les situations de division qui peuvent rsulter en deux copies actives d'une machine virtuelle aprs la reprise suite un dysfonctionnement. Le verrouillage atomique des fichiers sur les stockages partags est utilis pour coordonner le basculement de faon ce qu'un ct seulement continue excuter la machine virtuelle principale et une nouvelle machine virtuelle secondaire est automatiquement raffecte. REMARQUE Le contrle anti-affinit est effectu la mise sous tension de la machine virtuelle principale. Les machines virtuelles principales et secondaires peuvent tre sur les mme htes lorsqu'elles sont toutes deux hors tension. C'est un comportement normal. Quand la machine virtuelle principale s'allume, la machine virtuelle secondaire est dmarre sur un hte diffrent.

34

VMware, Inc.

Chapitre 3 Fourniture de la tolrance aux pannes des machines virtuelles

Utilisation de la tolrance aux pannes avec DRSVous pouvez utiliser VMware Fault Tolerance avec VMware Distributed Resource Scheduler (DRS) quand la fonction Compatibilit amliore de vMotion (EVC) est active. Ce processus permet aux machines virtuelles tolrantes aux pannes de bnficier d'un meilleur placement initial et d'tre incluses dans les calculs d'quilibrage de charge du cluster. Quand EVC est activ pour un cluster, DRS met les recommandations de placement initiales pour les machines virtuelles tolrantes aux pannes, les dplace pendant le rquilibrage de la charge du cluster et vous autorise attribuer un niveau d'automatisation DRS aux machines virtuelles principales (la machine virtuelle secondaire adopte toujours le mme paramtre que la machine virtuelle principale associe). Pour plus d'informations sur EVC, reportez-vous au Guide d'administration du centre de donnes VMware vSphere. DRS ne place pas plus d'un nombre prdfini de machines virtuelles principales ou secondaires sur un hte au cours du placement initial ou de l'quilibrage de charge. Cette limite est contrle par l'option avance das.maxftvmsperhost. La valeur par dfaut de cette option est de 4. Mais si vous choisissez une valeur nulle, DRS ignore cette restriction. Quand VMware Fault Tolerance est utilis pour les machines virtuelles d'un cluster pour lequel EVC est dsactiv, les machines virtuelles tolrantes aux pannes reoivent des niveaux d'automatisation DRS "dsactivs". Dans ce type de cluster, chaque machine virtuelle principale est uniquement mise sous tension sur son hte enregistr, sa machine virtuelle secondaire est place automatiquement et aucune des machines virtuelles tolrantes aux pannes n'est dplace pour l'quilibrage de charge. Si vous utilisez des rgles d'affinit avec deux machines virtuelles tolrantes aux pannes, une rgle d'affinit VM-VM s'applique uniquement la machine virtuelle principale, tandis qu'une rgle d'affinit machine virtuelle-hte s'applique la fois la machine virtuelle principale et sa machine virtuelle secondaire.

Cas d'utilisation de tolrance aux pannesPlusieurs situations typiques peuvent bnficier de l'utilisation de VMware Fault Tolerance. La tolrance aux pannes assure un meilleur niveau de continuit d'activit que VMware HA. Lorsqu'une machine virtuelle secondaire doit intervenir pour remplacer son homologue, la machine virtuelle principale, la machine virtuelle secondaire joue immdiatement le rle de machine virtuelle principale, la totalit de l'tat de la machine virtuelle tant prserv. Les applications sont dj en cours d'excution et les donnes conserves en mmoire ne doivent pas tre ressaisies ou recharges. Ce n'est pas le cas du basculement assur par VMware HA qui redmarre les machines virtuelles affectes par un dysfonctionnement. Ce haut niveau de continuit et la meilleure protection des informations d'tats et des donnes informe les scnarios du dploiement possible de la tolrance aux pannes.n

Les applications qui doivent tre disponibles en permanence, surtout celles prsentant des connections longues dures de clients que les utilisateurs veulent conserver pendant la dfaillance matrielle. Applications personnalises qui n'ont pas d'autres moyens de former un cluster. Cas o la grande disponibilit peut tre assure par des solutions de formation de cluster personnalises qui sont trs compliques configurer et entretenir.

n n

Tolrance aux pannes