Par Frédéric Favelin Responsable R&D chez CELESTE
Il n’y a pas de norme en ce qui concerne la durée d’une interruption de service. Cela dépend du contexte et de la criticité de l’application. Par exemple un système de navigation embarqué dans un avion sera conçu pour avoir une période d’indisponibilité de 5 minutes par an, alors que le site l’application de facturation d’une entreprise sera conçu pour une période d’indisponibilité d’une journée par an.
Définition
On définit la haute disponibilité comme un système permettant d’assurer une continuité opérationnelle d’un service sur une période donnée. Pour mesurer la disponibilité, on utilise une échelle qui est composée de 9. Un service Hautement Disponible est 99% disponible soit moins de 3,65 jours par an.
Afin de calculer la disponibilité, les métriques suivantes sont utilisées:
1.MTBF (Mean Time Between Failure): mesure du temps estimé entre 2 défaillances d’un système.
2.MTTR (Mean Time to Resolution): mesure du temps estimé pour restaurer la fonctionnalité.
La formule de calcul de disponibilité est: Disponibilité = MTBF / (MTBF + MTTR)
Internet et la Haute Disponibilité
Dans de plus en plus d’entreprise, Internet ce situe au cœur de l’activité, le besoin de disponibilité est donc constant. En effet, ce média est utilisé tout autant pour communiquer vers l’extérieur mais sert aussi de support pour de nombreuses applications de l’entreprise (CRM, ERP, etc.) ou encore la téléphonie.
Il convient donc de distinguer le besoin de l’entreprise de garder ces services disponibles pour ses clients, et de préserver les besoins internes de l’entreprise.
La disponibilité des services dépendant d’internet de l’entreprise pour ses clients
L’un des exemples le plus parlant sont les sites web des entreprises, qui sont aujourd’hui au centre de la communication et du métier des entreprises.
La haute disponibilité des sites web est organisée autour de différents axes qui peuvent être primordiaux:
-la redondance des matériels,
-les localisations des matériels,
-l’application des mises de sécurité des applications serveurs,
-la sécurisation du réseau de l’entreprise,
-la disponibilité permanente de solution de sauvegarde/secours/reprise sur incident,
-le dimensionnement en puissance des matériels.
Redondance…
La redondance est le mécanisme qui permet de dupliquer un ou plusieurs composant d’une architecture par un ou plusieurs éléments identiques. Avoir n serveur sur x site permettra une redondance de l’information, avec un risque de panne divisé par x+n…
Toutefois il faut des systèmes qui permettent de basculer automatiquement d’un site à l’autre. Les systèmes les plus couramment mis en œuvre afin d’assurer cette redondance sont les clusters.
Les clusters peuvent être actif/passif ou actif/actif, le premier cas représente un groupe de machine de secours sur lequel on basculera l’infrastructure, alors qu’un système actif/actif permettra d’avoir les deux systèmes en fonctionnement en parallèle, mais un seul des deux matériels peut fonctionner en solo.
Le maintien des applications
Les applications possèdent des bugs, la résolution par la mise à jour permet de corriger les défauts, et ainsi éviter que des personnes malveillantes explorent une faille qui permettrait l’accès a aux informations de l’entreprise.
La reprise sur incident
Il s’agit d’un plan qui permet de reprendre une activité totale ou partielle suite à un sinistre survenu sur le système d’information. Le but de ce plan est de minimiser l’impact du sinistre sur l’activité de l’entreprise.
Les points essentiels dans un plan de reprise sont:
-la sauvegarde des équipements
-la disponibilité de machines de secours
-des solutions de secours, avec mode dégradé (en qualité de service) ex.: un lien de backup avec un débit plus petit
Mise en application: la disponibilité d’internet pour l’entreprise
De plus en plus d’applications demandent une haute disponibilité d’internet pour fonctionner… Le fonctionnement d’internet (voir article sur le lab CELESTE) mais surtout des connections à Internet d’assurer la pleine disponibilité de celui-ci « naturellement ».
Toutefois des solutions permettent de limiter fortement le risque de panne ou de dégradation de services:
-plusieurs connections internet passant par des points terrestres différents
-la disponibilité permanente d’une solution de sauvegarde/secours/reprise sur incident (mode transparent).
-GTR
-Débit garanti
Avoir n connections internet
Avoir deux connections internet passant par deux localisations terrestre différentes peut permettre de sécuriser les connexions à internet. En cas de panne d’une des lignes, le trafic est routé/redirigé automatiquement sur la seconde.La présence de deux routeurs en mode actif/passif est un pour la redondance du système.
Avoir un plan de secours..
En cas de panne du matériel, le matériel peut être redonder dans infrastructure de l’opérateur et le matériel fonctionner de manière transparente en cas de panne, et comme précédemment; la présence de deux routeurs un plus pour la redondance du
système.
GTR
La GTR est la garantie du temps de rétablissement d’un lien de données suite à une interruption de service. Cette GTR doit garantir le temps de rétablissement optimum pour que l’interruption de service soit la moins pénalisante pour l’entreprise.
Une GTR de 4 heures sera l’option idéale pour de la téléphonie ou un VPN d’entreprise qui servira de support pour un ERP/CRM.
Débit garanti
Même si le service internet n’est pas totalement interrompu, mais se trouve très fortement altéré, il faut s’assurer auprès de son fournisseur de service d’avoir un débit garanti. Cela est d’autant plus important en cas de téléphonie IP. Une altération de la qualité du lien aura comme conséquence directe une baisse de la qualité de la communication téléphonique. Même s’il est évident pour une lien fibre ou SDSL d’avoir un débit garanti, pour un lien ADSL, un canal prioritaire peut être configuré afin de
s’assurer d’avoir un minimum de bande passante pour une application telle
que la téléphonie.
Afin de fournir un service hautement disponible, il faut s’assurer que l’infrastructure permettant la fourniture de ce service soit fonctionnelle 100% du temps. Dans cet article nous nous sommes essentiellement concentré sur les liens internet, mais il ne faut pas oublier l’énergie, la climatisation, les serveurs, etc.
La criticité ou le taux de disponibilité nécessaire d’une application ou d’un service guide le choix de la stratégie pour la mise en œuvre de la solution haute disponibilité.