Auteur |
Message |
Genzo
Modérateur
Sexe:
Messages: 1706
Localisation: Sartrouville (78)
|
Posté le:
Mar 28 Fév 2006 - 19:42 |
|
Fait acablant cet après midi, vers 14h45, la majeure partie du réseau Internet hébergé en France s'est vu privé l'électrecité.
C'est simple, les sites sont tous chez des hébergeurs (comme OVH, sivit, amen, nfrance pour ne citer qu'eux). Ces hébergeurs louent des emplacements dans des énormes datacenters, des hébergeurs d'hébergeurs.
RedBus est l'un dentre eux, il se situe à Paris Courbevoie. Le centre a été conçu pour fournir au marché français une infrastructure d'hébergement de données s'appuyant sur les toutes dernières technologies en matière de sécurité, d'alimentation, de caractéristiques techniques et de salles de réunions.
Aujourd'hui, il semble que vers 14h45 le centre soit tombé suite à deux coupures de courant successives, encore inexpliquées. Bon nombre de serveurs sont out. Il va falloir du temps pour tout redémarrer. Sans compter les dégâts que peut faire une coupure de courant sur un serveur dédié. Il est à prévoir des travaux de maintenance pour de nombreux webmasters.
Habituellement, ce genre d'installation possède beaucoup de sécurités pour éviter ce genre de désagréments. On apprendra sûrement très bientôt comment ces coupures ont pu avoir lieu.
http://www.echosdunet.net/news/index.php?id_news=1951
Je trouve que ça fait sacrément flipper. |
_________________ N'oubliez pas de mettre un avis sur votre lycée/centre de formation !!! Pensez aux futurs BTSiens. Merci |
|
|
|
N'oubliez pas de vous inscrire à la communauté pour participer. Si vous êtes déjà membre, connectez-vous pour faire disparaître ce bandeau publicitaire. |
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mar 28 Fév 2006 - 19:47 |
|
Ca va couter cher, surtout vis à vis des contrats de service avec les clients finaux s'ils ont un SLA.
Car pour beaucoup, les applis doivent être dispo 99.9, 99.99, voire même 99.999% du temps.
PS: Web-IG semble debout ^^ (Il est dans le Datacenter privé d'OVH) |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
mrmabo
Accro à Web-IG
Sexe:
Messages: 226
Localisation: Amiens
|
Posté le:
Mar 28 Fév 2006 - 21:02 |
|
et ben ouais c'est flippant tout ceci !!!
même si les sécu sont au max cela laisse imaginé le pire si moultes gros centre comme celui ci venaient a tomber |
|
|
|
|
Genzo
Modérateur
Sexe:
Messages: 1706
Localisation: Sartrouville (78)
|
Posté le:
Mar 28 Fév 2006 - 21:07 |
|
D'après une information interne de Redbus, l'erreur serait... humaine.
Et un nouveau chomeur. |
_________________ N'oubliez pas de mettre un avis sur votre lycée/centre de formation !!! Pensez aux futurs BTSiens. Merci |
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mar 28 Fév 2006 - 21:55 |
|
Genzo a écrit: |
D'après une information interne de Redbus, l'erreur serait... humaine.
Et un nouveau chomeur. |
Comme dirait l'ancien big chez à mon taff: "sur le parking".
C'est clair que lui il va prendre cher, car vla les millions d'€ que ca va couter (encore les assurances qui vont payer pour ca). |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Mar 28 Fév 2006 - 22:27 |
|
Vincent a écrit: |
Ca va couter cher, surtout vis à vis des contrats de service avec les clients finaux s'ils ont un SLA.
Car pour beaucoup, les applis doivent être dispo 99.9, 99.99, voire même 99.999% du temps. |
Oh que non, ils ont fait encore mieux niveau SLA RedBus
Code: |
Toute notre infrastructure est construite sur un standard d'au moins N+1, ce qui signifie simplement que si 2 générateurs sont requis pour fournir une puissance non stop, alors, nous en installerons trois. Alors plutôt que de garantir 99,99% de disponibilité, nous en garantissons 100%. |
Enfin un gros truc comme ça était pas arrivé de mémoire depuis la coupure générale du datacenter privé d'ovh |
_________________ Zonag |
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mar 28 Fév 2006 - 22:48 |
|
Zonag a écrit: |
Oh que non, ils ont fait encore mieux niveau SLA RedBus
Code: |
Toute notre infrastructure est construite sur un standard d'au moins N+1, ce qui signifie simplement que si 2 générateurs sont requis pour fournir une puissance non stop, alors, nous en installerons trois. Alors plutôt que de garantir 99,99% de disponibilité, nous en garantissons 100%. |
Enfin un gros truc comme ça était pas arrivé de mémoire depuis la coupure générale du datacenter privé d'ovh |
J'avoue que c'est de la connerie de faire un SLA comme ca.
Car même s'ils sont blindés techniquement, ils ont omis une faille de taille: le personnel. Même avec le meilleur des personnels, t'es jamais à l'abris d'une erreur, et à moins de renforcer la sécurité à ce niveau la (accès restreint aux aspects critiques, vérifications supplémentaires en cas de manoeuvre risquée ...) c'est impossible d'être certain qu'il n'y aura pas de défaillance. |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Mar 28 Fév 2006 - 22:55 |
|
Bah meme au dela du personnel ... Un équipement, quel qu'il soit, fiable à 100% ça existe pas.
A force de vouloir faire de la pub aguicheuse, ils vont y perdre des plumes |
_________________ Zonag |
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mar 28 Fév 2006 - 22:56 |
|
Zonag a écrit: |
Bah meme au dela du personnel ... Un équipement, quel qu'il soit, fiable à 100% ça existe pas.
|
Ils se basent sur la redondance.
Mais bon, avoir 3 groupes electrogène quand 2 suffisent, ben si y'en a 2 qui crament, ce qui n'est pas impossible, ils sont un peu à la rue. |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Mar 28 Fév 2006 - 23:21 |
|
Meme avec de la redondance, une panne est toujours possible !
C'est bien beau d'avoir 2 groupes électrogènes, si c'est l'inverseur de source qui tombe en panne t'est marron ... |
_________________ Zonag |
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mar 28 Fév 2006 - 23:43 |
|
Zonag a écrit: |
Meme avec de la redondance, une panne est toujours possible !
C'est bien beau d'avoir 2 groupes électrogènes, si c'est l'inverseur de source qui tombe en panne t'est marron ... |
T'en a 2 aussi.
Bon exemple concret y'a un mois au taff.
Au niveau d'une baie de disques, une carte controleur HS, donc changement planifié le soit vers 20h, sachant que 0 impact, car l'autre marche encore. Je sais pas quelle couille y'a eu, ca c'est terminé avec un mail d'un chef à la con qui dit que tel et tel serveur va être coupé.
Résultat j'ai un serveur de prod sur lequel j'avais une consolidation de cube qui tournait depuis 40 heures qui a été arrêté. Et le jour même un mec des études me parle de ce serveur en me demandant tout les combien de temps on le rebootait. Je regarde: uptime de 249 jours. Je lui dit: je vais voir pour éventuellement planifier un reboot. Du coup plus besoin |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Mer 01 Mar 2006 - 00:50 |
|
Vincent a écrit: |
T'en a 2 aussi. |
Hum ... C'est pas si simple. Tu prend le risque que tout pete avec un truc comme ça ...
Vincent a écrit: |
Bon exemple concret y'a un mois au taff.
Au niveau d'une baie de disques, une carte controleur HS, donc changement planifié le soit vers 20h, sachant que 0 impact, car l'autre marche encore. Je sais pas quelle couille y'a eu, ca c'est terminé avec un mail d'un chef à la con qui dit que tel et tel serveur va être coupé.
Résultat j'ai un serveur de prod sur lequel j'avais une consolidation de cube qui tournait depuis 40 heures qui a été arrêté. Et le jour même un mec des études me parle de ce serveur en me demandant tout les combien de temps on le rebootait. Je regarde: uptime de 249 jours. Je lui dit: je vais voir pour éventuellement planifier un reboot. Du coup plus besoin |
C'est ballot ! |
_________________ Zonag |
|
|
|
Luna
Modérateur
Sexe:
Messages: 869
Localisation: Compiègne
|
Posté le:
Mer 01 Mar 2006 - 00:54 |
|
Arrêtez de parler de malheur c'est une semaine qui a mal commencé... j'espère que ça s'arrêtera avec ces coupures électriques.
Enfin bon, il faut voir les bons côtés non ?! Ma prochaine facture sera moins élevée (lol)
Si l'erreur humaine c'est l'idiot (bien flemmard en plus) que j'ai eu au tel à midi, ça ne m'étonne pas...
Sur ce, je vais enfin me coucher.
Peut-être que demain j'aurai plus d'info sur "l'erreur humaine"
Bonne nuit les gens. |
|
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Mer 01 Mar 2006 - 01:13 |
|
Luna a écrit: |
Peut-être que demain j'aurai plus d'info sur "l'erreur humaine"
|
Je compte sur toi pour nous donner des infos croustillantes en exclusivité si tu en a. |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Luna
Modérateur
Sexe:
Messages: 869
Localisation: Compiègne
|
Posté le:
Jeu 02 Mar 2006 - 20:04 |
|
Bon et bien je viens de recevoir le rapport de Redbus (via mon fournisseur de transit IP) et l'erreur humaine est le type chargé de la maintenance des batteries.
J'ai un peu la flemme de vous recopier toute l'histoire (c'est un pdf) donc si ça intéresse vraiment je mettrai le fichier en ligne plus tard.
Là je dois filer. |
|
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Ven 03 Mar 2006 - 11:01 |
|
Le voici : http://tifrere.com/Redbus_IncidentReport_060228_FR.pdf
Et comme j'ai lu sur un NG à propos de cet incident :
Citation: |
Le rapport d'incident vient de tomber, une belle démonstration de la Loi de Murphy, et même de plusieurs de ses variantes, puisqu'au début on a "siquelqu'un peut faire une connerie, alors il la fera", puis on a droit au "si un incident peut arriver, alors il arrivera au pire moment, en général en même temps que d'autres incidents" |
|
_________________ Zonag |
|
|
|
Vincent
Webmaster
Sexe:
Messages: 5584
Localisation: Montpellier
|
Posté le:
Dim 26 Mar 2006 - 16:19 |
|
Et hop, recoupure de courant en ce moment chez Redbus |
_________________ Hey les amis, pensez à suivre @webig sur Twitter, et pourquoi pas me suivre moi @cybervince |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Dim 26 Mar 2006 - 18:53 |
|
Enfin si il y en avait qu'une ... |
_________________ Zonag |
|
|
|
Zonag
Modérateur
Sexe:
Messages: 1298
Localisation: Toulouse
|
Posté le:
Dim 26 Mar 2006 - 23:55 |
|
|
_________________ Zonag |
|
|
|
Genzo
Modérateur
Sexe:
Messages: 1706
Localisation: Sartrouville (78)
|
Posté le:
Lun 27 Mar 2006 - 08:19 |
|
Je dirai même trois coupures de courant :
http://forum.web1.fr/read.php?f=2&i=6284&t=6284 a écrit: |
Redbus Interhouse, le datacenter qui héberge nos serveurs a subi plusieurs coupures électriques générales d'une grande gravité dans la journée de dimanche 26 Mars 2006.
1ère coupure :
Début de la panne aux alentours de 10h50.
Cette première coupure serait liée à un dysfonctionnement du disjoncteur du circuit EDF chez RedBus.
Fin de la coupure aux alentours de 11h30.
Les équipements étaient alors alimentés en 220V grace aux onduleurs et à deux groupes électrogènes de secours. Les services NFrance ont pu etre alors relancés peu à peu par nos équipes techniques après toutes les vérifications de disques nécessaires.
2 ème coupure :
Début de la panne aux alentours de 14h30.
La totalité du datacenter était alors alimentée depuis la première coupure par 2 groupes lorsque l'un des groupes électrogène a mal fonctionné. Les onduleurs qui n'avaient pas eu le temps de se charger totalement depuis la première coupure n'ont pas pu faire leur travail le temps de la mise en route du troisième groupe de secours.
Fin de la coupure aux alentours de 14h40.
Meme si la fourniture en 220V a pu etre rétablie grace au troisième groupe de secours, les onduleurs étant hors circuit, il a été difficile d'obtenir une tension stable. La tension pouvait varier de façon trop importante. Afin de ne pas endommager inutilement le matériel, NFrance a décidé sur les conseils de Redbus de ne pas remettre en ligne les serveurs jusqu'à ce que la fourniture soit assez stable pour les équipements.
3 ème coupure :
Début de la panne aux alentours de 17h00.
La coupure serait cette fois liée à la remise en route des onduleurs pour satisfaire une fourniture en 220V stable.
Fin de la coupure aux alentours de 17h05.
La fourniture en 220V a pu etre rétablie de manière stable. L'équipe technique NFrance a pu alors relancer peu à peu une partie des serveurs selon les recommandations de RedBus a limiter aux maximum la consommation électrique. |
Et ils se permettent de donner comme conseil de relancer peu à peu les serveurs, pour pas bouffer trop de courant... |
_________________ N'oubliez pas de mettre un avis sur votre lycée/centre de formation !!! Pensez aux futurs BTSiens. Merci |
|
|
|
|