Dicas Cloud: A verdade por trás da nuvem global da Microsoft Azure mega-cock-up

sexta-feira, 8 de novembro de 2013

A verdade por trás da nuvem global da Microsoft Azure mega-cock-up

Regcast livre: Dispositivos de Gerenciamento de Multi-Vendor com System Center 2012

Windows Azure sofreu um colapso mundial no final de outubro, que nos levou a questionar se a Microsoft tivesse efetivamente particionado fora pedaços da nuvem um do outro. Agora temos algumas respostas.

Depois de um pouco de insistência, Redmond sentou conosco com o Windows Azure gerente geral Mike Neil, que nos explicou por que um sub-componente do sistema falha em todo o mundo na semana passada.

"Há três verdades da nuvem - máquinas vão falhar, o software tem bugs, as pessoas vão cometer erros", disse ele.

O truque consiste em construir o seu sistema em nuvem para que os usuários finais não perceber essas falhas, mas quando todo mundo experimenta uma oscilação de todo o mundo em seu serviço, é difícil afirmar , como a Microsoft faz, que "Windows Azure fornece infraestrutura sob demanda que as escalas."

O problema que se abateu sobre Azure colocar o "Red Dog front end" ( RDFE ), que fornece o portal de gerenciamento exposto publicamente ea API de gerenciamento de serviços. Solicitações dos usuários são alimentados através da RDFE para o front-end de tecido, que dispersa as solicitações através de agregadores e balanceadores de carga para controladores de tecido que dirigem máquinas virtuais da nuvem e outros recursos.

A Microsoft fez uma alteração no RDFE que testado em uma pequena porcentagem de nós dentro de um único cluster. Ao ver sem problemas, a empresa empurrou-o para fora em todo o mundo.

"Estávamos vendo bons resultados e, então, rolou-a de forma mais ampla", disse Neil. Quando a atualização foi global, a empresa detectou "um pequeno número de clientes que têm problemas com swap."

O swap de recurso permite que administradores de mover máquinas virtuais de teste para a produção. É um serviço menor, mas alguns clientes foram afetados (e que El Reg falou foi um pouco ofendido com o impacto).

O problema fundamental é que esta falha, no entanto "intermitente", ocorreu em todas as regiões da Microsoft, causando assim a interrupção em todo o mundo, porque RDFE se transformou em um ponto único de falha no Azure - tudo graças ao update problemático.

"Um dos problemas mais difíceis para nós para lidar com o que cria um ponto único de falha no sistema é o software em si", disse Neil.

Embora a Microsoft finalmente fixou o serviço por ajustes a RDFE, a empresa chamou flack significativo para ter um grande planeta culpa. Devido à forma como Azure é construído, só pode haver um funcionamento RDFE em todo o mundo a qualquer momento, ao invés de várias versões em um / arranjo testes A B como outras grandes nuvens como o Amazon e Google são pensados para usar.

"O desafio que temos para RDFE é que é a API para todo mundo fala", diz ele. "Neste caso particular, é necessário apresentar um API comum para o resto do mundo. RDFE que é um caso especial."

Nós aqui no flutuante nuvem bureau de El Reg compreender Microsoft emitiu um relatório completo sobre a interrupção aos clientes afetados hoje. Se isso aconteceu com plop em sua caixa de entrada, fazer entrar em contato . ®

via Alimentar (Feed)

Dicas Cloud

sexta-feira, 8 de novembro de 2013

A verdade por trás da nuvem global da Microsoft Azure mega-cock-up

Nenhum comentário:

Postar um comentário