terça-feira, 27 de maio de 2014

Toda baixos administração Fat dedos data center Joyent


Maximizando sua infra-estrutura através da virtualização


Operador Nuvem Joyent passou por uma grande falha na terça-feira quando um administrador de dedos gordura derrubou ativos de computação de todo um centro de dados.


O provedor de nuvem começaram a relatar problemas de disponibilidade "transitórias" para sua US-East-1 data center por volta das seis e meia da noite, horário da costa leste.







"Devido a um erro do operador, todos os nós de computação em us-east-1 foram reiniciado simultaneamente", Joyent escreveu . "Alguns nós de computação já estão de volta, mas devido à carga muito alta sobre o plano de controle, isso está levando algum tempo. Estamos dedicando todos os recursos operacionais e de engenharia para obter esse problema resolvido, e estará fornecendo uma autópsia completa sobre esta falha uma vez a cada nó de computação e cliente VM está online e operacional. Nós estaremos fornecendo atualizações freqüentes até que o problema seja resolvido ".


Os problemas foram principalmente fixo ou menos uma hora depois.


Para aqueles não familiarizados com a nuvem, um reboot em toda datacenter forçado em todos os servidores é apenas sobre a pior coisa que pode acontecer a um provedor além da exclusão de dados de clientes, ou vários centros de dados que vão para baixo ao mesmo tempo.


"Embora a causa imediata foi erro do operador, há questões sistêmicas mais amplas que permitiram um dedo gordo para derrubar um datacenter", explicou o diretor de tecnologia da Joyent Brian Cantrill em um posto de Hacker News. "Assim que for razoavelmente possível, estaremos proporcionando uma autópsia completa deste: como isso foi arquitetonicamente possível, o que aconteceu exatamente, como o sistema recuperado, e que melhorias estamos / estaremos fazendo tanto para o software e os procedimentos operacionais para assegurar que isso não aconteça no futuro ".


Joyent tem acordos de nível de serviço em lugar que vai compensar os clientes por tempo de inatividade, nós entendemos.


Em passando por um tal de falha de revirar o estômago, Joyent juntou-se um grupo ilustre de prestadores de serviços que inclui a Rackspace, Microsoft, Google, Amazon e que todos tiveram falhas catastróficas da mesma forma.


"Qualquer coisa que lhe permite administrar muitas, muitas máquinas vão permitir que você faça isso", disse ao jornal The Cantrill Reg em uma conversa telefônica. "Houve um forro de prata aqui no sentido que era uma oportunidade de ver como o sistema se comportou. Há muitas maneiras que poderia ter sido muito pior."


Joyent vai tentar aprender com a experiência e irá publicar um post mortem completo também.


Quanto ao administrador dedos de gordura? "O operador que fez o erro é mortificada, não há nada que possa fazer ou dizer para esse operador que vai torná-lo ainda pior, francamente", disse Cantrill.


Nem Joyent querer, explicou. O objetivo da empresa é aprender com o problema e ficar melhor, não medirei punição. "Você não ensinar golfinhos com um colar de choque", explicou Cantrill. ®







via Alimentação (Feed)

Nenhum comentário:

Postar um comentário