Automatização do ciclo de vida integrado: HP ProLiant Gen8
Cloudera tem mobilizaram quatro grandes empresas por trás de um esquema para amarrar dois projetos de código aberto em conjunto para o benefício da comunidade Hadoop.
A parceria entre a Cloudera, IBM, Intel, DataBricks e MapR à porta Apache Hive para Apache Spark é devido a ser anunciado esta semana, na Cimeira de ignição, em San Francisco. El Reg ouvido rumores de que na semana passada, depois de tropeçar em uma proposta por Cloudera para levantar Hive para Spark.
Para aqueles não familiarizados com a galáxia de codinomes do mundo Hadoop: Spark é um sistema de computação em cluster de propósito geral originalmente desenvolvido na Universidade da Califórnia, em Berkeley, e com base no sistema de arquivos Hadoop. Ele pode ser usado como um processador de dados Hadoop MapReduce alternativa para e é anunciado como sendo em torno de 100 vezes mais rápido do que quando MapReduce em execução na memória ou 10 vezes mais rápido quando em execução no disco.
Hive, por sua vez, é um software de data warehouse que usa uma linguagem SQL-like para consultar dados armazenados no Hadoop.
Ambos os projetos são importantes, com faísca visto por muitos como um potencial sucessor de MapReduce e Hive visto como um provável candidato para a realização de trabalho SQL-on-Hadoop.
Ao levantar-se para Hive Spark, Cloudera & Co está esperando para forçar alguma consolidação no ecossistema Hadoop labiríntica, e ao fazê-lo estão a colocar menos ênfase em um dos projetos próprios da Cloudera, Impala .
Em um bate-papo com El Reg, Justin Erickson, diretor de gerenciamento de produtos da Cloudera, disse que a empresa decidiu empurrar Hive porque quer "ir e combinar as forças da comunidade de ignição com a comunidade Hive para fazer o processamento em lote [em Hadoop] mais rápido ".
"Hive é o padrão para fazer lote em Hadoop agora", disse Matt Brandwein, diretor da empresa de marketing de produto. "Queremos reduzir a fragmentação na comunidade. As pessoas estão ficando um pouco ciente do fato de existem tantas opções para tantos objetos diferentes. Spark é o sucessor."
O movimento tem grandes implicações para o ecossistema Hadoop, e para Cloudera. No passado, Cloudera foi cético em relação ao valor da Hive. Em um post no blog no ano passado, Mike Olson, diretor de estratégia da empresa, escreveu: "Décadas de experiência tinha ensinado as pessoas a esperar respostas em tempo real a partir de suas bases de dados. Hive, construída sobre MapReduce, não poderia entregar."
Para preencher as lacunas percebidas de Hive, Cloudera construiu seu próprio software, Impala. Mas, com a nova parceria entre Cloudera, MapR, Databricks e Intel, parece que Cloudera tem aquecido a colméia e vai usar a tecnologia como sua principal forma de lidar com a comunidade Hadoop mais amplo, enquanto continua a desenvolver Impala como uma maneira de fazer um dinheirinho.
Outra pequena complicação nesta história é que já existe um projeto Hive-on-Spark chamado Shark. Mas Cloudera sente que Tubarão divergiu muito da tradicional seção.
"Shark tomou uma abordagem de substituição de vários componentes-chave da Hive, incluindo o planejador de consultas e outros elementos da Hive", explicou Cloudera. "O resultado disso foi que mantém a compatibilidade com Hive tornou-se muito difícil, pois alterações em Hive não pode ser transparente back-portado para tubarão. Com a aproximação Hive-on-Spark, estamos fazendo uma mudança muito mais limitado a apenas a consulta física planejador, o que significa que a comunidade Hive pode fazer alterações e adicionar novas funcionalidades ao Hive e ter esta forma transparente trabalhar com qualquer faísca ou MapReduce ou Tez. Dessa forma, o ônus de manutenção será muito menor para Hive em faísca e vai ser mais profundamente integrado com a comunidade do núcleo Hive ".
Falando de Tez , o movimento de Cloudera também coloca pressão sobre Hortonworks, que ajudou a desenvolver o quadro de processamento de dados concorrentes. Mas Cloudera diz Spark, como Tez, é apenas uma opção.
Como a empresa explica em um documento FAQ : "Não é uma meta para a infra-estrutura de execução de ignição para substituir Tez ou MapReduce. É saudável para o projeto Hive para vários backends de coexistir. Os usuários têm uma escolha se deseja usar Tez, faísca ou MapReduce. Cada um tem diferentes pontos fortes, dependendo do caso de uso. E o sucesso da Hive não dependem completamente do sucesso de qualquer Tez ou Spark. "
Quando contatado para comentar o assunto, Hortonworks disse que a decisão de derramar recursos de desenvolvimento em seção no Spark é amplamente uma coisa boa. "É uma admissão de que a comunidade impulsionada modelo open source é o caminho certo", Shaun Connolly, vice-presidente de estratégia da empresa, disse em uma conversa com El Reg.
Outra forma de interpretar tudo isso é que agora que Cloudera já levantou US $ 900 milhões em financiamento - $ 740m dos quais vieram de Intel - está tentando jogar seu peso ao redor e tome mais de um papel de liderança na comunidade Hadoop.
Ao assumir o comando de alguns dos planetas na galáxia de projetos de código aberto associados com Hadoop, Cloudera pode desenvolver uma melhor compreensão da direção futura do software e com mais cuidado a aprimorar seus negócios para colher dinheiro fora a crescente base de usuários. ®
via Alimentação (Feed)
Nenhum comentário:
Postar um comentário