Entrega Email: Ódio e-mails de phishing? Você vai adorar DMARC
Facebook veio através de sua promessa de publicar o seu Hive-surra " Presto "software de análise de código-fonte aberto.
O código foi disponibilizado pela rede social hoje sob a licença Apache v2 , dando aos desenvolvedores acesso a um mecanismo de consulta e análise de dados compatível ANSI-SQL que é mais rápido do que o Apache Hive, e concorre com Impala da Cloudera e tecnologias Stinger da Hortonworks.
Facebook usa a ferramenta para análise de gráfico, de aprendizado de máquina e consultas de resposta curtos. O sistema tem um desempenho de CPU 4-7 vezes melhor do que o Hadoop Hive lote triturador, e retorna os resultados da consulta de oito a dez vezes mais rápido.
Embora seja projetado para processar dados destinados a Hive (ou geral Hadoop), tem "backends pluggable" que permitem que ele ingerir informações de outras fontes.
Facebook avalia que o sistema poderia ser relevante para as pessoas com 750GB ou mais dos dados que necessitam de análise.
"Isso também nos permitiu fornecer uma interface SQL uniforme ao longo de vários dados backends como HDFS, HBase, Scribe, e um armazenamento de dados na memória interna", um porta-voz disse El Reg via e-mail.
Ao contrário Hive , o sistema Presto não depende de uma estrutura computacional subjacente MapReduce, que diz Facebook levou a melhor programação. Isso ajudou-lo funcionar como um sistema rápido de resposta para consultas interativas, ao invés do processamento em lote empregos Hive é projetado para.
O sistema baseado em Java funciona ao analisar uma consulta ANSI-SQL em um plano de consulta distribuída. Em seguida, ele gira trabalhadores dedicados para várias fatias de dados que puxa do Hadoop File System subjacente (HDFS). Cada trabalhador executa um processo que contém bytecode projetada para aumentar a eficiência da execução. Os dados são armazenados e processados em memória, e canalizados através da rede entre as fases.
"Ainda é um processo um pouco manual para descompactar e instalar '
"Através do uso cuidadoso de estruturas de memória e os dados, Presto evita problemas típicos de código Java relacionados a alocação de memória e coleta de lixo. (Em um post mais tarde, vamos compartilhar algumas dicas e truques para escrever código de alto desempenho do sistema Java e as lições aprendidas enquanto ", a empresa escreveu em um post no blog anunciando a publicação de Presto como open source.
Facebook Presto colocar em produção no início de 2013, e agora o sistema tem mais de 1.000 usuários realizando 30.000 consultas que lidar com pelo menos um petabyte de dados por dia, disse a empresa. Esta é a partir de 850 usuários e 27 mil consultas diárias a empresa alegou, em junho, quando se disse pela primeira vez El Reg sobre Presto . Desde então, o armazém de dados do Facebook inchou de 250PB para 300PB em tamanho, e Presto está sendo usado para consultar tudo isso.
Um desenvolvedor que usou o software nos disse que a tecnologia é útil, e que "ainda é um processo um pouco manual para descompactar e instalar, mas eu era capaz de fazê-lo dentro de 12 minutos em algumas caixas, mas este é o tipo de coisa que funciona em grupos de dezenas, centenas ou milhares de pessoas. "
"Presto funciona melhor em escala Facebook e para os nossos casos de uso", disse um porta-voz disse El Reg via e-mail. Outras empresas de web tive a oportunidade de jogar com ele também, e fomos enviados citações enlatados de empresas como a Airbnb e Dropbox.
"É uma ordem de magnitude mais rápido que Hive na maioria dos nossos casos de uso", disse Airbnb dados cientista Chris Gutierrez. "Ele lê diretamente do HDFS, tão diferente [Amazon Web Services] Redshift, não há um monte de ETL [extração, transformação e carga] antes que você possa usá-lo. Ele simplesmente funciona". ®
via Alimentar (Feed)
Nenhum comentário:
Postar um comentário