Categorie:
Big Data Software /
Software de análise de dados /
Bancos de dados Reveja
Excelente | |
Boa | |
Média | |
Mau | |
Horrível |
Plataforma de análise baseada em nuvem para equipes de ciência de dados que facilita o processamento e a visualização de grandes dados.
Este produto democratizou a computação de big data. É muito fácil mudar de qualquer plataforma para este produto, pois suporta a maioria dos idiomas.
Até agora, o custo da computação pode melhorar com o tempo, mas ainda é um produto econômico para desenvolver recursos internos de big data.
Pode ser difícil de entender e não há muito tutorial disponível.
O que eu mais gosto no Databricks é a quantidade de integrações que a plataforma fornece ao usuário. Com o Databricks, você pode criar conjuntos de dados, desenvolver modelos de aprendizado de máquina e analisar o desempenho automaticamente, configurando um trabalho periodicamente. Seja o usuário engenheiro, cientista de dados ou analista de negócios, o Databricks pode otimizar o trabalho de todos.
O que eu menos gosto no Databricks é a instabilidade que geralmente ocorre quando há muitos usuários tentando executar seus notebooks no mesmo cluster ao mesmo tempo.
Interface de usuário fácil de usar
As considerações sobre segurança da informação devem ser levadas em consideração devido à necessidade de integrações com VPCs de banco de dados quando hospedadas na AWS
Eu amo como é fácil implantar modelos de aprendizado de máquina com dimensionamento automático. Depois que um modelo de aprendizado de máquina é treinado, você pode simplesmente clicar em um botão para implantar o modelo, acredito em um contêiner, e fazer a escala automática conforme necessário. Você também pode especificar o tamanho mínimo e máximo da implantação para reduzir custos, mas acompanhar a carga de trabalho conforme necessário. Também é construído em torno do Spark, portanto, as tarefas que envolvem "big data" não são um problema.
Alguns dos contras são que a linguagem principal é Java / Scala, enquanto muitos cientistas de dados estão usando python ou R, que são mais lentos nos Databricks do que Java e Scala. Além disso, a interface principal via codificação, que pode limitar muitos cientistas de dados do cidadão.
Eu não estava envolvido no preço, mas pelo que entendi é bastante caro. Os clusters podem ser girados para cima ou para baixo, conforme necessário, e há um bom recurso de desligamento por inatividade se você esquecer de desativar um cluster de teste ou algo assim. Também tive um tempo bastante difícil para conectar um Data Lake do Azure Gen 2, mas depois de encontrar o bug não tão bem documentado, não foi grande coisa.
O acesso e manipulação de dados. O software é muito rápido e ótimo para manipular e tratar dados. Também é possível construir modelos.
A falta de opções de visualização e criação de painéis.