Desacordo com relação à integração de dados (posso não entender as ferramentas corporativas de ETL)

5

Eu tenho conversado sobre um projeto que estamos prestes a realizar em minha casa no trabalho. O projeto diz respeito à integração de dados. Nossos clientes querem poder integrar nossos dados aos deles, enviando dados de seus sistemas para os nossos ou obtendo dados de nosso sistema para os deles. Eu não acredito que estamos falando de 'big data'. Nosso banco de dados inteiro tem menos de 20 shows.

As transferências individuais de nossos clientes também serão muito pequenas - na ordem de 10s de MBs, se não menores.

Um dos principais objetivos deste projeto é minimizar a quantidade de trabalho a ser feito pelo cliente, que tende a não ser muito técnico. No passado, esse problema foi "resolvido" fazendo com que nossos clientes nos enviassem um arquivo xml que é transformado pelo xlst antes de ser salvo no banco de dados ou por meio de um aplicativo WCF para exportar dados. Estas não são vistas como boas soluções.

Meu primeiro pensamento foi criar uma interface REST com ferramentas de monitoramento e bibliotecas muito boas para nossos clientes.

Outra opção que está sendo considerada são as grandes ferramentas, como o IBM DataStage ou o Pentaho (ou similar).

Meu problema pessoal é que, quando olho para essas ferramentas, não vejo como elas podem ajudar. Parece que eles têm como objetivo configurar transferências de dados em grande escala que acontecem em um horário regular com um determinado formato. Adicionar uma nova importação / exportação usando essas ferramentas requer muita configuração para nós e para o cliente, o que estamos tentando evitar. Eles também não são realmente úteis para atualizações de dados em tempo real. Finalmente, parece que eles estão tentando matar uma formiga com um lança-chamas - eles são pesos-pesados para um problema leve.

Por outro lado, com uma configuração REST, os dados podem ser transferidos sempre que necessário, e a Instalação só precisa acontecer em uma área muito pequena.

Estou faltando alguma coisa quando se trata dessas soluções de ETL? Eu não estou sendo justo com eles?

    
por Josh 21.05.2013 / 17:09
fonte

2 respostas

3

Não, você está bem aqui. O ETL é a escolha errada para este problema, o ETL é para transferências de informações de formatos proprietários complexos, que são regulares e / ou grandes e devem integrar-se a outros esquemas proprietários complexos. Além disso, a ETL é a ferramenta preferida pelos tipos de negócios, pois podem ser mais amigáveis para fazer importações / integrações de dados e evitar a sobrecarga de pagar por um engenheiro de software, mas sua empresa já possui SEs na equipe que podem fazer um processo mais simples importação que será mais sustentável. É como o acesso, os tipos de negócios podem jogar coisas juntos, mas a capacidade de manutenção será lixo com o passar do tempo e piorará rapidamente. O custo inicial de lançar um engenheiro em problemas como esse é mais acentuado do que o negócio + abordagem de acesso, mas a longo prazo é mais barato, mais os resultados são sempre melhores para os clientes, o que aumenta a comercialização.

Você tem um formato simples disponível que você pode controlar um pouco, tudo que você precisa é de um ponto de extremidade REST (ou mesmo FTP e ensinar a usar algum cliente FTP simples) para fazer upload de algum bloco de dados XML que vocês já tem ferramentas para analisar e importar parece. Este é, de longe, um sistema mais simples do que o ETL apresentará, e para o problema que você está definindo, a abordagem correta.

    
por 21.05.2013 / 17:18
fonte
2

Além da conectividade fornecida pelas interfaces REST ou FTP , você precisará de um certo grau de segurança de dados e tolerância a falhas. Portanto, minha recomendação é usar o AS2 como uma transferência de mensagens segura e confiável. A transferência de e-mail de XML messages (protegidas por S/MIME X.509 certificados PKI ) pode ser um pouco lenta para você, mas seria uma opção a considerar.

Existem alguns aspectos a serem considerados ao selecionar a "melhor" solução business-to-business:

  • Confiabilidade (prevenção de erros e tratamento de erros)
  • Flexibilidade (tempo / esforço para estabelecer novas conexões)
  • Custo operacional
  • Monitoramento (técnico e em nível de negócios)
  • Investimentos para software e hardware
  • Taxa de transferência (volume de dados por período de tempo)
  • Latência (atraso de ponta a ponta para mensagens)
  • Privacidade
  • Detecção / prevenção de fraudes
  • Adesão a normas e regulamentos
  • Disponibilidade de consultores experientes
  • Número de mensagens e tamanho máximo da mensagem
  • Operações de mensagens necessárias (validação de assinatura, compactação, roteamento, mapeamento, verificação de formato / conteúdo)
  • Gerenciamento de dados de parceiros (endereços, portas, formatos, etc.)
  • Arquivamento (para auditorias e suporte)

O domínio de ETL é a migração de dados e "big data". Um caso de uso típico para ETL está carregando milhares de Gigabytes em um datawarehouse para fins de business intelligence.

    
por 21.05.2013 / 21:06
fonte

Tags