Um conceito-chave / termo de pesquisa pode ser ETL (extrair, transformar, carregar) . Essa é uma formalização do processo que você descreve: pegue os dados de todo o lugar, limpe-os e entregue-os. Você está com sorte, há uma série de ferramentas existentes que você pode usar e muito escrito sobre o assunto.
Estou mais familiarizado com Pentaho (Kettle, na verdade). Não tome isso como uma recomendação, mas mais como um exemplo do que pode ser feito ...
Com o Kettle, eu pego muitos dados de várias fontes: arquivos, bancos de dados e até mesmo serviços da web. Se a sua fonte de dados não for compatível imediatamente, você provavelmente encontrará um plug-in que funcione. Então, eu transformo os dados em uma forma apropriada, limpo e solto em outro lugar. Novamente, se o seu destino não for compatível imediatamente, provavelmente você encontrará um plug-in para ajudar. (Na verdade, escrever seu próprio plug-in não é insuperável.) O melhor de tudo é que posso agendar todos esses processos de qualquer maneira idiossincrática que eu achar adequado.
Não deixe de avaliar várias ferramentas para decidir o que funciona melhor para sua equipe.
Com relação às melhores práticas, há muita coisa escrita, mas a maioria é específica da tecnologia. Os bancos de dados de grandes fornecedores têm sua própria abordagem. Ferramentas de código aberto têm sua abordagem. Você não menciona a tecnologia que está usando, mas provavelmente encontrará mais detalhes procurando por ETL relacionado a essa tecnologia. Genericamente, as melhores práticas recomendadas tendem a ser uma espécie de óbvio: conheça suas necessidades, registrando, esse tipo de coisa. Talvez faça perguntas secundárias ao descobrir detalhes.