Récap & vidéo - Premier événement sur ETL avec DSS

LisaB
Dataiker
Récap & vidéo - Premier événement sur ETL avec DSS
Merci à Jean, rmnvncnt et Jakub d’avoir partagé leur expérience et bonnes pratiques sur le processus ETL avec Dataiku DSS !
 
Et merci à tous les participants ! Voici quelques questions pour recueillir votre avis et les sujets qui vous intéressent pour les prochains événements. 
 
Egalement le formulaire si vous êtes intéressé(e) pour animer le groupe et coordonner un événement par trimestre afin d'accroître les échanges entre utilisateurs !
 

Présentation : Système ETL Automatisé avec Dataiku DSS (slides)

Jean et Romain, Data Scientists/Data Engineers à Delight, décrivent le projet qu'ils ont créé dans DSS pour automatiser la mise à jour quotidienne de données provenant de dizaines de fournisseurs, qu'ils traitent en tant que partitions indépendantes puis consolident dans un schéma unifié et stockent dans un data warehouse. Après 2 ans d'exercice, ils ont plus de 12 000 partitions.
Ils font un retour d'expérience sur ce système, avec notamment :
  • La création d'un flot partitionné entièrement automatisé,
  • La mise en place d'un "master scenario" pour automatiser les build les plus courants via l'exploitation des variables de projet,
  • Le stacking de partitions incohérentes : comment obtenir l'union des partitions en output, à partir de 2 inputs ayant des partitions différentes. 
 
Bonnes Pratiques : Processus ETL avec Dataiku DSS
 
Jakub Czarny, Analytics Team Lead à Dataiku, présente comment DSS est utilisé en interne pour traiter les données commerciales provenant de Salesforce, et partage les bonnes pratiques qui en sont issues :
  1. Importance de documenter les projets en détail avec outils de collaboration : wikis, page projet, tags des éléments dans le flow... cf. Nine Projects Collaboration Tips for 2020
  2. Optimisation des engins d’exécution (local vs. serveurs) en fonction des cas d’usage, 
  3. Scénarios & automatisation : mettre en place des reporters pour signaler les erreurs,
  4. Partitionnement pour optimiser les performances de calcul,
  5. “Self-service analytics” via mutualisation des projets pour optimiser le stockage de données, les calls API et gain en efficacité pour les utilisateurs : 
    • Un projet source pour récupérer les données,
    • Projet intermédiaire comme référence pour tous travaux des utilisateurs en interne. 

Que pensez-vous de ces bonnes pratiques ? En avez-vous appris d'autres au cours de votre utilisation de DSS ? 

Lisa, Community Programs Manager at Dataiku

Don't forget to mark as "Accepted Solution" when someone provides the correct answer to your question 😉
0 Replies
Sign in to join this group?

Labels

?
Labels (2)