Récap et vidéo - Echange de bonnes pratiques sur l'opérationnalisation

LisaB
Dataiker
Récap et vidéo - Echange de bonnes pratiques sur l'opérationnalisation

Un grand merci à @Tuong-Vi d’avoir partagé ses nombreuses bonnes pratiques sur l’opérationnalisation hier ! Vous pourrez les retrouver en notes ci-dessous, avec l'enregistrement de la présentation. 

Merci également à tous les participants d'avoir livré leurs retours d'expérience au cours de la discussion ! Voici quelques questions pour recueillir votre avis et les sujets qui vous intéressent pour les prochains événements. 

Bonnes pratiques partagées par Tuong-Vi : 


#1 - Organisationnelles

  • Identifier les profils pour la réalisation du projet : favoriser un temps de travail en binôme codeur / non codeur
  • Impliquer les intervenants IT tôt dans le process : valider les environnements, les habilitations, les exigences techniques et fonctionnelles (tests de performances, cas de recette validés, document de production fourni)
  • Faire adhérer et travailler avec l’IT sur les objets avancés : macro, plugins, gestion des groupes user

Partage de connaissances :

  • Produire un document groupe (modop, schéma d’architecture) à diffuser
  • Documenter (wiki, tags, commentaires, discussions)

#2 - Développement 

Commencer avec un besoin simple : 

  • Identifier un échantillon de données pour valider son modèle et ses règles de gestion (maîtrise du modèle de données)
  • (Essayer) d’anticiper et fixer la nomenclature des tables afin d’éviter d’avoir à supprimer et recréer des tables en fin de projet
  • Rester minimaliste sur les livrables : filtrer au plus tôt les données, virtualiser les tables temporaires, ne pas multiplier des objets de coding différents si ce n’est pas utile

Penser production dès le POC :

  • Scénariser son process, anticiper les variables globales et le partitionnement
  • Développer et automatiser au fur et à mesure des métriques et check pour le monitoring intra-projet
  • Anticiper les problématiques d’accès aux données, de maintenabilité
  • Penser aux macros de nettoyage de logs, planifier avec l’IT les relances de serveurs et services DSS

Bonnes pratiques issues de la discussion sur le versionnement :


#1 - Versionnement des projets

Difficulté : Git garde toutes les versions dans le design node. Sur l’automation node: écrase et remplace pour changement de version. Besoin de faire appel à l’IT pour roll back. 

Bonnes pratiques : 

  • Utilisation de macros pour livrer plus rapidement les bundles
  • Possibilité de connexion à un git externe, avec création de nouvelle branche pour chaque nouvelle version des modèles.

#2 - Versionnement de données 

Difficulté : datasets peuvent mettent très longtemps à se reconstruire en cas de changement de schémas 

Bonnes pratiques :

  • Adapter les schémas intermédiaires dans les tables sous-jacentes. Complexe mais scriptable de lire la table en entrée, propager le schéma, et lancer scénario standard ou nouveau scénario pour re-stacker.
  • Dans la mesure du possible, stabiliser la structure des données. Par exemple, parser et contrôler les données en amont de Dataiku, sinon besoin de maîtrise avancée de DSS pour modifier les schémas.
  • Avoir une recette de préparation en début de flow pour agir en sorte de tampon, de sorte à filtrer les colonnes d’intérêt et ne pas modifier les recettes suivantes lorsque le schéma change.
Lisa, Community Programs Manager at Dataiku

Don't forget to mark as "Accepted Solution" when someone provides the correct answer to your question 😉
0 Replies