Utiliser la traçabilité des données dans Dataflow

La traçabilité des données est une fonctionnalité Dataflow qui vous permet de suivre la manière dont les données transitent par vos systèmes: leur origine, la cible de transmission, et les transformations qui leur sont appliquées.

Chaque pipeline que vous exécutez à l'aide de Dataflow est associé à plusieurs composants de données. La traçabilité d'un élément de données inclut son origine, ce qui lui arrive et où il se déplace au fil du temps. Grâce à la traçabilité des données, vous pouvez suivre le parcours de bout en bout de vos composants de données, de leur origine à leur destination finale.

Lorsque vous activez la généalogie des données pour vos jobs Dataflow, Dataflow capture les événements de généalogie et les publie dans l'API Data Lineage de Dataplex.

Pour accéder aux informations sur la traçabilité via Dataplex, consultez la section Utiliser la traçabilité des données avec les systèmes Google Cloud .

Avant de commencer

Configurez votre projet:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Dataplex, BigQuery, and Data lineage APIs.

    Enable the APIs

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data lineage APIs.

    Enable the APIs

Dans Dataflow, vous devez également activer la lignée au niveau de la tâche. Consultez la section Activer la traçabilité des données dans Dataflow dans ce document.

Rôles requis

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles de traçabilité des données, consultez la section Rôles prédéfinis pour la traçabilité des données.

Compatibilité et limites

La généalogie des données dans Dataflow présente les limites suivantes:

  • La lignée des données est compatible avec les versions 2.63.0 et ultérieures du SDK Apache Beam.
  • Vous devez activer la traçabilité des données par tâche.
  • La capture des données n'est pas instantanée. L'affichage des données de la lignée des tâches Dataflow dans Dataplex peut prendre quelques minutes.
  • Les sources et les récepteurs suivants sont compatibles:

    • Apache Kafka
    • BigQuery
    • Bigtable
    • Cloud Storage
    • JDBC (Java Database Connectivity)
    • Pub/Sub
    • Spanner

    Les modèles Dataflow qui utilisent ces sources et ces destinations capturent et publient également automatiquement des événements de lignage.

Activer la traçabilité des données dans Dataflow

Vous devez activer la lignée au niveau de la tâche. Pour activer la lignée des données, utilisez l'option de service Dataflow enable_lineage comme suit:

Java

--dataflowServiceOptions=enable_lineage=true

Python

--dataflow_service_options=enable_lineage=true

Go

--dataflow_service_options=enable_lineage=true

gcloud

Exécutez la commande gcloud dataflow jobs run avec l'option additional-experiments. Si vous utilisez des modèles Flex, exécutez la commande gcloud dataflow flex-template run.

--additional-experiments=enable_lineage=true

Vous pouvez éventuellement spécifier l'un ou les deux des paramètres suivants avec l'option de service:

  • process_id: identifiant unique utilisé par Dataplex pour regrouper les exécutions de tâches. Si cet élément n'est pas spécifié, le nom de la tâche est utilisé.
  • process_name: nom lisible du processus de lignée des données. S'il n'est pas spécifié, le nom de la tâche précédé de "Dataflow " est utilisé.

Spécifiez ces options comme suit:

Java

--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Python

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Go

--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

gcloud

--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME

Afficher la traçabilité dans Dataplex

La traçabilité des données fournit des informations sur les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez afficher les informations sur la lignée des données dans la console Google Cloud sous la forme d'un graphique ou d'un tableau unique. Vous pouvez également récupérer des informations sur la lignée des données à partir de l'API Data Lineage sous forme de données JSON.

Pour en savoir plus, consultez la section Utiliser la traçabilité des données avec les systèmes Google Cloud .

Désactiver la traçabilité des données dans Dataflow

Si la lignée de données est activée pour un job spécifique et que vous souhaitez la désactiver, annulez le job existant et exécutez une nouvelle version du job sans l'option de service enable_lineage.

Facturation

L'utilisation de la lignée de données dans Dataflow n'a aucune incidence sur votre facture Dataflow, mais elle peut entraîner des frais supplémentaires sur votre facture Dataplex. Pour en savoir plus, consultez les pages Considérations concernant la traçabilité des données et Tarifs de Dataplex.

Étape suivante