La traçabilité des données est une fonctionnalité Dataflow qui vous permet de suivre la manière dont les données transitent par vos systèmes: leur origine, la cible de transmission, et les transformations qui leur sont appliquées.
Chaque pipeline que vous exécutez à l'aide de Dataflow est associé à plusieurs composants de données. La traçabilité d'un élément de données inclut son origine, ce qui lui arrive et où il se déplace au fil du temps. Grâce à la traçabilité des données, vous pouvez suivre le parcours de bout en bout de vos composants de données, de leur origine à leur destination finale.
Lorsque vous activez la généalogie des données pour vos jobs Dataflow, Dataflow capture les événements de généalogie et les publie dans l'API Data Lineage de Dataplex.
Pour accéder aux informations sur la traçabilité via Dataplex, consultez la section Utiliser la traçabilité des données avec les systèmes Google Cloud .
Avant de commencer
Configurez votre projet:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
Dans Dataflow, vous devez également activer la lignée au niveau de la tâche. Consultez la section Activer la traçabilité des données dans Dataflow dans ce document.
Rôles requis
Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants:
-
Lecteur de catalogue Dataplex (
roles/dataplex.catalogViewer
) sur le projet de ressources Dataplex -
Lecteur de la traçabilité des données (
roles/datalineage.viewer
) sur le projet dans lequel vous utilisez Dataflow -
Lecteur Dataflow (
roles/dataflow.viewer
) sur le projet dans lequel vous utilisez Dataflow
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Pour en savoir plus sur les rôles de traçabilité des données, consultez la section Rôles prédéfinis pour la traçabilité des données.
Compatibilité et limites
La généalogie des données dans Dataflow présente les limites suivantes:
- La lignée des données est compatible avec les versions 2.63.0 et ultérieures du SDK Apache Beam.
- Vous devez activer la traçabilité des données par tâche.
- La capture des données n'est pas instantanée. L'affichage des données de la lignée des tâches Dataflow dans Dataplex peut prendre quelques minutes.
Les sources et les récepteurs suivants sont compatibles:
- Apache Kafka
- BigQuery
- Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner
Les modèles Dataflow qui utilisent ces sources et ces destinations capturent et publient également automatiquement des événements de lignage.
Activer la traçabilité des données dans Dataflow
Vous devez activer la lignée au niveau de la tâche. Pour activer la lignée des données, utilisez l'option de service Dataflow enable_lineage
comme suit:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Go
--dataflow_service_options=enable_lineage=true
gcloud
Exécutez la commande gcloud dataflow jobs run
avec l'option additional-experiments
. Si vous utilisez des modèles Flex, exécutez la commande gcloud dataflow flex-template run
.
--additional-experiments=enable_lineage=true
Vous pouvez éventuellement spécifier l'un ou les deux des paramètres suivants avec l'option de service:
process_id
: identifiant unique utilisé par Dataplex pour regrouper les exécutions de tâches. Si cet élément n'est pas spécifié, le nom de la tâche est utilisé.process_name
: nom lisible du processus de lignée des données. S'il n'est pas spécifié, le nom de la tâche précédé de"Dataflow "
est utilisé.
Spécifiez ces options comme suit:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Go
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Afficher la traçabilité dans Dataplex
La traçabilité des données fournit des informations sur les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez afficher les informations sur la lignée des données dans la console Google Cloud sous la forme d'un graphique ou d'un tableau unique. Vous pouvez également récupérer des informations sur la lignée des données à partir de l'API Data Lineage sous forme de données JSON.
Pour en savoir plus, consultez la section Utiliser la traçabilité des données avec les systèmes Google Cloud .
Désactiver la traçabilité des données dans Dataflow
Si la lignée de données est activée pour un job spécifique et que vous souhaitez la désactiver, annulez le job existant et exécutez une nouvelle version du job sans l'option de service enable_lineage
.
Facturation
L'utilisation de la lignée de données dans Dataflow n'a aucune incidence sur votre facture Dataflow, mais elle peut entraîner des frais supplémentaires sur votre facture Dataplex. Pour en savoir plus, consultez les pages Considérations concernant la traçabilité des données et Tarifs de Dataplex.
Étape suivante
- En savoir plus sur la traçabilité des données
- Découvrez comment utiliser la lignée des données.