对于其中的每一个，我们都可以按照

shati510 · 发表于 2023-8-10 11:55:30

Fivetran 的简单指导过程来建立与源系统的连接。图 5 和图 6 显示了如何配置新的数据源连接。图 5 - 用于选择数据源类型的 Fivetran 界面。图 5 - 用于选择数据源类型的 Fivetran 界面。图 6 - 用于配置数据源连接的 Fivetran 界面。图 6 - 用于配置数据源连接的 Fivetran 界面。一旦验证通过，就可以进一步配置连接。要设置的一个重要选项是 Fivetran 询问源系统以获取新数据的频率。在图 7 中，我们可以看到 Fivetran 如何轻松设置同步频率，间隔范围从 5 分钟到 24 小时不等。图 7 - Fivetran 连接器的配置概览。图 7 - Fivetran 连接器的配置概览。一旦连接得到验证，Fivetran 将立即询问并从源系统获取数据。数据存储为增量表，可以通过 DB SQL数据资源管理器从 Databricks 中查看。

默认情况下，Fivetran 会将所有数据存储在为每个新连接创建一个新模式，每个模式将至少包含两个表：一个包含数据，另一个包含来自每个尝试摄取周期的日志（参见图 8）。图 8 - Fivetran 在 Databricks Warehouse 中为示例连接创建的表的摘要。图 8 - Fivetran 在 Databricks Warehouse 中为示例连接创建的 美国手机数据列表 表的摘要。将数据存储在 Delta 表中是一个显着的优势。Delta Lake 原生支持粒度数据版本控制，这意味着我们可以在每个摄取周期中进行时间旅行（见图 9）。我们可以使用 DB SQL 查询特定版本的数据来分析源记录是如何演变的。图 9 - 显示对 Fivetran 审计表所做更改的历史视图。图 9 - 显示对 Fivetran 审计表所做更改的历史视图。请务必注意，如果源数据包含半结构化或非结构化值，则这些属性将在转换过程中被展平。这意味着结果将存储在分组的文本类型列中，并且必须在管理过程中使用 DLT 对这些实体进行剖析和解压缩以创建单独的属性。

第 2 步：自动化工作流程利用中的数据，我们可以使用 Delta Live Tables (DLT) 构建一个简单的自动化数据工程工作流。DLT 提供了一个声明性框架来指定详细的特征工程步骤。目前，DLT 支持 Python 和 SQL 的 API。在此示例中，我们将使用 Python API 来构建我们的工作流程。 DLT 中最基本的构造是表的定义。DLT 询问所有表定义，以创建一个关于如何处理数据的综合工作流。例如，在 Python 中，表格是使用函数定义和“dlt.table”装饰器的一个显着优势是能够指定和执行数据质量标准。我们可以为每个 DLT 表设置期望值，其中包含应应用于表内容的详细数据质量约束。目前，DLT 支持三种不同场景的期望：装潢师描述预计保留违反预期的记录期望或下降丢弃违反预期的记录期望或失败如果任何记录违反约束，则停止执行可以使用一个或多个数据质量约束来定义期望。