|
Fivetran 的简单指导过程来建立与源系统的连接。图 5 和图 6 显示了如何配置新的数据源连接。 图 5 - 用于选择数据源类型的 Fivetran 界面。 图 5 - 用于选择数据源类型的 Fivetran 界面。 图 6 - 用于配置数据源连接的 Fivetran 界面。 图 6 - 用于配置数据源连接的 Fivetran 界面。 一旦验证通过,就可以进一步配置连接。要设置的一个重要选项是 Fivetran 询问源系统以获取新数据的频率。在图 7 中,我们可以看到 Fivetran 如何轻松设置同步频率,间隔范围从 5 分钟到 24 小时不等。 图 7 - Fivetran 连接器的配置概览。 图 7 - Fivetran 连接器的配置概览。 一旦连接得到验证,Fivetran 将立即询问并从源系统获取数据。数据存储为增量表,可以通过 DB SQL数据资源管理器从 Databricks 中查看。
默认情况下,Fivetran 会将所有数据存储在为每个新连接创建一个新模式,每个模式将至少包含两个表:一个包含数据,另一个包含来自每个尝试摄取周期的日志(参见图 8)。 图 8 - Fivetran 在 Databricks Warehouse 中为示例连接创建的表的摘要。 图 8 - Fivetran 在 Databricks Warehouse 中为示例连接创建的 美国手机数据列表 表的摘要。 将数据存储在 Delta 表中是一个显着的优势。Delta Lake 原生支持粒度数据版本控制,这意味着我们可以在每个摄取周期中进行时间旅行(见图 9)。我们可以使用 DB SQL 查询特定版本的数据来分析源记录是如何演变的。 图 9 - 显示对 Fivetran 审计表所做更改的历史视图。 图 9 - 显示对 Fivetran 审计表所做更改的历史视图。 请务必注意,如果源数据包含半结构化或非结构化值,则这些属性将在转换过程中被展平。这意味着结果将存储在分组的文本类型列中,并且必须在管理过程中使用 DLT 对这些实体进行剖析和解压缩以创建单独的属性。
第 2 步:自动化工作流程 利用中的数据,我们可以使用 Delta Live Tables (DLT) 构建一个简单的自动化数据工程工作流。DLT 提供了一个声明性框架来指定详细的特征工程步骤。目前,DLT 支持 Python 和 SQL 的 API。在此示例中,我们将使用 Python API 来构建我们的工作流程。 DLT 中最基本的构造是表的定义。DLT 询问所有表定义,以创建一个关于如何处理数据的综合工作流。例如,在 Python 中,表格是使用函数定义和“dlt.table”装饰器的一个显着优势是能够指定和执行数据质量标准。我们可以为每个 DLT 表设置期望值,其中包含应应用于表内容的详细数据质量约束。目前,DLT 支持三种不同场景的期望: 装潢师 描述 预计 保留违反预期的记录 期望或下降 丢弃违反预期的记录 期望或失败 如果任何记录违反约束,则停止执行 可以使用一个或多个数据质量约束来定义期望。
|
|