合并缺失数据以突出未知数据

65 人阅读 | 0 人回复

发表于 2023-7-17 13:00:11 | 显示全部楼层 |阅读模式

丢失数据可能会很痛苦;丢失数据并且不知道数据在哪里可能会更加痛苦。以下是关于在ETL 过程或任何数据处理步骤期间可能处理缺失值的快速提示,以及如何快速发现它们。里程可能会有所不同,具体取决于处理数据的业务要求。

内容
合并缺失值
加载维度模型时识别丢失的数据
丢失数据可能会很痛苦;丢失数据并且不知道数 购买电子邮件数据库 据在哪里可能会更加痛苦。以下是关于在ETL 过程或任何数据处理步骤期间可能处理缺失值的快速提示,以及如何快速发现它们。里程可能会有所不同,具体取决于处理数据的业务要求。

合并缺失值
Coalesce 函数(或者用于字符值的 coalesceC 函数)对于根据数据状态有选择地加载字段非常有用。参数很简单。只需引用数据中的变量或显式硬编码值,合并函数就会为该观察选择第一个非缺失值。它根据输入变量的顺序(从左到右)进行选择。



coalesce( [第一个变量], [第二个变量], ...., [第N个变量])
有时,我在合并参数列表的末尾对以下值进行硬编码,以确保输入某些内容(取决于要求):

!未知
!丢失的
!嘿看着我
使用这些标准化值可以帮助业务部门非常快速地发现缺失值,特别是如果您使用特殊字符(例如感叹号),该字符在按升序查看时会将缺失值排序在顶部。  

大数据解决方案

加载维度模型时识别丢失的数据
加载维度模型时,合并缺失的外键值也很有用。在星型模式中,分类值存储在维度表中,并具有相应的外键,这些外键从事实表中引用这些值。外键的目的是通过连接到相关维度表来描述事实表中包含的事实数值。一个好的最佳实践是始终加载显式的非 NULL 外键值,以确保始终识别数字数据,因为您的DBA可能不喜欢完整性约束内的 NULL 值。如果数值确实缺少维度,则可以使用合并函数为事实表中的外键暂存“零”值。您还可以使用值“-1”作为“缺失”的外键值。这也充当“包罗万象”的作用,以确保 ETL 过程完成时不会因尝试在事实表中插入缺失值或 NULL 值而出现错误。

这是我用来引用事实表中的地址位置的示例 DIMENSION 表。  


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

b2cniloyislambd

发表主题 1

发帖