安全+数智 AI赢未来 C3安全大会·2025盛大启幕——AI XDR开启体系化联动防御新时代CMG 世界机器人大赛今晚开赛,机甲格斗选手准备就绪C919 国产大飞机完成厦门首航,今起在厦沪快线常态化执飞马斯克宣布回归 7x24 小时工作状态,专注于 X、xAI、特斯拉等拥有完全自主知识产权:中国航发 2MW 级纯氢燃气轮机连续稳定运行时长破 7000 小时宝马高性能子品牌 Alpina 创始人家族推出手工定制跑车:基于 M4 打造,极速突破 300km/h京东Joy Inside联手商汤元萝卜 AI下棋“家教”正式上线开源共建智启未来 开源鸿蒙开发者大会2025成功举办微博管理员回应推出“黑粉”标识:纯属 P 图,站内无此标识挑战英伟达垄断地位:和硕展示基于 AMD MI350X 的 1177 PFLOP 级 AI 机架Sensor Tower 报告 4 月全球手游收入:《王者荣耀》强势上升四位,重回榜首微软为 Mesa 3D 图形堆栈贡献超 6 万行代码,推出全新 Gallium3D 前端除 Mac Studio 外,苹果曾考虑将 M3 Ultra芯片应用到 MacBook Pro 中从华为智能电动DriveONE运动域看新能源汽车行业发展困境与破局之道埃克塞尔集团携手孝南区共绘算力经济新蓝图——“数智创新 算力未来”主题活动助推区域高质量发展中国企业管理,迈入AI时代当 “度电续航” 成为硬指标:华为智能电动DriveONE如何重塑新能源汽车评价体系?华为智能电动DriveONE:重新定义新能源汽车的续航与安全湖北消费者来京东购3C数码 享国补多重补贴 还有至多500元加补福利埃夫特与华为云携手推进具身智能领域合作
  • 首页 > 数据存储频道 > 数据库频道 > 数据库

    谈谈创建有效数据质量规则特别关注的5大要素

    2023年01月31日 16:21:43   来源:IT168

      根据 Gartner 的数据质量市场调查,低质量数据每年使公司损失约 1500 万美元,那么如何通过创建有效的数据质量规则来提高数据质量呢。

      什么是数据质量规则

      数据质量规则是企业对其数据设定的要求。这些要求旨在满足两个相互依存的目标:

      1.定义数据应遵循的格式以及数据元素之间应存在的依赖关系。

      2.作为企业根据这些要求衡量和检查其数据质量的参考。

      比方说,对于即将发起的电子邮件营销活动,我们需要优化工作和成本,需要决定筛选出无效电子邮件。为此,创建简单的规则:

      电子邮件必须包含“@”符号。

      '@' 只能使用一次。

      电子邮件必须包含以下任何或所有内容:字母、数字、非字母字符,例如,! # $ % & ' * + – / = ? ^ _ ` { 。

      通过仅向经过验证的电子邮件发送消息,企业将能够改善与客户的沟通,并更好地评估活动在电子邮件打开率、点击率等方面的成功。

      然而,这套电子邮件数据质量规则绝不是详尽无遗的。例如,如果进行有针对性的营销活动,那么再创建一个规则是有意义的。这将帮助企业避免在消息开头出现令人尴尬的“亲爱的 N/A”或“亲爱的……”:

      电子邮件引用的“客户全名”字段不得为“空”。

      如果想验证名称的拼写以正确称呼客户,可以提出额外的规则:

      客户的全名只能由字母组成;不允许使用其他字符。

      只有客户姓名、中间名(如果有)和姓氏中的首字母必须大写。

      创建有效数据质量规则需要考虑的因素

      1.业务主题专家需要深入参与

      不同的部门有不同的优先事项。要制定全面的数据质量规则,应该正确定义所有主题专家并明智地整合他们的要求。如果不从不同部门的角度看待数据,可能会破坏所有数据管理工作。例如,银行的贷款部门会将贷款金额、贷款到期日和月利率视为关键数据。他们很可能会认为客户名称或客户访问过的分支机构的前缀不值得填写。相反,市场部对贷款相关信息不太感兴趣,但他们会找到客户数据对于有效沟通和创建单一客户视图非常重要。

      2.数据质量规则的数量要适中

      在争取提高数据质量的过程中,重要的是不要忘形于太多的质量规则。过多的数据质量规则显着降低系统性能,因为需要更多的计算能力和时间来运行检查。根据 10 条规则检查字段与根据 100 条规则检查字段不同。因此,应该找到一个很好的平衡点。

      3. 需要采用循序渐进的方法

      我们不必创建涵盖所有数据的规则,也不必一口气解决所有问题。我们应该对数据进行分类并定义需要立即关注并尽最大努力的关键元素。例如,要开展有针对性的营销活动,“客户姓名”、“出生日期”和“电子邮件”字段至关重要,而家庭住址可被视为有用的额外信息。完成关键数据后,可以继续处理 #2 优先级,依此类推。简而言之,数据质量管理是接力赛,而不是短跑,然后采取相应的行动。

      4.单独对待数据库的每个字段并相应地创建规则

      有多种数据质量特征,我们的任务是确定哪些最适合特定领域。我们以'员工全名'和'员工联系电话'为例。第一个字段包含关键信息,而第二个字段不包含。所以,“员工姓名”要满足完整性、唯一性和准确性的要求,而“员工联系电话”——准确性和有序性。这些特征应反映在数据质量规则中,例如:

      员工全名不得为 N/A(以确保完整性)。

      一个'员工全名'必须对应一个'身份证号码'(以确保唯一性)。

      员工全名必须至少包含一个空格,必须仅由汉字组成,不允许使用数字、字母或其他字符(以确保准确性和完整性)。

      员工联系电话必须仅包含数字(以确保准确性和有序性)。

      员工联系电话必须采用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的数字,X 表示 0 至 9 的数字(以确保准确性和有序性)。

      5. 为数据质量规则选择集中存储还是本地存储

      如果是大型多元化企业,应该决定是将规则集中存储还是在每个企业本地存储。每种方法都有其优点和缺点。例如,在完全集中的情况下,将采用标准方法来捕获客户的姓名,无论他们与什么业务进行交互。在分散数据管理的情况下,可以获得更大的灵活性,因为将只关注与特定业务方向相关的数据规则。

      综述

      如果决定管理数据质量,将不可避免地要处理数据质量规则。建立这些规则需要考虑来自不同部门的意见、不要创建太多规则,否则会损害系统的性能、不必一次完成所有操作、为数据库的每个字段选择单独的数据质量特征、为数据质量规则做出集中存储还是本地存储的决策。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    vivo携手首届商学院戈壁友谊赛,以专业影像见证无畏征途

    2025年5月4日,首届商学院戈壁友谊赛于甘肃省酒泉市圆满举办。在这场4天121公里的戈壁征途中,vivo作为战略合作伙伴,为赛事提供手机、智能穿戴设备及定制影像服务,以技术赋能助力参赛选手与观众记录戈壁之上的热血奔赴,共同探索科技进步、商业文明与自然共生的未来路径。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。