原标题:工程师如何针对海量原始数据进行比对、清洗?
上海大数据中心的技术人员在获取海量原始数据之后,首先会将所有原始数据投入“数据湖”之中,再针对湖内的数据设定特定的规则,通过规则进行匹配,最后得出想要的结果数据。
数据湖,可以理解成一个存储各种各样原始数据的大型仓库,又称为原始数据保存区,技术人员就相当于仓库管理员,负责存取、处理、分析及传输数据。数据湖的包容性非常强,能存储各种结构及规模的数据。做到轻松地收集和摄入数据的同时,它还可以支持不同类型的大数据工具对其中的数据进行处理,极大地方便技术人员进行后期分析和利用。所以在处理“随申码”的数据之前,大数据中心的工程师第一步就要将从各渠道所得的原始数据统一存储入数据湖内,再针对湖内的数据进行比对、清洗工作。
大数据中心数据资源部部长储昭武介绍称:“我们现在的数据来源比较多,各个字段的准确度是不一样的。那为了获取准确的人的数据,那我们要对人口库内的数据,以及随申办用户注册时(填写)的数据,包括姓名字段、身份证字段、联系电话字段进行计算,找出可信的数据。然后合成一条准确的人的基本信息,这就是通过比对能得到我想要的人的基本信息。
而在清洗这一块,举个最简单的例子,“健康登记”这一块数据,由于在道口比较匆忙,登记的数据都是五花八门的。有身份证号不对的,有联系方式不准确的,甚至是找不到联系地址的。那我们要把这些“脏数据”挑出来,我们的工程师是要通过一定的规则进行编程,让系统对逐条数据进行计算,把这些有问题的数据给剔除,得到干净的数据,这就是清洗的过程。”
从随申码的大数据逻辑来看,健康码的基础,首先是“网络实名制”,即理论上我们每一个人在网站和手机软件上注册的所有账号,都是实名即对应一个真实的人员。
其次,是市民行为的数据化。比如说你的手机导航、通讯使用、进出各省市道口的航空、高铁信息等。这些行为也是构成每个人行动轨迹的重要参考来源。