2016年1月8日上午10点,昆明理工大学理学院数学系刘文奇教授,受邀到计算机科学学院作“大数据背景下的公共数据质量控制”专题学术讲座。我院众多老师和同学在明理楼参加了本次讲座,并进行了热烈的讨论。
刘教授指出,在大数据时代,因特网进一步普及、数据终端多样化尤其是随着近年来物联网的发展,在能源、制造业、交通运输业等行业,大数据普遍存在。无论是国内还是国外,学术界、工业界甚至政府都密切关注大数据问题,而对于数据挖掘等学术研究,对于数据本身的质量问题也是尤为关注。
刘教授提到,大数据背景下的公共数据,质量内涵包括一致性(consistency)、正确性(correctness)、完整性(completeness)、最小性(minimality)、真实性(truth)、及时性(timeliness)、权威性(authority)、隐私保护(privacy)。而刘教授提出的数据质量评估模型则可以对公共数据的质量进行质量评估。此外,刘教授还根据现实的案例,针对现有公共数据质量普遍不高提出了一系列公共数据清洗相关技术和数据质量控制的机制设计,老师和同学们就数据串并技术、僵尸数据识别技术、情感识别技术以及数据博弈等提出了自己的疑问并和刘教授进行了讨论。
以下是报告现场的一些问答实录:
问:刘教授,作为一个刚入门的研究生怎样才能获取跟研究方向相关的数据?
答:一,有些数据是对公众公开的,比如美国NASA官网会把与航天航空有关的信息放在网上对外公布,供研究者研究。二,对于那些没有公开的数据,特别是在我国对数据保护相关的法律法规已经相当完善的情况下,我们搞研究的想要获取数据一般只能是跟政府、事业单位、企业等相关单位通过搞合作才能授权给我们部分数据,并且这部分数据是经过去隐私处理之后得到的,保护了公众的隐私。
问:刘老师,数据清洗的目的是什么?可以把数据清洗等同于对数据的预处理吗?
答:是的,可以这么说。在这里一定要理清一个观念,不管是我们自己统计收集的数据,还是通过某些方法拿到的成品数据都应该是结合在某个应用下的实际情况,因为在这个应用背景下有些数据可能是冗余的,所以必须要对数据做预处理。
问:怎样理解数据博弈?
答:数据博弈其实就是一个数据的真假游戏。博弈的基础是信息,数据是信息的载体。到底是真数据最后战胜了假数据,还是假数据最后被使用,这就是数据博弈的精髓。
刘文奇教授作报告
刘文奇教授与机器学习实验室老师合影