2017年12月16日,由华东师范大学计算机科学与全球十大赌场排名主办的以数据科学最新研究进展为主题的研讨会成功举行。来自该领域的国际著名专家学者汇聚一堂,就数据科学的前沿理论与技术进行了专题研讨。来自美国伊利诺伊大学、美国加州大学、 AT&T research lab、澳大利亚昆士兰大学、悉尼科技大学、香港中文大学的专家学者及我校师生七十余人参加会议。会议为期一天,香港中文大学的于旭(Jeffrey Xu Yu)教授与悉尼科技大学副教授、我院特聘教授张颖分别主持了会议。
图1
会议开始由我院LIN Xuemin教授致辞,随后进行了六场大会主题报告。来自美国伊利诺伊大学的Jiawei Han教授(ACM & IEEE Fellow)首先做了题为“Multi-Dimensional Analysis of Massive Text Corpora”的特邀报告。报告中 Han教授主要围绕如何从非结构化数据构造网络化结构数据,并进一步利用网络化数据进行相关的文本分析和语义解析,指出目前从非结构化数据到结构化数据的转换仍然是这项工作的瓶颈,并针对这个问题重点介绍了其课题组的相关工作。
第二个特邀报告来自AT&T Research Lab的Divesh Srivastava(ACM Fellow),进行了题为“Data Glitches = Constraint = Empirical Explanations”的报告。Divesh首先通过举例说明了Data Glitches的定义,指出数据质量问题是大数据研究与应用中的关键问题,随后解释了Data Glitches、Constraint和Empirical Explanations 之间的关系,并介绍了两种解决数据质量问题的方法:利用时空拓扑结构特征方法和利用基于统计的签名方法。
上午最后一个特邀报告是来自澳大利亚新南威尔士大学、我院LIN Xuemin教授(IEEE Fellow),报告题目为“Subgraph Enumeration”。在报告中,林教授介绍了子图枚举的定义、分类和相关应用,通过理论分析揭示子图枚举问题中的重要挑战,并分别介绍了针对Unlabeled 和 labeled图数据的子图枚举他研究组最近的研究进展。
图2
下午来自美国加州大学的 Wei Wang教授首先进行了题为“Big Data Analytics in Biomedical Science and Beyond”的报告。王教授介绍了人工智能在生物医学科学领域的最新进展,同时指出了一些仍然存在的重大挑战,并介绍了其课题组在利用机器学习、数据挖掘相关技术解决上述挑战中所取得的最新工作进展。
随后来自香港中文大学的于旭教授做了题为“Finding Max Cliques in Massive Graphs”的报告。于教授介绍了稠密子图挖掘问题的定义,并重点介绍最大团问题,同时分析该问题的复杂度及其课题组发表在SIGMOD 2010和VLDB 2017上的相关工作。在提问环节,专家们针对问题定义的普适性和复杂度边界进行了讨论。
本次研讨会的压轴报告来自澳大利亚昆士兰大学教授、苏州大学周晓方教授(IEEE Fellow),报告题目为“Multidimensional Big Data Imputation”。周教授首先介绍了什么是缺失数据和常见的数据缺失分类,针对数据缺失问题,分别介绍了基于众包(Crowdsourcing)的数据补全、基于网络搜索(Web Search)的数据补全和混合模式的数据补全解决方案。
每个主题报告结束后专家与听众就报告内容进行热烈讨论,与会来宾表示收获颇多。最后,LIN Xuemin教授做会议总结,会议顺利闭幕。