大数据系统基础
2022-09-14
《大数据系统基础》课程介绍
该课程分为《大数据系统基础A》和《大数据系统基础B》两部分,是清华大学大数据能力提升项目的基础模块必修课。内容是设计与实现一个数据分析系统架构,并基于这一系统架构完成数据分析任务。组织形式是学生根据项目具体需求,组建院系交叉融合的项目小组,在校内导师和企业导师的共同指导下完成项目任务。欢迎企业积极贡献项目和数据,并指派特定的企业导师指导学生完成相应项目。
《大数据系统基础A》注重大数据系统应用,重点讲授大数据系统工具的概念、应用场景以及商业价值,通过对一系列与大数据相关的计算机系统知识的学习和动手实践,让学生理解大数据系统的软硬件架构、目前可用的工具、技术上存在的挑战,培养学生在工作中应用与选择大数据工具的能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。课程的主要内容包括:大数据生命周期、大数据软件栈、系统实践DWF、数据存储HDFS、时序数据IoTDB、数据质量分析过程与实战、Python语言、内存计算Spark、结构化数据Spark SQL、流计算Flink、系统实践FloK。
《大数据系统基础B》注重大数据系统开发,重点介绍大数据管理的工具平台、开发环境、基本原理,使得学生熟悉典型大数据工具与平台的特性,掌握大数据处理的基本开发方式,巩固和加深大数据分析的基础知识。课程的主要内容包括:大数据生命周期、大数据软件栈、数据导入Kafka、数据存储HDFS、非结构化数据Cassandra、时序数据IoTDB、分布式计算MapReduce、内存计算Spark、结构化数据Spark SQL、流计算Flink。
课程自开设以来就深受学生欢迎,其最大特色是突破了传统的教学方式,学生通过自行组队,以小组的形式在实际的企业项目中运用所学知识动手完成实践任务。
授课教师简介

王建民,清华大学软件学院院长、教授、博士生导师。大数据系统软件国家工程实验室执行主任国家杰出青年科学基金获得者、国家政府特殊津贴获得者。研究领域为大数据与知识工程,具体包括, 工业大数据,大数据系统软件,非结构化数据管理技术与系统,产品生命周期管理技术与系统。2008年以来在IEEE TKDE、IEEE TSC、WWWJ等期刊和SIGMOD、VLDB、ICDE、AAAI、ACM Multimedia、CVPR等国际会议与期刊上发表(录用)学术论文近200篇;申请中国发明专利授权近100项。2018年负责研制的“清华数为”工业互联网时间序列数据库IoTDB进入国际Apache开源社区。

闻立杰,清华大学软件学院长聘副教授、博士生导师。专注于流程挖掘、大数据处理与分析、自然语言处理的研究。在ACL、AAAI、SIGIR、SIGKDD、ASE、EMNLP、COLING、NAACL、BPM、CAiSE、SDM、CIKM、IEEE TSC、DMKD、DKE等发表论文170余篇,谷歌学术引用4300余次。主持国家重点研发计划课题2项、主持国家自然科学基金2项、参与国家NSFC/973/863计划子课题十余项、国家核高基重大专项课题1项。获国家发明专利、软件著作权十余项,获业务流程管理领域国际顶级会议BPM 2015最佳学生论文奖(亚洲首次,中国唯一)、CBPM 2017/2018/2020/2021最佳(学生)论文奖。流程挖掘论文已被收入国际教材和学术专著,流程管理领域译著3部。现任国际会议ACL、AAAI、EMNLP、CAiSE、ICSOC、BPM程序委员会委员,中国业务流程管理大会CBPM指导委员会执行主席、IEEE流程挖掘工作组XES标准化小组委员(中国唯一),曾任BPM程序委员会资深委员。主导研发交互式大数据处理与分析平台FloK和流程挖掘工具THUMiner,研究成果已在中国移动、华为、中国气象局、天远科技、中车四方所、辽宁瑞华等企业获得成功应用。
