当前位置:首页>大数据能力提升项目>核心课程

大数据系统基础

2022-09-14

《大数据系统基础》课程介绍

     该课程分为《大数据系统基础A》和《大数据系统基础B》两部分,是清华大学大数据能力提升项目的基础模块必修课,开设于秋季学期。内容是设计与实现一个数据分析系统架构,并基于这一系统架构完成数据分析任务。组织形式是学生根据项目具体需求,组建院系交叉融合的项目小组,在校内导师和企业导师的共同指导下完成项目任务。欢迎企业积极贡献项目和数据,并指派特定的企业导师指导学生完成相应项目。

   《大数据系统基础A》注重大数据系统应用,重点讲授大数据系统工具的概念、应用场景以及商业价值,通过对一系列与大数据相关的计算机系统知识的学习和动手实践,让学生理解大数据系统的软硬件架构、目前可用的工具、技术上存在的挑战,培养学生在工作中应用与选择大数据工具的能力,同时也为有志于继续深入学习大数据专业课程的学生创造基础。课程的主要内容包括:大数据生命周期、大数据软件栈、系统实践DWF、数据存储HDFS、时序数据IoTDB、数据质量分析过程与实战、Python语言、内存计算Spark、结构化数据Spark SQL、流计算Flink、系统实践FloK。

   《大数据系统基础B》注重大数据系统开发,重点介绍大数据管理的工具平台、开发环境、基本原理,使得学生熟悉典型大数据工具与平台的特性,掌握大数据处理的基本开发方式,巩固和加深大数据分析的基础知识。课程的主要内容包括:大数据生命周期、大数据软件栈、数据导入Kafka、数据存储HDFS、非结构化数据Cassandra、时序数据IoTDB、分布式计算MapReduce、内存计算Spark、结构化数据Spark SQL、流计算Flink。

    课程自开设以来就深受学生欢迎,其最大特色是突破了传统的教学方式,学生通过自行组队,以小组的形式在实际的企业项目中运用所学知识动手完成实践任务。今年,经过授课教师的严格把关和层层遴选,课程共引进了近20家来自业界的真实项目,行业数据多样化,领域涉及工业、石油化工、保险、交通、健康医疗和智慧城市等。

 

了解更多

1.项目征集介绍https://mp.weixin.qq.com/s/09_DaMEVQ69GdmShmgnL8w

2.部分成果展示https://mp.weixin.qq.com/s/63OZgmp2NIc0CeJ0mbaItw

 

授课教师简介

 

 

 

 

 

 

 

 

 

  

   王建民,清华大学软件学院院长、教授、博导大数据系统软件国家工程实验室执行主任国家杰出青年科学基金获得者、国家政府特殊津贴获得者。研究领域为大数据与知识工程,具体包括, 工业大数据,大数据系统软件,非结构化数据管理技术与系统,产品生命周期管理技术与系统。2008年以来在IEEE TKDE、IEEE TSC、WWWJ等期刊和SIGMOD、VLDB、ICDE、AAAI、ACM Multimedia、CVPR等国际会议与期刊上发表(录用)学术论文近200篇;申请中国发明专利授权近100项。2018年负责研制的“清华数为”工业互联网时间序列数据库IoTDB进入国际Apache开源社区。

 

 

 

 

 

 

 

 

 

  

   宋韶旭,清华大学软件学院副教授、博导专注于数据质量、数据清理、数据集成等领域的研究。主持国家自然科学基金项目、国家重点研发计划项目课题。在TODS、VLDBJ、TKDE、SIGMOD、VLDB、ICDE、KDD 等CCF-A类期刊和会议上发表论文40余篇。授权专利10余项。担任PVLDB编委,JDIQ特约编辑,VLDB、ICDE、KDD、SIGIR、IJCAI等国际会议程序委员会委员,中国计算机学会数据库专业委员会执行委员,获得VLDB 2019、CIKM 2017杰出评审奖。