当前位置:首页>科学研究>交叉领域

大数据系统软件领域负责人:王建民教授

2022-01-12

团队提出了“三层次、五阶段”大数据软件技术体系,聚焦大数据基础可信支撑环境、大数据存储管理、大数据深度分析、大数据计算框架4个方向开展研究,取得了系列成果,获国家科技进步一等奖1项,省部级科技成果一等奖7项。

 

一、领域大数据应用开发工具DWF

针对大数据系统软件应用存在开发工具复杂、应用人才短缺的结构性矛盾,开发了面向领域大数据应用需求的应用低代码开发环境DWF,自主研制具有一站式、可配置、敏捷性和低码量特点的“数为”大数据应用软件开发工具。

二、工业物联网时序数据库管理系统IoTDB

在大数据存储管理方面:突破了自适应物理存储、元数据自动识别、高鲁棒数据处理等核心技术,建立存储、查询、处理解耦的“端边云协同”框架,自主研制面向工业互联网的时序数据库IoTDB,成为国际开源软件基金会Apache顶级项目。第三方公开测试表明其性能领先国际同类产品,目前已在200余家工业企业投用。获2020年北京市科技进步一等奖。

智能数据集成清理工具TsClean

针对工业场景数据质量低的问题,建立了完整性、一致性、时效性、有效性四维的时序数据质量指标体系,提出了多变容忍的距离规则,建立高质量数据画像,实现数据质量问题的早期识别,最大范围予以自动纠正,自主研制了数据集成清理工具TsClean。

四、交互式机器学习引擎Anylearn

针对数据驱动应用面临“成本高,落地难”的痛点,自主研制了交互式机器学习引擎Anylearn,突破了深度迁移学习等关键技术,实现一处训练、多处推理、结果迁移,综合运用先进的容器化微服务技术,通过对异构机器学习模型进行标准化封装,贯通“端边云”开发全链路,解决了机器学习庞大软件生态的构建部署和运维难题,为智能气象预报、生态环境监测、智能制造等领域提供有力支撑。

五、交互式计算流程引擎-FloK

FloK是一款交互式大数据计算流程引擎,提供了大数据处理与分析工作流的全生命周期管理:数据准备->流程搭建->流程调试->流程配置->流程运行->流程监控->结果查看->流程分析->流程优化。引擎内置丰富的多模态数据处理与分析算法库,涵盖数据源、数据集、算法、算法模板、流程模板、流程配置、流程实例、计算环境、存储环境、系统配置等管理功能,实现零代码完成数据处理与分析的完整通路,支持多种关系数据库、时序数据库和非结构化数据库,支持流处理、批处理、批流融合处理等模式,支持Python、Java、Scala等开发语言。