8月11日下午,主题为“大数据常见技术框架及工具介绍”的内部培训,于未来教育高精尖创新中心西一会议室顺利开展。本次培训邀请到学习科学实验室研究员陈鹏鹤博士为主讲人,主要从大数据技术构架及常见处理工具角度对大数据进行讨论。
首先,陈博士对大数据的含义和特征进行了简单的介绍,提到大数据对于这个时代信息产业持续高速增长、科学研究的方法手段的改变都有着重大的作用。对大数据的处理分析正成为新一代信息技术融合应用的结点。介绍了大数据是由逐步递进的六个层次的抽象技术框架构成的。分别是:一数据集成层、二文件存储层、三资源管理层、四数据存储层、五编程模型层、六数据分析层,演示了基于HADOOP生态系统的大数据技术构架和处理大数据的流程。并对大数据分析引擎在不同的行业的具体功能应用进行了介绍,例如大规模批处理在零售业的关联分析起重要作用,实时监护分析又作用于医疗卫生与生命科学、保险业、投机市场、执法领域等。
最后,陈博士通过对中心大数据的情况进行分析,认为中心数据量相对不大、数据类型主要是文本(包括数字信息),为保证数据质量需要进行必要的清洗处理。对中心大数据基础平台架构提出添加图数据库(Neo4j/Titan)模块以支持图搜索、使用Hadoop+Spark架构更方便、使用TB级硬盘、内存使用64GB以上等在架构、集群大小、机器性能三方面的几点建议。
同事们纷纷表示通过此次的培训学习,对大数据基础理论概念有更深刻的认识,并期待下一次的培训。希望下一次陈博士能以智慧学伴或其他领域场景为例,分享从数据采集到可视化的具体步骤是如何实现的。
主讲人陈鹏鹤博士
主题培训现场
地址:北京市昌平区北沙河西三路北京师范大学昌平校园G区3号楼4-5层
©版权所有 北京师范大学未来教育高精尖创新中心
邮编:102206 电话:010-56444401、010-56444402、010-56444403(双师服务答疑专线) E-mail:gaojingjian@bnu.edu.cn 国内合作邮箱:gjjdwhz@bnu.edu.cn