德胜云资讯,添加一些关于程序相关的内容,仅供大家学习交流(https://www.wxclwl.com)

网站地图

搜索
德胜云咨询
人工智能分类 机器学习 数据分析 图像处理 语言模型
热门标签:
最新标签:

大数据分析师教材大数据工程师必备书单大数据分析师实战全集深度揭秘,

日期:2023/04/14 15:25作者:蔡依婷人气:

导读:分类书名作者难度参考评语杂书类(有闲工夫才读系列)《大数据时代》维克托·迈尔·舍恩伯格容易从思维,商业和管理角度来阐述大数据对整个社会带来的影响...

分类

书名

作者

难度参考

评语

杂书类

(有闲工夫才读系列)

《大数据时代》

维克托·迈尔·舍恩伯格

容易

从思维,商业和管理角度来阐述大数据对整个社会带来的影响。

这本书不能让我们学会大数据,但是可以让我们了解为什么要有大数据,

为什么需要了解大数据和大数据带来的问题和解。

《数据之巅:大数据革命,历史、现实与未来》

涂子沛

容易

通过“数据”在这个世界两大国家发展的历史中,展望了未来发展的远景。

作为一本杂书,用了非常多有趣的故事和历史事件来聊数据产业的发展和变革,

非常有意思,开卷有益系列,可作为睡前故事读读。

教材类

(内容相对较全,

但深度不足,

适合快速了解,

适合初学者)

《Hadoop权威指南》

汤姆·怀特

中等

大部头书,入门必看,经典Hadoop一本通。如果只能看一本书,就是这本。

这本非进阶书,但已经入门的同学如果没有看过这本,还是可以快速扫一遍的。

初学者也尽量以速读的方式看本书,因为很多内容一时间用不到,本书可以

作为字典后续复习用,建议速读或跳读本书感兴趣的章节,建议买来收藏。

《Hadoop与大数据挖掘》

张良均

容易

部分大学大数据方向的配套教材,可以说是Hadoop权威指南的子集,国人撰写。

通俗易读,展开不会很深,适合时间紧张看不完《权威指导》的同学。

《快学Scala》

凯.S.霍斯特曼

容易

这本书我偶尔翻翻,没有通读过,但是我不少同事都看过,适合有Java基础

的同学快速上手Scala。Scala非本训练营内容,掌握Scala能帮助大家学习Spark。

但并不是不会Scala就没法学习Spark或其他大数据技术,本来想放到拓展类的,

但是觉得课程还是会用到不少Scala代码,还是建议大家有时间学习一下。

《大数据日知录:架构与算法》

张俊林

容易

国人写的图书就是覆盖面广,非常适合入门,介绍了常用的大数据相关算法和

几乎覆盖完全的各种大数据系统架构。如果时间紧张,一本通也是不错的选择,

通俗易懂,看得快,像是总结又像导言。

《Spark权威指南》

Bill Chambers / Matei Zaharia

中等

类似《Hadoop权威指南》,但是没有前者经典,推荐的原因是本书是Spark项目

创始人亲自创作,作者都来自Databricks公司,内容描述的准确性是最权威的。

该书上市时间毕竟晚,我本人没有看过该书,但是粗略看了下目录属于入门级别。

《Spark快速大数据分析

霍尔顿·卡劳

容易

这本书可以作为Spark入门的首选图书,内容比较老,但是写的挺好,初学时收益

良多。本书不厚,时间紧张的同学建议作为Spark的第一本入门书。

Sql必知必会 第4版》

福达

容易

怎么能没有SQL入门图书呢,“写好SQL“并非本训练营重点,但是不会SQL还真就

无法领略大数据的精髓。本书薄薄一本,周六花半天时间就能看完。虽然不会SQL

不影响课程学习,但是课程中不少SQL概念,事半功倍就看你肯不肯预习本书了。

《Hive编程指南》

卡普廖洛

中等

Hive其实真的没啥书推荐,这本书想看就看,不看也行。

《HBase权威指南》

Lars George

容易

老师只读过《Hbase权威指南》,内容不错,但是内容太老了,如果你只想了解

Hbase,不想知道Hbase太多的技术细节,不妨速读这本书。

《Kafka权威指南》

Neha Narkhed

容易

Kafka创始团队背书,内容基础,理论多,入门书之一。

《基于Apache Flink的流处理》

比安‧霍斯克

中等

OReilly的书真的不错,这本我觉得属于入门和进阶之间,属于Flink必读好书。

《Presto实战》

马特·富勒

容易

推荐该书是因为OReilly,其实和官网差不多,可以很快看完。

进阶类

(难度加大,

需要相关知识背景,

深度增加,

不适合初学者)

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》

蔡斌

中等

这三本书可以一起讲,原理性技术性占比多,所以细节也很多,上来就啃有难度,

适合进阶学习。虽然内容已经比较老了,但是本质的东西没有变化。

《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》

董西成

中等

《Hadoop技术内幕:深入解析YARN架构设计与实现原理》

董西成

中等

《高性能Spark(影印版)(英文版)》

霍尔顿·卡劳

困难

这本书我翻过几章,早些年觉得还是比较有深度的,不适合初学者,但现在回头看

发现都是些“简单”的内容了,想进阶的同学建议看下,而且是英文版,边学英语

边学Spark,其乐无穷。

《Spark SQL内核剖析》

朱锋

困难

市面上为数不多的讲SparkSQL内核的书,作者是我目前的同事,就坐在我隔壁。

本书我也读过好多遍,可以帮助理解源码。

《HBase原理与实践》

胡争

中等

作为Hbase方向的补充和进阶,这本书比《HBase权威指南》更新和深入。

《流式系统(影印版)》

Tyler Akidau

困难

这本书也是英文版,读起来会有难度,但是我觉得是属于流式计算方向不可或缺的

必读书之一。里面有许多流式系统的特有概念和原理介绍,英文版有那味儿了。

抛开具体的开源系统,回归系统设计本身,回过头来看这边书的时候,才发现这

才是真正的“入门书“啊。

《数据库系统内幕》

亚历克斯·彼得罗夫

中等

这本书介绍了现代数据库技术许多底层的技术原理,计科出身同学并不会觉得难,

老外写的书真的好。要从事大数据特别是数据库方向的同学强力推荐。

不过内容超纲本训练营,属于进阶类图书。

《数据仓库工具箱(第3版)》

Ralph Kimball

中等

看作者名字,就知道不得不推荐了。再次强调,训练营相关数据仓库内容的重点是

数据仓库的平台架构,而非数据仓库领域的表设计,纬度建模,挖掘和数据应用。

虽然我也会尽可能多的给大家去讲数据仓库的基本知识,但是深度上无法达到数据

仓库专家的水平,因为这涉及到大量业务知识和建模经验。

拓展类

(非课程内容相关,

仅可拓展知识,

感兴趣可选读)

《Scala编程》

马丁·奥德斯基

中等

Scala作者操刀编写,还能说什么的,Scala学习圣经

《数据密集型应用系统设计》

马丁·科勒普曼

困难

本书的内容安排真的非常符合老师想在本训练营教授的内容体系:

数据库,数据模型,分布式系统原理,批,流。

但是干讲这些东西太枯燥,而且眼睛会了脑子不会,脑子会了身体不会。

希望有追求的同学能阅读本书。

《大数据湖最佳实践》

Alex Gorelik

容易

数据湖的书很少,有兴趣的同学可以看看这本作为拓展,本书不能直接指导实践,

不过提到了一些概念也许未来有用或者能给人启迪。推荐的理由是O‘Reilly的书。

《Star Schema完全参考手册》

亚当森

中等

又是一本数据仓库建模和设计的经典书,感兴趣的同学可以看看。

《大数据之路:阿里巴巴大数据实践》

阿里巴巴数据技术及产品部

中等

综合性的介绍阿里巴巴大数据的一些实践内容,内容非常具有阿里特色,代表着

中国优质互联网公司的发展方向和经验介绍。可作为扩展阅读。

排行

网站地图

Copyright © 2002-2022 香港德胜云网络 版权所有 | 备案号:蜀ICP备2023007363号-5

声明: 本站内容全部来自互联网,非盈利性网站仅供学习交流