当前在线人数12537
首页 - 分类讨论区 - 海外生活 - 待字闺中版 -阅读文章
未名交友
[更多]
[更多]
文章阅读:Hadoop面试和学习小结[2013版]
[同主题阅读] [版面: 待字闺中] [作者:dongfeiwww] , 2012年03月01日04:05:10
dongfeiwww
进入未名形象秀
我的博客
[上篇] [下篇] [同主题上篇] [同主题下篇]

发信人: dongfeiwww (人人都是艺术家), 信区: JobHunting
标  题: Hadoop面试和学习小结[2013版]
关键字: 面试,Big Data,Hadoop
发信站: BBS 未名空间站 (Thu Mar  1 04:05:10 2012, 美东)
[2013 UPDATE]
Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都
要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的
诞生还是有趣的故事
http://tech.qq.com/a/20130703/015928.htm

YARN介绍
http://hortonworks.com/hadoop/yarn/
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

Hadoop 生态系统
http://www.neevtech.com/blog/2013/03/18/hadoop-ecosystem-at-a-glance

SQL on Hadoop
http://gigaom.com/2013/02/21/sql-is-whats-next-for-hadoop-heres-whos-doing-it/

Hadoop Summit
http://hadoopsummit.org/san-jose/

#######################
随着大数据的盛行,Hadoop也流行起来。之前面过一些公司,包括开发Hadoop
:如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop
的除了Google,数不胜数了
这块还是机会挺多的,我就把我知道的给大家分享一下。

书籍和Paper
<Hadoop: The Definitive Guide>: 里面内容非常好,既有高屋建瓴,又有微观把握,
基本适用于0.18-0.20版本。比如mapreduce各个子阶段,Join在里面也有代码实现,
第三版
http://it-ebooks.info/book/635/
https://github.com/tomwhite/hadoop-book
Google的三辆马车,GFS, MapReduce, BigTable
Google的新三辆马车:Caffeine、Pregel、Dremel
http://blog.mikiobraun.de/2013/02/big-data-beyond-map-reduce-googles-papers.html
SIGMOD, VLDB最新

入门:
知道MapReduce大致流程,Map, Shuffle, Reduce
知道Combiner, partition作用,设置Compression
搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker,
TaskTracker
Pig, Hive 简单语法,UDF写法
http://www.hadoopwizard.com/when-to-use-pig-latin-versus-hive-sql/
http://ofps.oreilly.com/titles/9781449302641/index.html
http://www.slideshare.net/zshao
http://www.cloudera.com/content/cloudera/en/resources/library/training/introduction-to-apache-hive.html
http://i.stanford.edu/~ragho/hive-icde2010.pdf
http://www.slideshare.net/ragho/hive-icde-2010
Hadoop 2.0新知识; HDFS2 HA,snapshot, ResourceManager,ApplicationsManager,
NodeManager

进阶:
HDFS,Replica如何定位
http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf
Hadoop 参数调优,性能优化,Cluster level: JVM, Map/Reduce Slots, Job level:
Reducer #,
Memory, use Combiner? use Compression?
http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/
http://www.slideshare.net/ydn/hadoop-summit-2010-tuning-hadoop-to-deliver-performance-to-your-application

HBase 搭建,region server, key如何选取
http://hbase.apache.org/book.html
数据倾斜怎么办?
http://www.tbdata.org/archives/2109

算法:
字典同位词
翻译SQL语句 select count(x) from a group by b;
http://blog.cloudera.com/wp-content/uploads/2010/01/5-MapReduceAlgorithms.pdf

Blog
关注Cloudera, Hortonworks
http://hortonworks.com/blog/
http://blog.cloudera.com/blog/
http://dongxicheng.org/
http://cloud21.iteye.com/blog/607175

相关系统
数据流系统: Storm(Twitter), S4(Yahoo)
https://github.com/nathanmarz/storm/wiki/Tutorial
内存计算系统: Spark  and Shark (Berkeley)
http://www.slideshare.net/Hadoop_Summit/spark-and-shark
交互式实时系统:Cloudera Impala, Apache Drill (Dremel开源实现),Tez (
Hortonworks)

公司列表:
http://wiki.apache.org/hadoop/PoweredBy

其他
- 这个领域还是印度人占主体,Hortonworks挺喜欢开源,开发节奏很快,cloudera的
拳头产品Enterprise manager是收费的,估计最被H逼着要开源了。
- 开源让这个世界更美好,Hadoop进化目标:开发部署傻瓜化,性能更强劲,最后为程
序员标配。
- 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,三
流的公司卖产品,H和C有最多的committer,自然就影响着整个Hadoop社区。
- 技术就是日新月异,还是多看看那些公司的博客,关注感兴趣的新产品,比如
hortonworks.com/hadoop/ambari,我做过跟这个类似。
- 在Hadoop系统中从头裸写MapReduce不现实了,ETL基本靠Hive,Pig, 之前还用过
Scalding,
https://github.com/twitter/scalding
- MapReduce并不是最优的,仅适合批处理,很多问题:JVM的启动overhead很大,小
Job更明显,数据必须先存储,不适合迭代计算,延迟高。DB学术圈讨论很久tradeoff
了,这片MapReduce: 一个巨大的倒退
http://blog.sina.com.cn/s/blog_62a9902f0100gs4q.html




--

※ 修改:·dongfeiwww 於 Jul 13 01:42:27 2013 修改本文·[FROM: 99.]
※ 来源:·WWW 未名空间站 海外: mitbbs.com 中国: mitbbs.cn·[FROM: 152.3.]

[上篇] [下篇] [同主题上篇] [同主题下篇]
[转寄] [转贴] [回信给作者] [修改文章] [删除文章] [同主题阅读] [从此处展开] [返回版面] [快速返回] [收藏] [举报]
 
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996