Hadoop大数据面试题全版本，必看跳槽指南！-大数据频道专区

Hadoop大数据面试题全版本，必看跳槽指南！

作者：简书编辑：赵钰莹 2018-06-06 09:52 来源：简书

35.MapReduce优化经验

　　答：(1.)设置合理的map和reduce的个数。合理设置blocksize

　　(2.)避免出现数据倾斜

　　(3.combine函数

　　(4.对数据进行压缩

　　(5.小文件处理优化：事先合并成大文件，combineTextInputformat，在hdfs上用mapreduce将小文件合并成SequenceFile大文件(key:文件名，value：文件内容)

　　(6.参数优化

　　36.请列举出曾经修改过的/etc/下面的文件，并说明修改要解决什么问题?

　　答：/etc/profile这个文件，主要是用来配置环境变量。让hadoop命令可以在任意目录下面执行。

　　/ect/sudoers

　　/etc/hosts

　　/etc/sysconfig/network

　　/etc/inittab

　　37.请描述一下开发过程中如何对上面的程序进行性能分析，对性能分析进行优化的过程。

　　38. 现有 1 亿个整数均匀分布，如果要得到前 1K 个最大的数，求最优的算法。

　　参见《海量数据算法面试大全》

　　39.mapreduce的大致流程

　　答：主要分为八个步骤

　　1/对文件进行切片规划

　　2/启动相应数量的maptask进程

　　3/调用FileInputFormat中的RecordReader，读一行数据并封装为k1v1

　　4/调用自定义的map函数，并将k1v1传给map

　　5/收集map的输出，进行分区和排序

　　6/reduce task任务启动，并从map端拉取数据

　　7/reduce task调用自定义的reduce函数进行处理

　　8/调用outputformat的recordwriter将结果数据输出

　　40.用mapreduce实现sql语 select count (x) from a group by b;

　　41.搭建hadoop集群， master和slaves都运行哪些服务

　　答：master主要是运行我们的主节点，slaves主要是运行我们的从节点。

　　42. hadoop参数调优

　　43. pig , latin , hive语法有什么不同

　　44. 描述Hbase，ZooKeeper搭建过程

　　45.hadoop运行原理

　　答：hadoop的主要核心是由两部分组成，HDFS和mapreduce，首先HDFS的原理就是分布式的文件存储系统，将一个大的文件，分割成多个小的文件，进行存储在多台服务器上。

　　Mapreduce的原理就是使用JobTracker和TaskTracker来进行作业的执行。Map就是将任务展开，reduce是汇总处理后的结果。

　　46.mapreduce的原理

　　答：mapreduce的原理就是将一个MapReduce框架由一个单独的master JobTracker和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务，这些的slave上，master监控它们的执行，重新执行已经失败的任务。而slave仅负责执行由maste指派的任务。

　　47.HDFS存储机制

　　答：HDFS主要是一个分布式的文件存储系统，由namenode来接收用户的操作请求，然后根据文件大小，以及定义的block块的大小，将大的文件切分成多个block块来进行保存

　　48.举一个例子说明mapreduce是怎么运行的。

　　Wordcount

　　49.如何确认hadoop集群的健康状况

　　答：有完善的集群监控体系(ganglia，nagios)

　　Hdfs dfsadmin –report

　　Hdfs haadmin –getServiceState nn1

　　50.mapreduce作业，不让reduce输出，用什么代替reduce的功能。

　　51.hive如何调优

　　答：hive最终都会转化为mapreduce的job来运行，要想hive调优，实际上就是mapreduce调优，可以有下面几个方面的调优。解决收据倾斜问题，减少job数量，设置合理的map和reduce个数，对小文件进行合并，优化时把握整体，单个task最优不如整体最优。按照一定规则分区。

　　52.hive如何控制权限

　　我们公司没做，不需要

　　53.HBase写数据的原理是什么?

　　答：

　　54.hive能像关系型数据库那样建多个库吗?

　　答：当然能了。

　　55.HBase宕机如何处理

　　答：宕机分为HMaster宕机和HRegisoner宕机，如果是HRegisoner宕机，HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久在HDFS中，该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

　　如果是HMaster宕机，HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。即ZooKeeper会保证总会有一个HMaster在对外提供服务。

　　56.假设公司要建一个数据中心，你会如何处理?

　　先进行需求调查分析

　　设计功能划分

　　架构设计

　　吞吐量的估算

　　采用的技术类型

　　软硬件选型

　　成本效益的分析

　　项目管理

　　扩展性

　　安全性，稳定性

第1页：Hadoop大数据面试题全版本，必看跳槽指南！第2页：Hadoop大数据面试题全版本，必看跳槽指南！

关注我们