大数据频道 频道

Hadoop大数据面试题全版本,必看跳槽指南!

  35.MapReduce优化经验

  答:(1.)设置合理的map和reduce的个数。合理设置blocksize

  (2.)避免出现数据倾斜

  (3.combine函数

  (4.对数据进行压缩

  (5.小文件处理优化:事先合并成大文件,combineTextInputformat,在hdfs上用mapreduce将小文件合并成SequenceFile大文件(key:文件名,value:文件内容)

  (6.参数优化

  36.请列举出曾经修改过的/etc/下面的文件,并说明修改要解决什么问题?

  答:/etc/profile这个文件,主要是用来配置环境变量。让hadoop命令可以在任意目录下面执行。

  /ect/sudoers

  /etc/hosts

  /etc/sysconfig/network

  /etc/inittab

  37.请描述一下开发过程中如何对上面的程序进行性能分析,对性能分析进行优化的过程。

  38. 现有 1 亿个整数均匀分布,如果要得到前 1K 个最大的数,求最优的算法。

  参见《海量数据算法面试大全》

  39.mapreduce的大致流程

  答:主要分为八个步骤

  1/对文件进行切片规划

  2/启动相应数量的maptask进程

  3/调用FileInputFormat中的RecordReader,读一行数据并封装为k1v1

  4/调用自定义的map函数,并将k1v1传给map

  5/收集map的输出,进行分区和排序

  6/reduce task任务启动,并从map端拉取数据

  7/reduce task调用自定义的reduce函数进行处理

  8/调用outputformat的recordwriter将结果数据输出

  40.用mapreduce实现sql语 select count (x) from a group by b;

  41.搭建hadoop集群 , master和slaves都运行哪些服务

  答:master主要是运行我们的主节点,slaves主要是运行我们的从节点。

  42. hadoop参数调优

  43. pig , latin , hive语法有什么不同

  44. 描述Hbase,ZooKeeper搭建过程

  45.hadoop运行原理

  答:hadoop的主要核心是由两部分组成,HDFS和mapreduce,首先HDFS的原理就是分布式的文件存储系统,将一个大的文件,分割成多个小的文件,进行存储在多台服务器上。

  Mapreduce的原理就是使用JobTracker和TaskTracker来进行作业的执行。Map就是将任务展开,reduce是汇总处理后的结果。

  46.mapreduce的原理

  答:mapreduce的原理就是将一个MapReduce框架由一个单独的master JobTracker和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由maste指派的任务。

  47.HDFS存储机制

  答:HDFS主要是一个分布式的文件存储系统,由namenode来接收用户的操作请求,然后根据文件大小,以及定义的block块的大小,将大的文件切分成多个block块来进行保存

  48.举一个例子说明mapreduce是怎么运行的。

  Wordcount

  49.如何确认hadoop集群的健康状况

  答:有完善的集群监控体系(ganglia,nagios)

  Hdfs dfsadmin –report

  Hdfs haadmin –getServiceState nn1

  50.mapreduce作业,不让reduce输出,用什么代替reduce的功能。

  51.hive如何调优

  答:hive最终都会转化为mapreduce的job来运行,要想hive调优,实际上就是mapreduce调优,可以有下面几个方面的调优。解决收据倾斜问题,减少job数量,设置合理的map和reduce个数,对小文件进行合并,优化时把握整体,单个task最优不如整体最优。按照一定规则分区。

  52.hive如何控制权限

  我们公司没做,不需要

  53.HBase写数据的原理是什么?

  答:

  54.hive能像关系型数据库那样建多个库吗?

  答:当然能了。

  55.HBase宕机如何处理

  答:宕机分为HMaster宕机和HRegisoner宕机,如果是HRegisoner宕机,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

  如果是HMaster宕机,HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。即ZooKeeper会保证总会有一个HMaster在对外提供服务。

  56.假设公司要建一个数据中心,你会如何处理?

  先进行需求调查分析

  设计功能划分

  架构设计

  吞吐量的估算

  采用的技术类型

  软硬件选型

  成本效益的分析

  项目管理

  扩展性

  安全性,稳定性



1
相关文章