大数据频道 频道

Top30数据分析师常见面试题(附答案)!

  【IT168 评论】这是一个用数据说话的时代,也是一个依靠数据竞争的时代。各大互联网公司都在不断完善自己的数据分析团队,数据分析师的薪酬也是水涨船高。业内人士透露,应届毕业生的平均薪资大概在6K左右,1至3年经验的大概在10K到20K之间,5至10年经验的大概在25K以上。薪资还是十分诱人的,那么,如何快速成长为一名年薪百万的数据分析师呢?快来看看,以下30道数据分析相关面试题,你会多少?

  1、分析数据还要写java代码是不是效率有点低?

Top30数据分析师常见面试题(附答案)!

  2、成为一名数据分析师需要具备哪些技能?

  要成为一名数据分析师,需要掌握丰富的报告软件包(Business Objects),编程语言(XML,Javascript或ETL框架),数据库(SQL,SQLite等);能够准确分析、组织、收集或传播数据;掌握数据库设计,数据模型,数据挖掘等方面的技术知识以及分析大型数据集(SAS,Excel,SPSS等)的统计软件包知识。

  3、分析项目的各个步骤是什么?

  分析项目的各个步骤包括:

  ·问题定义

  ·数据挖掘

  ·数据准备

  ·模型化

  ·数据认证

  ·实施跟踪

  4、分析的结果数据特别大,在线请求这些结果数据扛不住了,咋搞?

Top30数据分析师常见面试题(附答案)!

  5、列出数据清理的非常好的实践?

  一些数据清理的非常好的实践包括:

  ·按不同的属性排序数据

  ·对于大数据集,逐步清理并改进数据,直到获得良好的数据质量

  ·对大型数据集,可以先将其分解为小数据集,使用更少的数据将增加迭代速度

  ·要处理常见的清理任务,请创建一组实用程序函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重映射值,或者正则表达式搜索和替换,消除所有不匹配正则表达式的值

  ·如果在数据清理方面存在问题,请按照估计的频率进行安排并解决问题

  ·分析每列的汇总统计数据(标准差,均值,缺失值的数量)

  ·保持对每一个清理操作的跟踪,以便可以根据需要更改或删除操作

  6、海量日志数据,提取出某日访问百度次数最多的那个IP。

Top30数据分析师常见面试题(附答案)!

  7、可用于数据分析的一些非常好的工具清单有什么?

  ·Tableau

  ·RapidMiner

  ·OpenRefine

  ·KNIME

  ·Google Search Operators

  ·Solver

  ·NodeXL

  ·io

  ·Wolfram Alpha’s

  ·Google Fusion tables

  8、数据挖掘和数据分析之间的区别是什么?

  数据挖掘和数据分析之间的区别在于:

  ·数据分析:针对个别属性的实例分析。提供有关属性的各种信息,如值范围,离散值及其频率,空值的发生,数据类型,长度等。

  ·数据挖掘:重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。

  9、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

Top30数据分析师常见面试题(附答案)!

  10、用于处理分布式计算环境中应用程序大数据集的Apache框架有哪些?

  Hadoop和MapReduce是由Apache开发的用于处理分布式计算环境中应用程序大数据集的编程框架。

  11、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在40亿个数当中?

Top30数据分析师常见面试题(附答案)!

Top30数据分析师常见面试题(附答案)!

  12、解释KNN插补方法是什么?

  在KNN插补中,通过使用与其值缺失的属性最相似的属性值来推断缺少的属性值。通过使用距离函数,确定两个属性的相似度。

  13、数据分析师使用的数据验证方法是什么?

  通常,数据分析师用于数据验证的方法是数据筛选和数据验证。

  14、解释应该如何处理可疑或缺失数据?

  ·准备提供所有可疑数据信息的验证报告。它应该提供信息,如失败的验证标准以及发生的日期和时间

  ·有经验的数据分析师应该检查可疑数据以确定其可接受性

  ·应该找出无效数据并用验证码替换

  ·对缺失数据进行处理,使用非常好的分析策略,如删除,单一插补方法,基于模型的方法等。

  15、如何避免过拟合?

  过拟合表现在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers。常见的解决办法是正则化:增大数据集,正则化

  16、解释异常值是什么?

  异常值是分析师使用的一个术语,指的是一个远远超出样本总体模式的值。有两种类型的异常值:

  ·Univariate

  ·Multivariate

  17、解释分层聚类算法是什么?

  分层聚类算法结合并划分现有的组,创建分层结构并展示组划分或合并的顺序。

  18、解释K均值算法是什么?

  K均值是一种著名的分区方法。对象被分类为属于K个组中的一个,k是先验选择的。

  在K均值算法中:

  ·簇是球形的:簇中的数据点以该簇为中心

  ·簇的方差/扩展是相似的:每个数据点属于最接近的簇

  19、数据分析师所需掌握的关键技能是什么?

  数据科学家必须具备以下技能:

  数据库知识

  ·数据库管理

  ·数据混合

  ·数据查询

  ·数据操作

  预测分析

  ·基本描述性统计

  ·预测建模

  ·高级分析

  大数据知识

  ·大数据分析

  ·非结构化数据分析

  ·机器学习

  演示技巧

  ·数据可视化

  ·报告设计

  20、解释协同过滤是什么?

  协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组件是用户对项目的兴趣。

  协同过滤一个很好的例子就是购物网站上出现的类似“为您推荐”的模块,该模块通常会获取用户的浏览记录信息,以弹出用户可能喜欢或需要的商品。

  21、大数据中通常会使用到哪些工具?

  大数据中使用的工具包括:

  ·Hadoop

  ·Hive

  ·Pig

  ·Flume

  ·Mahout

  ·Sqoop

  22、解释什么是KPI,实验设计和80/20规则?

  ·关键绩效指标(KPI):它代表关键绩效指标(Key Performance Indicator),它是关于业务流程的报告或图表

  ·实验设计:这是用于分解数据,采样和建立数据以进行统计分析的初始过程

  ·80/20规则:这意味着你收入的80%来自客户的20%

  23、解释Map Reduce是什么?

  Map-Reduce是一个处理大型数据集的框架,可以将它们分解成子集,在不同的服务器上处理每个子集,然后混合每个子集上获得的结果。

  24、解释聚类是什么?聚类算法的属性?

  聚类是一种应用于数据的分类方法。聚类算法将数据集划分为自然组或集群。

  聚类算法的属性是:

  ·Hierarchical or flat

  ·Iterative

  ·Hard and soft

  ·Disjunctive

  25、对数据分析师有用的统计方法是什么?

  对数据科学家有用的统计方法是

  ·贝叶斯方法

  ·马尔科夫过程

  ·空间和集群进程

  ·统计数据,百分位数,异常值检测

  ·计算技巧等

  ·简单的算法

  ·数学优化

  26、时间序列分析是什么?

  时间序列分析可以在频域和时域两个域中完成。在时间序列分析中,可以通过指数平滑,对数线性回归等各种方法分析数据,来预测特定过程输出。

  27、解释空间自相关分析是什么?

  空间自相关分析是地理空间分析的常用形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,它可以用于构建基于距离的数据相关图。

  28、散列表是什么?散列表冲突是什么?如何避免?

  在计算中,哈希表(散列表)是键值对的映射,这是一个用于实现关联数组的数据结构。它使用散列函数来计算一个时隙阵列的索引,从中可以获取所需的值。

  当两个不同的键散列到相同的值时,发生散列表冲突。两个数据不能存储在阵列的同一个插槽中。

  为了避免散列表碰撞,有很多技巧,这里列出两个:

  ·分离链接:它使用数据结构来存储散列到同一个插槽的多个项目。

  ·再探测:在找到查找位置的index的index-1,index+1位置查找,index-2,index+2查找,依次类推。这种方法称为线性再探测。

  29、解释 imputation是什么?列出不同类型的插补技术?哪种插补方法更有利?

  在插补过程中,我们用替代值替换丢失的数据。插补技术涉及的类型有:

  ·单一插补

  ·热点插补:从随机选择的类似记录中推断缺失值

  ·冷却板插补:与热点插补相同,但更先进,从其他数据集中选择供体

  ·平均估算:在所有其他情况下,用该变量的平均值代替缺失值

  ·回归插补:用基于其他变量的变量预测值替换缺失值

  ·随机回归:与回归插补一样,但它将平均回归方差加入到回归估计中

  ·多重插补:与单个插补不同,多重插补会多次估计值

  虽然单一插补法被广泛使用,但并不能反映随机丢失数据所造成的不确定性。因此,在数据丢失的情况下,多重插补更有利。

  30、解释N-gram是什么?

  N-gram是来自给定序列文本或语音的n个项目的连续序列。这是一种以(n-1)形式预测下一个项目的概率语言模型。

9
相关文章