大數(shù)據(jù)時代,許多工作都要依靠海量的數(shù)據(jù),尤其是IT行業(yè),那么做大數(shù)據(jù)工程師需要掌握哪些呢?以下就是一些大數(shù)據(jù)面試題:
1、怎么解決kafka的數(shù)據(jù)丟失
2、fsimage和edit的區(qū)別?
3、列舉幾個配置文件優(yōu)化?
4、datanode 首次加入 cluster 的時候,如果 log 報告不兼容文件版本,那需要namenode 執(zhí)行格式化操作,這樣處理的原因是?
5、MapReduce 中排序發(fā)生在哪幾個階段?這些排序是否可以避免?為什么?
6、hadoop的優(yōu)化?
7、采集nginx產生的日志,日志的格式為user ip time url htmlId 每天產生的文件的數(shù)據(jù)量上億條,請設計方案把數(shù)據(jù)保存到HDFS上,并提供一下實時查詢的功能(響應時間小于3s)
8、有 10 個文件,每個文件 1G,每個文件的每一行存放的都是用戶的 query,每個文件的query 都可能重復。要求你按照 query 的頻度排序。 還是典型的 TOP K 算法,
9、在 2.5 億個整數(shù)中找出不重復的整數(shù),注,內存不足以容納這 2.5 億個整數(shù)。
10、騰訊面試題:給 40 億個不重復的 unsigned int 的整數(shù),沒排過序的,然后再給一個數(shù),如何快速判斷這個數(shù)是否在那 40 億個數(shù)當中?
相關推薦:
更多內容
>>本文地址:http://hqfphsz.com/jiuye/2019/47376.html
聲明:本站稿件版權均屬中公教育優(yōu)就業(yè)所有,未經許可不得擅自轉載。
1 您的年齡
2 您的學歷
3 您更想做哪個方向的工作?