首页 数据工程师培训题库四

数据工程师培训题库四

举报
开通vip

数据工程师培训题库四【说明】客观题30题,每题2分,总计60分主观题4题,每题10分,总计40分满分100分。【不定项选择题(每题2分共60分)】以下与HDFS有关的说法正确的选项是()A.HDFSDataNode节点上的磁盘需要做RAID1,用来保证数据的靠谱性B.HDFS可以在磁盘之间经过balance操作,均衡磁盘之间的负载状况C.HDFS建议DataNode之间的数据盘个数、容量大小不一致,以表现HDFS的负载均衡能力D.规划HDFS集群时,建议ActiveNameNode和StandbyNameNode分配在不一样的机架上以...

数据工程师培训题库四
【说明】客观题30题,每题2分,总计60分主观题4题,每题10分,总计40分满分100分。【不定项选择题(每题2分共60分)】以下与HDFS有关的说法正确的选项是()A.HDFSDataNode节点上的磁盘需要做RAID1,用来保证数据的靠谱性B.HDFS可以在磁盘之间经过balance操作,均衡磁盘之间的负载状况C.HDFS建议DataNode之间的数据盘个数、容量大小不一致,以表现HDFS的负载均衡能力D.规划HDFS集群时,建议ActiveNameNode和StandbyNameNode分配在不一样的机架上以下哪个服务作为HDFS高靠谱协调服务的共享储存?()ZooKeeperJournalNodesNameNodeZKFailoverController在集群中配置HDFS的副本数为3,设置数据块大小为128M,此时我们上传一份64M的数据文件,该数据文件占用HDFS空间大小为()A.64MB.128MC.384MD.192M在Yarn服务中,不包括以下哪一种角色()A.ResourceManagerB.NodeManagerC.ApplicationMasterD.ContianerResourceManager是YARN的主要构成部分,有关其功能描述不正确的选项是()A.它直接将集群所拥有的资源按需分配给运转在YARN上的应用程序B.它负责将集群中的全部资源进行一致管理和分配C.它接受各个节点的资源报告信息D.它把资源依据策略分配给各应用TDH数据平台认证 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 师试题姓名:_______________分数:____________当前用户提交了一个wordcount词频统计的任务,最后任务执行失败,可能的原由有哪些()A.当前集群中没有足够的资源,不足以满足当前wordcount任务的需求B.执行该任务的用户没有权限接见HDFS上的数据文件C.用户在执行任务从前在HDFS相应的目录下创办了提交任务时指定的输出目录D.以上原由都有可能以下关于表面和托管表描述正确的选项是()A、表面的数据储存在当地,托管表的数据储存在hdfs上B、删除托管表只会删除Inceptor上的元数据不会删除数据文件,删除表面二者都会被删除C、删除表面只会删除Inceptor上的元数据不会删除数据文件,删除托管表二者都会被删除D、删除托管表或表面,incepotr上的元数据和数据文件都会被删除SQL运转中假如出现maptask数据特别多,执行时间又很短时可以经过小文件合并来进行优化,以下是合并参数有()SETngmr.partition.automerge=TRUE;SETngmr.partition.mergesize=n;SETngmr.partition.mergesize.mb=m;SETmapred.reduce.tasks=N;以下关于inceptor日记信息描述正确的有()Inceptorserver日记存放于各节点的/var/log/inceptorsql[x]/hive-server.log可以经过inceptorserver4040查察SQL错误日记Excutor日记存放于excutor节点的/var/log/inceptorsql[x]/spark-excutor.logD.ExcutorGC日记tableA有10G的数据,tableB有100G的数据,两个表经过共有的id列做关系盘问name列,以下方式可以优化计算效率的是()select/*+MAPJOIN(a)*/a.name,b.namefromtableAajointableBbona.id=b.idselect/*+MAPJOIN(b)*/a.name,b.namefromtableAajointableBbona.id=b.id建表时将tableA和tableB依据id字段分同样数目的桶建表时将tableA和tableB依据name字段分同样数目的桶以手下于HMaster功能的是()为RegionServer分配region储存数据元信息对region进行compact操作管理用户对table的增修改查操作Hyperbase与Inceptor的关系,描述正确的选项是()二者不行或缺,Inceptor保证Hyperbase的服务的正常运转二者没有任何关系Inceptor可以接见Hyperbase二者相辅相成以下创办全局索引的语句,正确的选项是()add_index't1','index_name’,‘COMBINE_INDEX|INDEXED=f1:q1:9|rowKey:rowKey:10,UPDATE=true'add_global_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:q1:9|rowKey:rowKey:10,UPDATE=true'add_fulltext_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:q1:9|rowKey:rowKey:10,UPDATE=true'create_global_index't1','index_name’,'COMBINE_INDEX|INDEXED=f1:q1:9|rowKey:rowKey:10,UPDATE=true'以下对流办理计算框架描述不正确的选项是()SparkStreaming是基于微批(batch)对数据进行办理的ApacheStorm是基于时间(event)对数据进行办理的TranswarpStreamSQL可基于微批或事件对数据进行办理以上说法都不对某交通部门经过使用流监控全市过往24小时各个卡口数据,要求每分钟更新一次,原始流为org_stream,以下实现正确的选项是()CREATESTREAMWINDOWtraffic_streamASSELECT*FROMoriginal_streamSTREAMw1AS(length'1'minuteslide'24'hour);CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'1'minuteslide'24'hour);CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'24'hourslide'1'minute);CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamAS(length'24'secondslide'1'minute);Zookeeper服务描述正确的为()A.Zookeeper中每一个server互为leader。B.Zookeeper中只有一个leader,并经过备份体系产生。C.Zookeeper中不存在leader,全部server共同供给服务。D.Zookeeper经过选举体系确立leader,有且仅有一个。经过Hue更正HDFS目录或文件的权限可以经过以下哪些方式实现()Hdfs相应的权限经过Hue超级用户hue登录以hdfs用户登录以上都可以经过Oozie使用ssh,一定满足以下条件()以root用户登录各个节点Oozie用户可以免密钥登录Oozie用户一定要有bash权限D.所接见一定是集群的节点有关使用sqoop抽取数据的原理的描述不正确的选项是()A.sqoop在抽取数据的时候可以指定map的个数,map的个数决定在hdfs生成的数据文件的个数B.sqoop抽取数据是个多节点并行抽取的过程,所以map的个数设置的越多性能越好C.sqoop任务的切分是依据split字段的(最大值-最小值)/map数D.sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作在使用sqoop连接关系型数据时,下边哪个命令可以查察关系型数据库中有哪些表?()sqooplist-databases--usernameroot--password111111--connectjdbc:mysql://192.168.164.25:3306/sqooplist-databases--usernameroot-P--connectjdbc:mysql://192.168.164.25:3306/sqooplist-databases--usernameroot--password-filefile:/root/.pwd--connectjdbc:mysql://192.168.164.25:3306/sqooplist-tables--usernameroot--password111111--connectjdbc:mysql://192.168.164.25:3306/test要将收集的日记数据作为kafka的数据源,则flumesink需要设置为以下哪项参数()A.hdfsB.kafkaD.{topicname}以下是关于flume和sqoop比较的描述,不正确的选项是()A.flume主要用来收集日记而sqoop主要用来做数据迁徙B.flume主要收集流式数据而sqoop主要用来迁徙规范化数据C.flume和sqoop都是分布式办理任务D.flume主要用于收集多数据源小数据而sqoop用来迁徙单数据源数据有关Elasticsearch描述有误的一项为哪一项()它会利用多播形式发现节点。主节点(masternode)经过选举方式产生。主节点(masternode)进行集群的管理,只负责集群节点增加和删除。主节点会去读集群状态信息,必需的时候进行恢复工作。下边措施中,不可以保证kafka数据靠谱性的是()A.kafka会将全部信息长远化到硬盘中保证其数据靠谱性B.kafka经过TopicPartition设置Replication来保证其数据靠谱性C.kafka经过设置信息重发体系保证其数据靠谱性D.kafka没法保证数据靠谱性TDH供给哪几种认证模式?()全部服务使用简单认证模式——全部服务都无需认证即可相互接见全部服务都启用Kerberos认证,用户要供给Kerberosprincipal和密码(也许keytab)来接见各个服务全部服务都启用Kerberos同时Inceptor启用LDAP认证全部服务都启用LDAP认证开启LDAP后,应该使用哪个命令连接Inceptor()transwarp-t-h$ip。beeline-ujdbc:hive2://$ip:10000-n$username-p$password。beeline-u"jdbc:hive2://$ip:10000/default;principal=hive/node1@TDH"。beeline-u"jdbc:hive2://$ip:10000/default;principal=user1@TDH"。Inceptorserver服务没法启动时,该如何查察日记是()查察TDHmanager所在节点/var/log/inceptorsql*/目录下的hive-server2.log日记查察Inceptorserver所在节点/var/log/inceptorsql*/目录下的hive-server2.log日记查察ResourceManager所在节点/var/log/Yarn*/目录下的yarn-yarn-resourcemanager-poc-node1.log日记查察任意节点/var/log/inceptorsql*/目录下的hive-server2.log日记现有一批数据需要进行冲刷,要求对此中null经过update变换为0,删除重复的记录,增加部分新的记录,则该表应该 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 为()Tex表Orc表Orc事务表Holodesk表现有一个表数据要储存在hyperbase上,并创办全文索引,原表数据10GB,HDFS配置为3副本,hyperbase压缩比率按1:3计算,索引数据量为20GB,ES副本数为1,ES压缩比按1:3计算,则该表需要多大的储存空间储存()16.67GB23.33GB30GB70GB下边哪些工作不属于集群预安装工作()A.为集群中每个节点的安装操作系统B.选一个节点作为管理节点,更正其/etc/hosts文件C.安装TranswarpManager管理界面D.配置集群安全模式【客观简答题(每题10分,共40分)】1、请描述HDFS的高可用性实现体系:答:2、请列举出平台支持的5种储存格式/引擎的表,并详细描述各自的储存特色、使用处景、支持的操作以及能否支持分区分桶。答:Text表:ORC表:事务表:HoloDesk表:Hyperbase表:请描述一个100GB文件写入Hyperbase表的整个过程(使用bulkload方式实现)4、写出以下场景下的优化思路(1)、假设在Inceptor上执行任务,发现MapTask数目多、执行时间短,应采纳哪一种措施来提高性能?(2)、请简述在Inceptor中大表与大表做join、大表与小表做join时分别有哪些优化手段
本文档为【数据工程师培训题库四】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
小桥流水
从事母婴护理工作多年,经验丰富。
格式:doc
大小:48KB
软件:Word
页数:8
分类:
上传时间:2023-01-17
浏览量:2