大数据分析师（高级）复习题

Author： TinyMeng
发布时间：December 19, 2019
1569 views
No comments
7983 words
Categories： Java

第一部分：
选择题

1、下列有关 Excel 工作表命名的说法中,正确的是(C )
A、工作表的名字只能以字母开头
B、同一个工作簿可以存在两个同名的工作表
C、工作表的命名应该“见名知义”
D、工作簿默认的工作表名称为 Book1

2、下列有关 Excel 工作表单元格的说法中,错误的是(B )
A、每个单元格都有固定的地址
B、同列不同单元格的宽度可以不同
C、若干单元格构成工作表
D、同列不同单元格可以选择不同的数字分类

3、下列关于 Excel 公式或函数的说法中,错误的是（D）
A、公式中的乘、除号分别用*、/表示
B、公式复制后,被引用的地址有可能变化
C、公式必须以“=”号开头
D、函数“MAX(A1:C3)”引用了 4 个单元格

4、用鼠标拖放操作复制单元格数据时必须同时按住(C )
A、
B、
C、
D、

5、在 Exce1 工作表中,每个单元格都有唯一的编号叫地址,地址的使用方法是( B)
A、字母+数字
B、列标+行号
C、数字+字母
D、行号+列标

6、在 Exce1 操作中,假设 A1,B1,C1,D1 单元分别为 2,3,7,3,则 SUM(A1:C1)/D1 的值为（ D）
A、15
B、18
C、3
D、4

7、Exce1 中有多个常用的简单函数,其中函数 AVERAGE(区域)的功能是（B ）
A、求区域内数据的个数
B、求区城内所有数字的平均值
C、求区城内数字的和
D、返回函数的最大值

8、如果用预置小数的方法输入数据时,当设定小数位数是“2”时,输入 12345 表示（ D）
A、1234500
B、123.45
C、12345
D、12345.00

9、在 EXCEL 中,可使用（ B）中的命令,给选定的单元格加边框
A、视图菜单
B、格式菜单
C、工具菜单
D、窗口菜单

10、在 EXCEL 中,如果我们只需要数据列表中记录的一部分时,可以使用 EXCEL 提供的（B ）功能
A、排序
B、自动筛选
C、分类汇总
D、以上全部

11、在关系型数据库中储蓄所有多个储户，储户在多个储蓄所存取款，储蓄所与储户之间是 (D )
A、一对一的联系
B、一对多的联系
C、多对一的联系
D、多对多的联系

12、使用 SQL 语句进行分组检索时，为了去掉不满足条件的分组，应当（B ）
A、使用 WHERE 子句
B、在 GROUP BY 后面使用 HAVING 子句
C、先使用 WHERE 子句，再使用 HAVING 子句
D、先使用 HAVING 子句，再使用 WHERE 子句

13、在 SQL 语句中，与表达式"仓库号 NOT IN（"wh1","wh2"）功能相同的表达式是（D ）
A、仓库号="wh1" AND 仓库号="wh2"
B、仓库号!="wh1" OR 仓库号！= "wh2"
C、仓库号="wh1" OR 仓库号="wh2"
D、仓库号!="wh1" AND 仓库号!="wh2"

14、设有图书管理数据库：图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2)) 读者(借书证号 C(4),单位 C(8),姓名 C(6),性别 C(2),职称 C(6),地址 C(20)) 借阅(借书证号 C(4),总编号 C(6),借书日期 D(8)) 对于图书管理数据库，分别求出各个单位当前借阅图书的读者人次。下面的 SQL 语句正确的是（ A ） SELECT 单位,______ FROM 借阅,读者 WHERE;借阅.借书证号=读者.借书证号 __
A、COUNT(借阅.借书证号) ，GROUP BY 单位
B、SUM(借阅.借书证号) ，GROUP BY 单位
C、COUNT(借阅.借书证号)， ORDER BY 单位
D、COUNT(借阅.借书证号) ，HAVING 单位

15、在 EXCEL 中,公式输入完后应按（ A）
A、ENTER
B、CTRL+ENTER
C、SHIFT+ENTER
D、CTRL+SHIFT+ENTER

16、EXCEL 的主要功能有（ B）
A、电子表格、文字处理、数据库
B、电子表格、图表、数据库
C、工作表、工作簿、图表
D、电子表格、工作簿、数据库

17、在 EXCEL 工作表中,当插入行或列时,后面的行或列将向(A )方向自动移动
A、向下或向右
B、向下或向左
C、向上或向右
D、向上或向左

18、在 EXCEL 中，创建公式的操作步骤有：
①在编辑栏键入“=”；
②键入公式；
③按 ENTER 键；
④选择需要建立公式的单元格；其正确的顺序是（C ）
A、①②③④
B、④①③②
C、④①②③
D、④③①②

19、在 EXCEL 中,当数据超过单元格的列宽，在单元格中显示的一组符号是（ B） A、？
B、#
C、%
D、*

20、以下选项中描述正确的是（D ）
A: 数据库设计是指设计数据库管理系统
B: 数据库系统中，数据的物理结构必须与逻辑结构一致
C: 数据库是一个独立的系统，不需要操作系统的支持
D: 数据库技术的根本目标是要解决数据共享的问题

21、EXCEL 中的数据类型有(D )
A、数值型
B、字符型
C、逻辑型
D、以上全部

22、在 excel 中,选定一个单元格后按 DEL 键,将被删除的是(B )
A、单元格
B、单元格中的内容
C、单元格中的内容及格式等
D、单元格所在的行

23、SQL 语言的数据操纵语句包括 SELECT、INSERT、UPDATE、DELETE 等。其中最重要的，也是使用最频繁的语句是(B )。
A．UPDATE
B．SELECT
C．DELETE
D．INSERT

24、在 Excel 工作表的第 3 行第 4 列的单元格地址是(A )
A、D3
B、D4
C、3D
D、4D

25、excel 的每一个工作表最多可包含(C )列
A、255
B、254
C、256
D、没有限定

26、excel 的每一个工作表最多可包含(B )行
A、65535
B、65536
C、60000
D、65555

27、单元格中（C ）
A、只能包含数字
B、只能包含文字
C、可以是数字、字符、公式等
D、以上都不是

28、如果要将一单元格中的公式计算结果数值复制到另一单元格中,应选择菜单 (B )
A、文件
B、编辑
C、格式
D、工具

29、数据独立性是数据库技术的重要特点之一，关于数据独立性，以下选项中描述正确的是（ D）
A: 数据与程序独立存放
B: 不同数据只能被对应的应用程序所使用
C: 不同数据被存放在不同的文件中
D: 以上三种说法都不对

30、在同一个工作簿中要引用其他工作表某个单元格的数据(如 sheet8 单元格中的数据),下面的表达方式中正确的是( A)
A、= sheet8!D8
B、=D8( sheet8)
C、+ sheet8!D8
D、$ sheet8>$D8

31、在 SQL 语言中，子查询是（D ）。
A．选取单表中字段子集的查询语句
B．选取多表中字段子集的查询语句
C．返回单表中数据子集的查询语言
D．嵌入到另一个查询语句之中的查询语句

32、下面哪个函数可以返回逻辑值 TRUE (B )
A、AND(TRUE, TRUE, FALSE)
B、OR(TRUE, TRUE, FALSE)
C、OR(FALSE, FALSE. FALSE)
D、NOT(TRUE)

33、若单元格 B2、C2、D2 的内容分别为 2800、89、88,单元格 E2 中有函数 “ =IF(AND(B2>2000,OR(C2>90,D2>90),” 五星”,IF(AND(B2>1800,OR(C2>85,D2>85)),”四星”,”三星”))”则最终单元格 E2 中显示的内容为 (C )
A、出错
B、三星
C、四星
D、五星

34、若在单元格中输入函数 MOD(7,-2)，则单元格会显示（A ）
A、-1
B、1
B、-3
D、3

35、函数 find(“t”,”yesterday after tomarrow”,5)返回（B ）
A、4
B、13
C、17
D、20

36、在视图上不能完成的操作是(D )
A．查询
B．在视图上定义新的视图
C．更新视图
D．在视图上定义新的表

37、下列不能从“yesterday“中取出字符串”yes“的函数是（ C）
A、MID(“yesterday”,1,3)
B、LEFT(“yesterday”,3)
C、MIDB(“yesterday”,1,6)
D、RIGHT(MID(“yesterday”,1,3),3)

38、函数 COLUMNE(B1:E5)返回（C ）
A、1
B、2
C、4
D、5

39、在下列哪种情况下需要引用绝对地址 (D )
A、当把一个含有单元格地址的公式拷贝到一个新的位置时,为使公式中单元格地址随新位置而变化
B、当在引用的函数中填入一个范围时,为使函数中的范围随地址位置不同而变化
C、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范围随新位置不同而变化
D、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范围不随新位置不同而变化

40、以下选项中说法错误的是（C ）
A: DML 是数据操纵语言
B: DCL 是数据控制语言
C: DBMS 是数据库系统
D: DDL 是数据定义语言

41、以下哪种方法属于判别式模型(discriminative model)（D ）
A、隐马模型(HMM)
B、朴素贝叶斯
C、LDA
D、支持向量机

42、以 P(w)表示词条 w 的概率，假设已知 P（南京）=0.8，P（市长）=0.6，P（江大桥）=0.4：P（南京市）=0.3，P（长江大桥）=0.5：如果假设前后两个词的出现是独立的，那么分词结果就是（B ）
A、南京市长江大桥
B、南京市长江大桥
C、南京市长*江大桥
D、南京市*长江大桥

43、基于统计的分词方法为（D ）
A、正向量最大匹配法
B、逆向量最大匹配法
C、最少切分
D、条件随机场

44、下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势（ B）
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优

45、在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（ A）（假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。）
A、Accuracy:(TP+TN)/all
B、F-value:2recallprecision/(recall+precision)
C、G-mean:sqrt(precision*recall)
D、AUC:ROC 曲线下面积

46、下面关于 ID3 算法中说法错误的是（D ）
A、ID3 算法要求特征必须离散化
B、信息增益可以用熵，而不是 GINI 系数来计算
C、选取信息增益最大的特征，作为树的根节点
D、ID3 算法是一个二叉树模型

47、如下表是用户是否使用某产品的调查结果：请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。（C ）
A、年龄
B、地区
C、学历
D、收入

48.在其它条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（D ）
A、增加训练集数量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM 算法中使用高斯核/RBF 核代替

49.如果线性回归模型中的随机误差存在异方差性，那么参数的 OLS 估计量是（B ）
A、无偏的，有效的
B、无偏的，非有效的
C、有偏的，有效的
D、有偏的，非有效的

50.一个二进制源 X 发出符号集为{-1,1}，经过离散无记忆信道传输，由于信道中噪音的存在，接收端 Y 收到符号集为{-1,1,0}。已知 P(x=-1)=1/4，P(x=1)=3/4， P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条件熵 H(Y|X)（B ）
A、0.2375
B、0.3275
C、0.5273
D、0.5372

51、以下哪种方法不属于特征选择的标准方法：（D ）
A、嵌入
B、过滤
C、包装
D、抽样。

51.下面哪种不属于数据预处理的方法？（ D）
A、变量代换
B、离散化
C、聚集
D、估计遗漏值。

52.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（ B）
A 分类
B 聚类
C 关联分析
D 隐马尔可夫链

53.Nave Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一个假定是（ C）
A、各类别的先验概率 P(C)是相等的
B、以 0 为均值，sqr(2)/2 为标准差的正态分布
C、特征变量 X 的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布

54.假定某同学使用 Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于 NB 的说法中不正确的是？（B ）
A、模型效果相比无重复特征的情况下精确度会降低
B、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样
C、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题

第二部分：
问答题（4 题，共 20 分）

问题一、什么是 Tableau？如何从 Tableau 中的提取？
参考答案： Tableau 是一种商业智能软件，允许任何人连接到相应的数据，然后可视化并创建交互式的可共享仪表板。可用于提高性能和离线分析的数据源的已保存子集。

问题二、叙述 tableau 的优势
参考答案：
1）、什么都能连：都能连，不能直连的也可通过 odbc 来连
2）、学习门槛低：官方有最新版本的视频、文本、案例提供。
3）、轻量级：简单拖拉拽就能快速创建一个报表
4）、更智能，比如自动识别维度和度量、自动求和、自动识别关联条件
5）、给人亲切感：能找到 excel、PPT 及其他数据分析工具的身影，功能类似
6）、丰富的图表展示

问题三、存储过程有什么优点？
参考答案：存储过程或者函数可以重复使用，可以减少数据库开发人员，尤其是应用程序开发人员的工作量。使用存储过程或者函数可以增强数据的安全访问控制。可以设定只有某些数据库用户才具有某些存储过程或者函数的执行权。

问题四、什么是触发器？严格的说触发器有哪几种？触发器有什么优点？
参考答案：触发器主要用于监视某个表的 insert、update 以及 delete 等更新操作，这些操作可以分别激活该表的 insert、update 或者 delete 类型的触发程序运行，从而实现数据的自动维护。
使用触发器有如下优点：
1.自动执行。触发器在对表的数据作了任何修改（比如手工输入或者应用程序的操作）之后立即被激活。
2.级联更新。触发器可以通过数据库中的相关表进行层叠更改，这比直接把代码写在前台的做法更安全合理。
3.强化约束。触发器可以引用其它表中的列，能够实现比 CHECK 约束更为复杂的约束。
4.跟踪变化。触发器可以阻止数据库中未经许可的指定更新和变化。

强制业务逻辑。触发器可用于执行管理任务，并强制影响数据库的复杂业务规则。

问题五、哪些机器学习算法不需要做归一化处理？
参考答案：概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类的最优化问题就需要归一化。我理解归一化和标准化主要是为了使计算更方便比如两个变量的量纲不同可能一个的数值远大于另一个那么他们同时作为变量的时候可能会造成数值计算的问题，比如说求矩阵的逆可能很不精确或者梯度下降法的收敛比较困难，还有如果需要计算欧式距离的话可能量纲也需要调整所以我估计 lr 和 knn 保准话一下应该有好处。至于其他的算法我也觉得如果变量量纲差距很大的话先标准化一下会有好处。一般我习惯说树形模型，这里说的概率模型可能是差不多的意思。

问题六、数据归一化（或者标准化，注意归一化和标准化不同）的原因
参考答案：要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如 SVM）需要归一化。有些模型伸缩有与原来等价，如：LR 则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏进行数据归一化。

问题七、哪些机器学习算法不需要做归一化处理？（10 分）
参考答案：概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类的最优化问题就需要归一化。我理解归一化和标准化主要是为了使计算更方便比如两个变量的量纲不同可能一个的数值远大于另一个那么他们同时作为变量的时候可能会造成数值计算的问题，比如说求矩阵的逆可能很不精确或者梯度下降法的收敛比较困难，还有如果需要计算欧式距离的话可能量纲也需要调整所以我估计 lr 和 knn 保准话一下应该有好处。至于其他的算法我也觉得如果变量量纲差距很大的话先标准化一下会有好处。一般我习惯说树形模型，这里说的概率模型可能是差不多的意思。

问题八、数据归一化（或者标准化，注意归一化和标准化不同）的原因（10 分）
参考答案：要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如 SVM）需要归一化。有些模型伸缩有与原来等价，如：LR 则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏进行数据归一化。

Last modification：April 5, 2020

如果觉得我的文章对你有用，请随意赞赏

大数据分析师（高级）复习题

TinyMeng • 2019 年 12 月 19 日

第一部分： 选择题 1、下列有关 Excel 工作表命名的说法中,正确的是(C ) A、工作表的名字只能以字母开头 B、同一个工作簿可以存在两个同名的工作表 C、工作表的命名应该“见名知义” D、工作簿默认的工作表名称为 Book1 2、下列有关 Excel 工作表单元格的说法中,错误的是(B ) A、每个单元格都有固定的地址 B、同列不同单元格的宽度可以不同 C、若干单元格构成工作表 D、同列不同单元格可以选择不同的数字分类 3、下列关于 Excel 公式或函数的说法中,错误的是（D） A、公式中的乘、除号分别用*、/表示 B、公式复制后,被引用的地址有可能变化 C、公式必须以“=”号开头 D、函数“MAX(A1:C3)”引用了 4 个单元格 4、用鼠标拖放操作复制单元格数据时必须同时按住(C ) A、<Tab> B、<Alt> C、<Ctrl> D、<Shift> 5、在 Exce1 工作表中,每个单元格都有唯一的编号叫地址,地址的使用方法是( B) A、字母+数字 B、列标+行号 C、数字+字母 D、行号+列标 6、在 Exce1 操作中,假设 A1,B1,C1,D1 单元分别为 2,3,7,3,则 SUM(A1:C1)/D1 的值 为 （ D） A、15 B、18 C、3 D、4 7、Exce1 中有多个常用的简单函数,其中函数 AVERAGE(区域)的功能是（B ） A、求区域内数据的个数 B、求区城内所有数字的平均值 C、求区城内数字的和 D、返回函数的最大值 8、如果用预置小数的方法输入数据时,当设定小数位数是“2”时,输入 12345 表示 （ D） A、1234500 B、123.45 C、12345 D、12345.00 9、在 EXCEL 中,可使用（ B）中的命令,给选定的单元格加边框 A、视图菜单 B、格式菜单 C、工具菜单 D、窗口菜单 10、在 EXCEL 中,如果我们只需要数据列表中记录的一部分时,可以使用 EXCEL 提 供的（B ）功能 A、排序 B、自动筛选 C、分类汇总 D、以上全部 11、在关系型数据库中储蓄所有多个储户，储户在多个储蓄所存取款，储蓄所与 储户之间是 (D ) A、一对一的联系 B、一对多的联系 C、多对一的联系 D、多对多的联系 12、使用 SQL 语句进行分组检索时，为了去掉不满足条件的分组，应当 （B ） A、使用 WHERE 子句 B、在 GROUP BY 后面使用 HAVING 子句 C、先使用 WHERE 子句，再使用 HAVING 子句 D、先使用 HAVING 子句，再使用 WHERE 子句 13、在 SQL 语句中，与表达式"仓库号 NOT IN（"wh1","wh2"） 功能相同的表 达式是（D ） A、仓库号="wh1" AND 仓库号="wh2" B、仓库号!="wh1" OR 仓库号！= "wh2" C、仓库号="wh1" OR 仓库号="wh2" D、仓库号!="wh1" AND 仓库号!="wh2" 14、设有图书管理数据库： 图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2)) 读者(借书证号 C(4),单位 C(8),姓名 C(6),性别 C(2),职称 C(6),地址 C(20)) 借阅(借书证号 C(4),总编号 C(6),借书日期 D(8)) 对于图书管理数据库，分别求出各个单位当前借阅图书的读者人次。下面的 SQL 语句正确的是 （ A ） SELECT 单位,______ FROM 借阅,读者 WHERE;借阅.借书证号=读者.借书证号 __ A、COUNT(借阅.借书证号) ，GROUP BY 单位 B、SUM(借阅.借书证号) ，GROUP BY 单位 C、COUNT(借阅.借书证号)， ORDER BY 单位 D、COUNT(借阅.借书证号) ，HAVING 单位 15、在 EXCEL 中,公式输入完后应按（ A） A、ENTER B、CTRL+ENTER C、SHIFT+ENTER D、CTRL+SHIFT+ENTER 16、EXCEL 的主要功能有（ B） A、电子表格、文字处理、数据库 B、电子表格、图表、数据库 C、工作表、工作簿、图表 D、电子表格、工作簿、数据库 17、在 EXCEL 工作表中,当插入行或列时,后面的行或列将向(A )方向自动移动 A、向下或向右 B、向下或向左 C、向上或向右 D、向上或向左 18、在 EXCEL 中，创建公式的操作步骤有： ①在编辑栏键入“=”； ②键入公式； ③按 ENTER 键； ④选择需要建立公式的单元格；其正确的顺序是（C ） A、①②③④ B、④①③② C、④①②③ D、④③①② 19、在 EXCEL 中,当数据超过单元格的列宽，在单元格中显示的一组符号是（ B） A、？ B、# C、% D、* 20、以下选项中描述正确的是 （D ） A: 数据库设计是指设计数据库管理系统 B: 数据库系统中，数据的物理结构必须与逻辑结构一致 C: 数据库是一个独立的系统，不需要操作系统的支持 D: 数据库技术的根本目标是要解决数据共享的问题 21、EXCEL 中的数据类型有(D ) A、数值型 B、字符型 C、逻辑型 D、以上全部 22、在 excel 中,选定一个单元格后按 DEL 键,将被删除的是(B ) A、单元格 B、单元格中的内容 C、单元格中的内容及格式等 D、单元格所在的行 23、SQL 语言的数据操纵语句包括 SELECT、INSERT、UPDATE、DELETE 等。其 中最重要的，也是使用最频繁的语句是(B )。 A．UPDATE B．SELECT C．DELETE D．INSERT 24、在 Excel 工作表的第 3 行第 4 列的单元格地址是(A ) A、D3 B、D4 C、3D D、4D 25、excel 的每一个工作表最多可包含(C )列 A、255 B、254 C、256 D、没有限定 26、excel 的每一个工作表最多可包含(B )行 A、65535 B、65536 C、60000 D、65555 27、单元格中（C ） A、只能包含数字 B、只能包含文字 C、可以是数字、字符、公式等 D、以上都不是 28、如果要将一单元格中的公式计算结果数值复制到另一单元格中,应选择菜单 (B ) A、文件 B、编辑 C、格式 D、工具 29、数据独立性是数据库技术的重要特点之一，关于数据独立性，以下选项中描 述正确的是 （ D） A: 数据与程序独立存放 B: 不同数据只能被对应的应用程序所使用 C: 不同数据被存放在不同的文件中 D: 以上三种说法都不对 30、在同一个工作簿中要引用其他工作表某个单元格的数据(如 sheet8 单元格中 的数据),下面的表达方式中正确的是( A) A、= sheet8!D8 B、=D8( sheet8) C、+ sheet8!D8 D、$ sheet8&gt;$D8 31、在 SQL 语言中，子查询是（D ）。 A．选取单表中字段子集的查询语句 B．选取多表中字段子集的查询语句 C．返回单表中数据子集的查询语言 D．嵌入到另一个查询语句之中的查询语句 32、下面哪个函数可以返回逻辑值 TRUE (B ) A、AND(TRUE, TRUE, FALSE) B、OR(TRUE, TRUE, FALSE) C、OR(FALSE, FALSE. FALSE) D、NOT(TRUE) 33、若单元格 B2、C2、D2 的内容分别为 2800、89、88,单元格 E2 中有函数 “ =IF(AND(B2&gt;2000,OR(C2&gt;90,D2&gt;90),” 五 星”,IF(AND(B2&gt;1800,OR(C2&gt;85,D2&gt;85)),”四星”,”三星”))”则最终单元格 E2 中显示 的内容为 (C ) A、出错 B、三星 C、四星 D、五星 34、若在单元格中输入函数 MOD(7,-2)，则单元格会显示（A ） A、-1 B、1 B、-3 D、3 35、函数 find(“t”,”yesterday after tomarrow”,5)返回（B ） A、4 B、13 C、17 D、20 36、在视图上不能完成的操作是(D ) A．查询 B．在视图上定义新的视图 C．更新视图 D．在视图上定义新的表 37、下列不能从“yesterday“中取出字符串”yes“的函数是（ C） A、MID(“yesterday”,1,3) B、LEFT(“yesterday”,3) C、MIDB(“yesterday”,1,6) D、RIGHT(MID(“yesterday”,1,3),3) 38、函数 COLUMNE(B1:E5)返回（C ） A、1 B、2 C、4 D、5 39、在下列哪种情况下需要引用绝对地址 (D ) A、当把一个含有单元格地址的公式拷贝到一个新的位置时,为使公式中单元格地 址随新位置而变化 B、当在引用的函数中填入一个范围时,为使函数中的范围随地址位置不同而变化 C、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围随新位置不同而变化 D、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围不随新位置不同而变化 40、以下选项中说法错误的是 （C ） A: DML 是数据操纵语言 B: DCL 是数据控制语言 C: DBMS 是数据库系统 D: DDL 是数据定义语言 41、以下哪种方法属于判别式模型(discriminative model)（D ） A、隐马模型(HMM) B、朴素贝叶斯 C、LDA D、支持向量机 42、以 P(w)表示词条 w 的概率，假设已知 P（南京）=0.8，P（市长）=0.6，P（江 大桥）=0.4：P（南京市）=0.3，P（长江大桥）=0.5：如果假设前后两个词的出 现是独立的，那么分词结果就是（B ） A、南京市长江大桥 B、南京市长江大桥 C、南京市长*江大桥 D、南京市*长江大桥 43、基于统计的分词方法为（D ） A、正向量最大匹配法 B、逆向量最大匹配法 C、最少切分 D、条件随机场 44、下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势（ B） A、特征灵活 B、速度快 C、可容纳较多上下文信息 D、全局最优 45、在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个 是相对不合理的（ A）（假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。） A、Accuracy:(TP+TN)/all B、F-value:2recallprecision/(recall+precision) C、G-mean:sqrt(precision*recall) D、AUC:ROC 曲线下面积 46、下面关于 ID3 算法中说法错误的是（D ） A、ID3 算法要求特征必须离散化 B、信息增益可以用熵，而不是 GINI 系数来计算 C、选取信息增益最大的特征，作为树的根节点 D、ID3 算法是一个二叉树模型 47、如下表是用户是否使用某产品的调查结果： 请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。 （C ） A、年龄 B、地区 C、学历 D、收入 48.在其它条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题 （D ） A、增加训练集数量 B、减少神经网络隐藏层节点数 C、删除稀疏的特征 D、SVM 算法中使用高斯核/RBF 核代替 49.如果线性回归模型中的随机误差存在异方差性，那么参数的 OLS 估计量是 （B ） A、无偏的，有效的 B、无偏的，非有效的 C、有偏的，有效的 D、有偏的，非有效的 50.一个二进制源 X 发出符号集为{-1,1}，经过离散无记忆信道传输，由于信道 中噪音的存在，接收端 Y 收到符号集为{-1,1,0}。已知 P(x=-1)=1/4，P(x=1)=3/4， P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条 件熵 H(Y|X)（B ） A、0.2375 B、0.3275 C、0.5273 D、0.5372 51、以下哪种方法不属于特征选择的标准方法：（D ） A、嵌入 B、过滤 C、包装 D、抽样。 51.下面哪种不属于数据预处理的方法？（ D） A、变量代换 B、离散化 C、聚集 D、估计遗漏值。 52.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其 他标签的数据相分离？（ B） A 分类 B 聚类 C 关联分析 D 隐马尔可夫链 53.Nave Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一 个假定是（ C） A、各类别的先验概率 P(C)是相等的 B、以 0 为均值，sqr(2)/2 为标准差的正态分布 C、特征变量 X 的各个维度是类别条件独立随机变量 D、P(X|C)是高斯分布 54.假定某同学使用 Naive Bayesian（NB）分类模型时，不小心将训练数据的两 个维度搞重复了，那么关于 NB 的说法中不正确的是？（B ） A、模型效果相比无重复特征的情况下精确度会降低 B、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的 模型预测结果一样 C、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题 第二部分： 问答题（4 题，共 20 分） 问题一、什么是 Tableau？如何从 Tableau 中的提取？ 参考答案： Tableau 是一种商业智能软件，允许任何人连接到相应的数据，然后可视化并创 建交互式的可共享仪表板。 可用于提高性能和离线分析的数据源的已保存子集。 问题二、叙述 tableau 的优势 参考答案： 1）、什么都能连：都能连，不能直连的也可通过 odbc 来连 2）、学习门槛低：官方有最新版本的视频、文本、案例提供。 3）、轻量级：简单拖拉拽就能快速创建一个报表 4）、更智能，比如自动识别维度和度量、自动求和、自动识别关联条件 5）、给人亲切感：能找到 excel、PPT 及其他数据分析工具的身影，功能类似 6）、丰富的图表展示 问题三、存储过程有什么优点？ 参考答案： 存储过程或者函数可以重复使用，可以减少数据库开发人员，尤其是应用程序开 发人员的工作量。 使用存储过程或者函数可以增强数据的安全访问控制。可以设定只有某些数据库 用户才具有某些存储过程或者函数的执行权。 问题四、什么是触发器？严格的说触发器有哪几种？触发器有什么优点？ 参考答案： 触发器主要用于监视某个表的 insert、update 以及 delete 等更新操作，这些操作 可以分别激活该表的 insert、update 或者 delete 类型的触发程序运行，从而实现 数据的自动维护。 使用触发器有如下优点： 1.自动执行。触发器在对表的数据作了任何修改（比如手工输入或者应用程序的 操作）之后立即被激活。 2.级联更新。触发器可以通过数据库中的相关表进行层叠更改，这比直接把代码 写在前台的做法更安全合理。 3.强化约束。触发器可以引用其它表中的列，能够实现比 CHECK 约束更为复杂 的约束。 4.跟踪变化。触发器可以阻止数据库中未经许可的指定更新和变化。<ol start="5"><li>强制业务逻辑。触发器可用于执行管理任务，并强制影响数据库的复杂业务规 则。</li></ol>问题五、哪些机器学习算法不需要做归一化处理？ 参考答案： 概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量 之间的条件概率，如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类 的最优化问题就需要归一化。 我理解归一化和标准化主要是为了使计算更方便 比如两个变量的量纲不同 可 能一个的数值远大于另一个那么他们同时作为变量的时候 可能会造成数值计算 的问题，比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛比较困难，还 有如果需要计算欧式距离的话可能 量纲也需要调整 所以我估计 lr 和 knn 保 准话一下应该有好处。至于其他的算法 我也觉得如果变量量纲差距很大的话 先 标准化一下会有好处。一般我习惯说树形模型，这里说的概率模型可能是差不多 的意思。 问题六、数据归一化（或者标准化，注意归一化和标准化不同）的原因 参考答案： 要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的 量纲不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如 SVM） 需要归一化。 有些模型伸缩有与原来等价，如：LR 则不用归一化，但是实际中往往通过迭 代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发 生不收敛的情况，所以最坏进行数据归一化。 问题七、哪些机器学习算法不需要做归一化处理？（10 分） 参考答案： 概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和 变量之间的条件概率，如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类的最优化问题就需要归一化。 我理解归一化和标准化主要是为了使计算更方便 比如两个变量的量纲不同 可能一个的数值远大于另一个那么他们同时作为变量的时候 可能会造成数值计 算的问题，比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛比较困难， 还有如果需要计算欧式距离的话可能 量纲也需要调整 所以我估计 lr 和 knn 保准话一下应该有好处。至于其他的算法 我也觉得如果变量量纲差距很大的话 先标准化一下会有好处。一般我习惯说树形模型，这里说的概率模型可能是差不 多的意思。 问题八、数据归一化（或者标准化，注意归一化和标准化不同）的原因（10 分） 参考答案： 要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲 不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如 SVM）需要归一化。 有些模型伸缩有与原来等价，如：LR 则不用归一化，但是实际中往往通 过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法 会发生不收敛的情况，所以最坏进行数据归一化。

大数据分析师（高级）复习题

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

elasticSearch 6和7的版本改变大坑

phpstorm idea 激活码 - IntelliJ IDEA 注册码(JetBrains PhpStorm/JetBrains PyCharm/JetBrains GoLand )通用注册码

用thinkphp6框架的think-swoole实现websocket的onRequest回调事件

使用Workerman搭建websocket

liunx查询硬盘使用和文件大小

mysql 查询汉字的全拼音以及查询各个汉字的拼音首字母

mysql 查询日期类型转换

mysql 表索引的一些要点

利用 Composer 构建自己的 PHP 框架（一）——基础准备

MySQL批量更新sql语句

大数据分析师（高级）复习题

Leave a Comment Cancel reply 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

大数据分析师（高级）复习题

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款