第一部分:
选择题

1、下列有关 Excel 工作表命名的说法中,正确的是(C )
A、工作表的名字只能以字母开头
B、同一个工作簿可以存在两个同名的工作表
C、工作表的命名应该“见名知义”
D、工作簿默认的工作表名称为 Book1

2、下列有关 Excel 工作表单元格的说法中,错误的是(B )
A、每个单元格都有固定的地址
B、同列不同单元格的宽度可以不同
C、若干单元格构成工作表
D、同列不同单元格可以选择不同的数字分类

3、下列关于 Excel 公式或函数的说法中,错误的是(D)
A、公式中的乘、除号分别用*、/表示
B、公式复制后,被引用的地址有可能变化
C、公式必须以“=”号开头
D、函数“MAX(A1:C3)”引用了 4 个单元格

4、用鼠标拖放操作复制单元格数据时必须同时按住(C )
A、
B、
C、
D、

5、在 Exce1 工作表中,每个单元格都有唯一的编号叫地址,地址的使用方法是( B)
A、字母+数字
B、列标+行号
C、数字+字母
D、行号+列标

6、在 Exce1 操作中,假设 A1,B1,C1,D1 单元分别为 2,3,7,3,则 SUM(A1:C1)/D1 的值 为 ( D)
A、15
B、18
C、3
D、4

7、Exce1 中有多个常用的简单函数,其中函数 AVERAGE(区域)的功能是(B )
A、求区域内数据的个数
B、求区城内所有数字的平均值
C、求区城内数字的和
D、返回函数的最大值

8、如果用预置小数的方法输入数据时,当设定小数位数是“2”时,输入 12345 表示 ( D)
A、1234500
B、123.45
C、12345
D、12345.00

9、在 EXCEL 中,可使用( B)中的命令,给选定的单元格加边框
A、视图菜单
B、格式菜单
C、工具菜单
D、窗口菜单

10、在 EXCEL 中,如果我们只需要数据列表中记录的一部分时,可以使用 EXCEL 提 供的(B )功能
A、排序
B、自动筛选
C、分类汇总
D、以上全部

11、在关系型数据库中储蓄所有多个储户,储户在多个储蓄所存取款,储蓄所与 储户之间是 (D )
A、一对一的联系
B、一对多的联系
C、多对一的联系
D、多对多的联系

12、使用 SQL 语句进行分组检索时,为了去掉不满足条件的分组,应当 (B )
A、使用 WHERE 子句
B、在 GROUP BY 后面使用 HAVING 子句
C、先使用 WHERE 子句,再使用 HAVING 子句
D、先使用 HAVING 子句,再使用 WHERE 子句

13、在 SQL 语句中,与表达式"仓库号 NOT IN("wh1","wh2") 功能相同的表 达式是(D )
A、仓库号="wh1" AND 仓库号="wh2"
B、仓库号!="wh1" OR 仓库号!= "wh2"
C、仓库号="wh1" OR 仓库号="wh2"
D、仓库号!="wh1" AND 仓库号!="wh2"

14、设有图书管理数据库: 图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2)) 读者(借书证号 C(4),单位 C(8),姓名 C(6),性别 C(2),职称 C(6),地址 C(20)) 借阅(借书证号 C(4),总编号 C(6),借书日期 D(8)) 对于图书管理数据库,分别求出各个单位当前借阅图书的读者人次。下面的 SQL 语句正确的是 ( A ) SELECT 单位,______ FROM 借阅,读者 WHERE;借阅.借书证号=读者.借书证号 __
A、COUNT(借阅.借书证号) ,GROUP BY 单位
B、SUM(借阅.借书证号) ,GROUP BY 单位
C、COUNT(借阅.借书证号), ORDER BY 单位
D、COUNT(借阅.借书证号) ,HAVING 单位

15、在 EXCEL 中,公式输入完后应按( A)
A、ENTER
B、CTRL+ENTER
C、SHIFT+ENTER
D、CTRL+SHIFT+ENTER

16、EXCEL 的主要功能有( B)
A、电子表格、文字处理、数据库
B、电子表格、图表、数据库
C、工作表、工作簿、图表
D、电子表格、工作簿、数据库

17、在 EXCEL 工作表中,当插入行或列时,后面的行或列将向(A )方向自动移动
A、向下或向右
B、向下或向左
C、向上或向右
D、向上或向左

18、在 EXCEL 中,创建公式的操作步骤有:
①在编辑栏键入“=”;
②键入公式;
③按 ENTER 键;
④选择需要建立公式的单元格;其正确的顺序是(C )
A、①②③④
B、④①③②
C、④①②③
D、④③①②

19、在 EXCEL 中,当数据超过单元格的列宽,在单元格中显示的一组符号是( B) A、?
B、#
C、%
D、*

20、以下选项中描述正确的是 (D )
A: 数据库设计是指设计数据库管理系统
B: 数据库系统中,数据的物理结构必须与逻辑结构一致
C: 数据库是一个独立的系统,不需要操作系统的支持
D: 数据库技术的根本目标是要解决数据共享的问题

21、EXCEL 中的数据类型有(D )
A、数值型
B、字符型
C、逻辑型
D、以上全部

22、在 excel 中,选定一个单元格后按 DEL 键,将被删除的是(B )
A、单元格
B、单元格中的内容
C、单元格中的内容及格式等
D、单元格所在的行

23、SQL 语言的数据操纵语句包括 SELECT、INSERT、UPDATE、DELETE 等。其 中最重要的,也是使用最频繁的语句是(B )。
A.UPDATE
B.SELECT
C.DELETE
D.INSERT

24、在 Excel 工作表的第 3 行第 4 列的单元格地址是(A )
A、D3
B、D4
C、3D
D、4D

25、excel 的每一个工作表最多可包含(C )列
A、255
B、254
C、256
D、没有限定

26、excel 的每一个工作表最多可包含(B )行
A、65535
B、65536
C、60000
D、65555

27、单元格中(C )
A、只能包含数字
B、只能包含文字
C、可以是数字、字符、公式等
D、以上都不是

28、如果要将一单元格中的公式计算结果数值复制到另一单元格中,应选择菜单 (B )
A、文件
B、编辑
C、格式
D、工具

29、数据独立性是数据库技术的重要特点之一,关于数据独立性,以下选项中描 述正确的是 ( D)
A: 数据与程序独立存放
B: 不同数据只能被对应的应用程序所使用
C: 不同数据被存放在不同的文件中
D: 以上三种说法都不对

30、在同一个工作簿中要引用其他工作表某个单元格的数据(如 sheet8 单元格中 的数据),下面的表达方式中正确的是( A)
A、= sheet8!D8
B、=D8( sheet8)
C、+ sheet8!D8
D、$ sheet8>$D8

31、在 SQL 语言中,子查询是(D )。
A.选取单表中字段子集的查询语句
B.选取多表中字段子集的查询语句
C.返回单表中数据子集的查询语言
D.嵌入到另一个查询语句之中的查询语句

32、下面哪个函数可以返回逻辑值 TRUE (B )
A、AND(TRUE, TRUE, FALSE)
B、OR(TRUE, TRUE, FALSE)
C、OR(FALSE, FALSE. FALSE)
D、NOT(TRUE)

33、若单元格 B2、C2、D2 的内容分别为 2800、89、88,单元格 E2 中有函数 “ =IF(AND(B2>2000,OR(C2>90,D2>90),” 五 星”,IF(AND(B2>1800,OR(C2>85,D2>85)),”四星”,”三星”))”则最终单元格 E2 中显示 的内容为 (C )
A、出错
B、三星
C、四星
D、五星

34、若在单元格中输入函数 MOD(7,-2),则单元格会显示(A )
A、-1
B、1
B、-3
D、3

35、函数 find(“t”,”yesterday after tomarrow”,5)返回(B )
A、4
B、13
C、17
D、20

36、在视图上不能完成的操作是(D )
A.查询
B.在视图上定义新的视图
C.更新视图
D.在视图上定义新的表

37、下列不能从“yesterday“中取出字符串”yes“的函数是( C)
A、MID(“yesterday”,1,3)
B、LEFT(“yesterday”,3)
C、MIDB(“yesterday”,1,6)
D、RIGHT(MID(“yesterday”,1,3),3)

38、函数 COLUMNE(B1:E5)返回(C )
A、1
B、2
C、4
D、5

39、在下列哪种情况下需要引用绝对地址 (D )
A、当把一个含有单元格地址的公式拷贝到一个新的位置时,为使公式中单元格地 址随新位置而变化
B、当在引用的函数中填入一个范围时,为使函数中的范围随地址位置不同而变化
C、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围随新位置不同而变化
D、当把一个含有范围的公式或函数拷贝到一个新的位置时,为使公式或函数中范 围不随新位置不同而变化

40、以下选项中说法错误的是 (C )
A: DML 是数据操纵语言
B: DCL 是数据控制语言
C: DBMS 是数据库系统
D: DDL 是数据定义语言

41、以下哪种方法属于判别式模型(discriminative model)(D )
A、隐马模型(HMM)
B、朴素贝叶斯
C、LDA
D、支持向量机

42、以 P(w)表示词条 w 的概率,假设已知 P(南京)=0.8,P(市长)=0.6,P(江 大桥)=0.4:P(南京市)=0.3,P(长江大桥)=0.5:如果假设前后两个词的出 现是独立的,那么分词结果就是(B )
A、南京市长江大桥
B、南京市长江大桥
C、南京市长*江大桥
D、南京市*长江大桥

43、基于统计的分词方法为(D )
A、正向量最大匹配法
B、逆向量最大匹配法
C、最少切分
D、条件随机场

44、下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势( B)
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优

45、在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个 是相对不合理的( A)(假设 precision=TP/(TP+FP),recall=TP/(TP+FN)。)
A、Accuracy:(TP+TN)/all
B、F-value:2recallprecision/(recall+precision)
C、G-mean:sqrt(precision*recall)
D、AUC:ROC 曲线下面积

46、下面关于 ID3 算法中说法错误的是(D )
A、ID3 算法要求特征必须离散化
B、信息增益可以用熵,而不是 GINI 系数来计算
C、选取信息增益最大的特征,作为树的根节点
D、ID3 算法是一个二叉树模型

47、如下表是用户是否使用某产品的调查结果: 请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。 (C )
A、年龄
B、地区
C、学历
D、收入

48.在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 (D )
A、增加训练集数量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM 算法中使用高斯核/RBF 核代替

49.如果线性回归模型中的随机误差存在异方差性,那么参数的 OLS 估计量是 (B )
A、无偏的,有效的
B、无偏的,非有效的
C、有偏的,有效的
D、有偏的,非有效的

50.一个二进制源 X 发出符号集为{-1,1},经过离散无记忆信道传输,由于信道 中噪音的存在,接收端 Y 收到符号集为{-1,1,0}。已知 P(x=-1)=1/4,P(x=1)=3/4, P(y=-1|x=-1)=4/5,P(y=0|x=-1)=1/5,P(y=1|x=1)=3/4,P(y=0|x=1)=1/4,求条 件熵 H(Y|X)(B )
A、0.2375
B、0.3275
C、0.5273
D、0.5372

51、以下哪种方法不属于特征选择的标准方法:(D )
A、嵌入
B、过滤
C、包装
D、抽样。

51.下面哪种不属于数据预处理的方法?( D)
A、变量代换
B、离散化
C、聚集
D、估计遗漏值。

52.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其 他标签的数据相分离?( B)
A 分类
B 聚类
C 关联分析
D 隐马尔可夫链

53.Nave Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一 个假定是( C)
A、各类别的先验概率 P(C)是相等的
B、以 0 为均值,sqr(2)/2 为标准差的正态分布
C、特征变量 X 的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布

54.假定某同学使用 Naive Bayesian(NB)分类模型时,不小心将训练数据的两 个维度搞重复了,那么关于 NB 的说法中不正确的是?(B )
A、模型效果相比无重复特征的情况下精确度会降低
B、如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的 模型预测结果一样
C、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

第二部分:
问答题(4 题,共 20 分)

问题一、什么是 Tableau?如何从 Tableau 中的提取?
参考答案: Tableau 是一种商业智能软件,允许任何人连接到相应的数据,然后可视化并创 建交互式的可共享仪表板。 可用于提高性能和离线分析的数据源的已保存子集。

问题二、叙述 tableau 的优势
参考答案:
1)、什么都能连:都能连,不能直连的也可通过 odbc 来连
2)、学习门槛低:官方有最新版本的视频、文本、案例提供。
3)、轻量级:简单拖拉拽就能快速创建一个报表
4)、更智能,比如自动识别维度和度量、自动求和、自动识别关联条件
5)、给人亲切感:能找到 excel、PPT 及其他数据分析工具的身影,功能类似
6)、丰富的图表展示

问题三、存储过程有什么优点?
参考答案: 存储过程或者函数可以重复使用,可以减少数据库开发人员,尤其是应用程序开 发人员的工作量。 使用存储过程或者函数可以增强数据的安全访问控制。可以设定只有某些数据库 用户才具有某些存储过程或者函数的执行权。

问题四、什么是触发器?严格的说触发器有哪几种?触发器有什么优点?
参考答案: 触发器主要用于监视某个表的 insert、update 以及 delete 等更新操作,这些操作 可以分别激活该表的 insert、update 或者 delete 类型的触发程序运行,从而实现 数据的自动维护。
使用触发器有如下优点:
1.自动执行。触发器在对表的数据作了任何修改(比如手工输入或者应用程序的 操作)之后立即被激活。
2.级联更新。触发器可以通过数据库中的相关表进行层叠更改,这比直接把代码 写在前台的做法更安全合理。
3.强化约束。触发器可以引用其它表中的列,能够实现比 CHECK 约束更为复杂 的约束。
4.跟踪变化。触发器可以阻止数据库中未经许可的指定更新和变化。

  1. 强制业务逻辑。触发器可用于执行管理任务,并强制影响数据库的复杂业务规 则。

问题五、哪些机器学习算法不需要做归一化处理?
参考答案: 概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量 之间的条件概率,如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类 的最优化问题就需要归一化。 我理解归一化和标准化主要是为了使计算更方便 比如两个变量的量纲不同 可 能一个的数值远大于另一个那么他们同时作为变量的时候 可能会造成数值计算 的问题,比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛比较困难,还 有如果需要计算欧式距离的话可能 量纲也需要调整 所以我估计 lr 和 knn 保 准话一下应该有好处。至于其他的算法 我也觉得如果变量量纲差距很大的话 先 标准化一下会有好处。一般我习惯说树形模型,这里说的概率模型可能是差不多 的意思。

问题六、数据归一化(或者标准化,注意归一化和标准化不同)的原因
参考答案: 要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的 量纲不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如 SVM) 需要归一化。 有些模型伸缩有与原来等价,如:LR 则不用归一化,但是实际中往往通过迭 代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发 生不收敛的情况,所以最坏进行数据归一化。

问题七、哪些机器学习算法不需要做归一化处理?(10 分)
参考答案: 概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和 变量之间的条件概率,如决策树、rf。而像 adaboost、svm、lr、KNN、KMeans 之类的最优化问题就需要归一化。 我理解归一化和标准化主要是为了使计算更方便 比如两个变量的量纲不同 可能一个的数值远大于另一个那么他们同时作为变量的时候 可能会造成数值计 算的问题,比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛比较困难, 还有如果需要计算欧式距离的话可能 量纲也需要调整 所以我估计 lr 和 knn 保准话一下应该有好处。至于其他的算法 我也觉得如果变量量纲差距很大的话 先标准化一下会有好处。一般我习惯说树形模型,这里说的概率模型可能是差不 多的意思。

问题八、数据归一化(或者标准化,注意归一化和标准化不同)的原因(10 分)
参考答案: 要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲 不相同。而且需要看情况进行归一化。 有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如 SVM)需要归一化。 有些模型伸缩有与原来等价,如:LR 则不用归一化,但是实际中往往通 过迭代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法 会发生不收敛的情况,所以最坏进行数据归一化。

Last modification:April 5, 2020
如果觉得我的文章对你有用,请随意赞赏