信息检索自测题


一.名词解释(5*4=20分)
1.信息检索
信息检索是将信息按照一定方式组织和存储起来,并根据用户的需求查找给定信息的过程。

2.查全率与查准率
查全率是指检出文献中合乎需要的文献数量占数据库中合乎需要文献数量的比例。查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。

3.截词检索
截词检索是指在检索标识中保留相同的部分,用相应的截词符替代不同的部分。(类似于简单的正则表达式)

4.邻近检索
邻近检索是用一些特定算符来表达检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。

5.引文索引
引文索引是一种将科技期刊、专题期刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。

6.搜索引擎
搜索引擎是给用户进行关键词、词组或自然语言检索的工具。

7.NSTL
国家科技图书文献中心

8.CALIS
中国高等教育文献保障系统

9.CSDL
中科院国家科学图书馆

10.LISA与LISTA
图书馆学与情报学文摘,图书馆学与信息科学与技术数据库

11.检索语言
检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇、符号及其使用规则的集合,是一种标引和检索的工具。

12.信息检索系统
信息检索系统是信息检索所用的硬件资源(如计算机、网络)、软件资源(如Windows系列软件)以及信息资源(数据库)的总和。

13.文献及其要素
“文献”是泛指“有历史价值或参考价值的图书资料“。
要素:1、构成文献内核的信息、知识、数据、事实
2、承载信息、知识、数据、事实的物质载体
3、记录信息、知识、数据、事实的符号系统

14.专利文献
专利文献是实行专利制度的国家、地区及国际组织在审批专利过程中产生的官方文件及其出版物。

15.信息素养教育
信息素养教育是指一个人的信息意识教育、信息道德教育、信息能力教育。

二.简答题(8选5,5*6=30分)
(信管专业专选)

  1. 假设有三个文档(d1,d2,d3)组成的文献集合,假设查询式为:
    Query: (Jam OR Treacle) AND Pudding AND NOT Lane AND NOT Traffic,
    试根据布尔逻辑的运算规定写出查询式的析取范式,并写出检索过程和结果。
    T = {jam, lane, pudding, traffic, treacle}
    d1: receipt for jam pudding
    d2: DoT report for traffic lanes
    d3: radio item on traffic jam in pudding lane

Answer:

jam lane pudding traffic treacle
q 0 0 1 0 1
1 0 1 0 0
1 0 1 0 1
d1 1 0 1 0 0
d2 0 1 0 1 0
d3 1 1 1 1 0

d1在q的3种可能表达式中,d2,d3不在,故选d1

  1. 在文档d1,d2,d3,d4中,k1,k2,k3,k4出现次数如表所示。文献集合为10000篇,其中包含k1、k2、k3、k4的文档数量分别为100、200、150、50。Query包含两个词K1和K3, Q=K1 K3。
K1 K2 K3 K4
d1 1 4 2 0
d2 5 2 0 3
d3 3 0 2 1
d4 4 3 3 2

请写出每一个文档的向量表示(TF-IDF方法),并在此基础上计算d1与查询式q的相似度Sim(q,d1), 以及d2与d3的相似度Sim(d2,d3),写出公式即可,不需计算答案。

Answer:
k1: idf1 = log(10000/100)
k2: idf2 = log(10000/200)
k3: idf3 = log(10000/150)
k4: idf4 = log(10000/50)

d1 = (1/7,4/7,2/7,0)(idf1,idf2,idf3,idf4)T
d2 = (5/10,2/10,0,3/10)
(idf1,idf2,idf3,idf4)T
d3 = (3/6,0,2/6,1/6)(idf1,idf2,idf3,idf4)T
d4 = (4/12,3/12,3/12,2/12)
(idf1,idf2,idf3,idf4)T

q = (1/2,0,1/2,0)*(idf1,idf2,idf3,idf4)T

Sim(q,d1) =
Sim(d2,d3) =

3.

三.选填
1.N/0连接两个词比P/0连接两个词检索得到的结果数量会有如何变化?
A、不变
B、更多
C、更少
D、根据词不同结果不同
正确答案: B

2.在两个词之间使用位置检索符P/0包含了如下哪几个意义?
A、顺序不能颠倒
B、允许插入空格
C、允许插入一个标点符号
D、中间不能插入任何单词
正确答案: ABCD

3.WIPO是?
A、中国知识产权局
B、美国专利商标局
C、欧洲知识产权组织
D、世界知识产权组织
正确答案: D

4.USPTO是?
A、中国知识产权局
B、美国专利商标局
C、世界知识产权组织
D、欧洲知识产权组织
正确答案: B

5.以下哪一个是中国高等教育文献保障系统的学位论文检索系统?
A、中国知网的硕士与博士论文数据库
B、万方中国学位论文数据库(CDDB)
C、NSTL学位论文检索
D、CALIS学位论文中心服务系统
正确答案: D
NSTL学位论文检索:国家科技图书文献检索
CALIS学位论文中心服务系统:中国高等教育文献保障系统

6.WOS三大索引数据库是:
A.SCI(科学引文索引)
B.SSCI(社科引文索引)
C.AHCI(艺术与人文索引)
正确答案:ABC

(信管选做)
7.Given: {2,4,6,12,14,16,40}, m1 = 2, m2 = 12,
Patition them into two groups with k-means and k-medoids method.
(1)k-means
1< {2,4,6} {12,14,16,40}
m1 = 4, m2 = 20.5
2< {2,4,6,12} {14,16,40}
m1 = 6, m2 = 70/3 = 23+1/3
3< {2,4,6,12,14} {16,40}
m1 = 7.6, m2 = 28
4< {2,4,6,12,14,16} {40}
m1 = 9, m2 = 40

res1 = {2,4,6,12,14,16}, res2 = {40}

(2)k-medoids
{2,4,6} {12,14,16,40}
平方和最小

res1 = {2,4,6}, res2 = {12,14,16,40}

8.
正确答案:图一;1;3;5

9.简单叙述PageRank算法与Hits算法
PageRank算法:链接矩阵算出关系方程式,多轮迭代求出网页排名值
Hits算法:H0 = [1,1,1,1], A = L转置H, H = LA, 依次迭代

10.简答:(1)简述PageRank算法原理
一个页面的得票数由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。
(2)简述HITS算法原理
每个网页的重要性由两个指标刻画,权威值(Authority)与枢纽值(Hub)。一个权威值高的网页会被很多网页指向(如微博大V)。一个枢纽值高的网页会指向很多网页(如大型目录网页)。

课本复习:
11.https://docs.qq.com/mind/DSE1YWFV5WmJPRlJV

四.论述题
1.如何打击虚假信息?
看看大佬怎么说:

若侵权请联系。
2.信息素养
增强信息意识,培育信息道德,培养信息能力