1检索语言与检索技术
1.1 检索语言
计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。由此可见,能否准确地检索出
用户所需的信息,关键在于能否准确地选择检索词。这里所谓的“准确”,是指用户所选用的检索词必须与数据库中标引文献记录所用的标引词相一致。检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。因此,编制检索语言的目的就是不但能够保证不同的标引人员描述文献特征的一致性,而且能够保证检索提问词与文献标引词的一致性。要把存储和检索联系一致,检索语言所表达的概念应该是唯一的。这就是说,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,要使其在该检索系统中具有单义性。

1.1.1 分类语言
分类语言是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。国内外比较重要的分类语言表有《国际专利分类表》、《杜威十进分类法》、《中国图书馆
图书分类法》、《中国科学院图书分类法》等。
1.1.2 主题语言
主题语言是以语词作为概念标识,按字顺编排的检索语言。主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。
(1)标题词语言——最早使用的一种主题语言。它以规范化的自然语义作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。表达主题的词语称为标题
词。
(2)单元词语言——是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。
(3)叙词语言——从自然语言中优选出来并经过规范化处理的名词术语。叙词语言是采用表示单元概念的规范化语词的组配来对文献内容主题进行描述的检索语言,也是目
前使用最广泛的主题语言。
(4)关键词语言——直接从文献题名、文摘或正文中抽取出来的未经规范化处理的
词。是一种用自然语言做标识的检索语言。
1.2 检索技术
计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。下面介绍几种常用的信息检索技术方法。
1.2.1 布尔逻辑检索
在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词
组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:



(1)逻辑“与”
逻辑“与”(用and 或*表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A 和概念B 的文献,可表示
为:“A and B”或“A*B”。检索结果如图1-4 所示,图中阴影部分即为同时包含A 和B 两个概念的命中文献。
(2)逻辑“或”
逻辑“或”(用OR 或“+”表示)是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A 或检索项B 的文献,可表示为:“A OR B”或“A+B”。检索结果是将含有检索项A 的文献集合与含有检索项B 的文献集合相加,形成一个新的集合。检索结果如图1-5 所示,图中阴影部分即为包含A 或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。
16
(3)逻辑“非”
逻辑“非”(用“NOT”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A 的文献集合中,排除同时含有概
念B 的文献,可表示为:“A NOT B”或“A-B”。检索结果如图1-6 所示,图中阴影部分即为包含A 且排除B 的命中文献。
A B
图1逻辑 “与”示意图
A or B
A B
图2 逻辑“或”示意图
A not B
A B
图3 逻辑“非”示意图
在上述逻辑算符中,其运算优选级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR D) AND B,表示先执行“A OR D”的检索,再与B
进行AND 运算。A and B
1.2.2位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同,美国DIALOG 检索系统的位置算符的用法意义如下:
(1)(W)—With
(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为( )。
例如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。
Computer( )aided( )design 可检索出含有Computer aided design 的文献记录。
(2) (nW)—nWords
(nW)表示在此算符两侧的检索词之间最多允许间隔n 个词(实词或虚词),且两者的相对位置不能颠倒。
例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献记录。
(3) (N)—Near
(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。
例如:computer(N)network 可检出含有computer network、network computer 形式的文献记录。
(4)(nN)—nNear
(nN)表示此算符两侧的检索词之间允许间隔最多n 个词,且两者的顺序可以颠倒。
例如 computer(2N)system 可检出含有computer system,computer code system,
computer aided design system,system using modern computer 等形式的文献记录。
(5)(S)—Subfield
(S)表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。
例如computer( )control(s)system 可检出文摘中含有“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。
(6)(F)—Field
(F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。
例如:water( )pollution(F)control 表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution 和control 的文献记录均可检索出来。
1.2.3 截词检索
截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干
加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。截词检索就是为了解决这个问题而设计的,它既可保证不漏检,又可节约输入检索式的时间。所谓截词,就是指在检索词的适当位置截断。不同的检索系统其截词检索的表示是不同的。例如,美国Dialog 系统用“?”表示截词符。有以下截词方式:
1) 后方截词
后方截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。后方截词又分为词尾的有限截断和词尾的无限截断两种情况。
(1)词尾的有限截断
相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个
“?”,常用来表示检索词的单复数变化。例如用system? ?可以查出sytem 和systems 的
文献。
相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变
化的字符。例如,??表示两个字符,???表示三个字符,以此类推。
(2)词尾的无限截断
相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找
出含有相同字符串的所有检索词。例如, comput? 可查出compute , computer ,
computing,computation,computerisation 等等。
2) 中间截词
中间截词又称中间屏蔽, 是一种用截词符屏蔽词中不同字符的方法。例如
“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用
“defene”代替。
截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时
间,节约了机时。
1.2.4 字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。基本字段包括篇名、文摘、叙词、自由标引词四个字段。辅助字段包括除基本字段以外的所有字段。每个字段都有用2 个字母表示的字段标识符。在DIALOG 检索系统的命令检索模式中,使用字段限制检索时,基本字段用后缀表示,辅助字段用前缀表示。例如,computer and network/TI,DE 表示将检索式限定在篇名字段(TI)和叙词字段(DE)中;要查找著者Smith D.发表的文献,检索式
可表示为AU=Smith, D.。在多数检索系统中,如果用户不对检索式注明字段限定范围,系统会默认在四个基本字段中检索。