王化
因诺微科技(天津)有限公司,天津市高新区华苑产业区,300380
摘要:随着我国社会市场主义经济的高速发展,我国信息检索也在不断发展。在这样的社会背景下,相关人员在信息检索中逐渐开始应用自然语言处理,进而来提高信息检索效率以及检索质量。据调查可知,自然语言处理的构成部分多种多样,呈现多元化趋势,主要包含有资源(机读词典)与自然语言处理技术(基本自然语言处理技术与高级自然语言处理技术)两大类。本文以自然语言处理在信息检索中的应用为主题进行探析。
关键词:自然语言处理;信息检索;应用
中图分类号:TP391.3? 文献标识码:A 文章编号
1自然语言处理的概念
所谓自然语言,也就是人们日常口头上所使用的各种通俗语言。自然语言处理(Natural LanguageProcessing,NLP),有时也称为计算语言学或自然语言理解(NLU),是人工智能领域与计算机科学领域中的一个重要研究方向。NLP是以计算机为工具,对人们生活中所使用语言的各种表示形式,它是语言信息处理的一个重要研究领域。在我国,实际上就是指中文信息处理。相对于规范语言,对自然语言的理解需要更多智能化的手段,更具有一定的难度。主要的原因还是因为汉语的千变万化以及词库的选取问题,同一个词在不同的句子里不一定表达同一个意思,同一个词在不同的领域里含义也相差甚远。因此,如果基于自然语言理解的搜索引擎建立,计算机能够具备理解人的一般言语能力,那么用户就可以通过这个搜索引擎到内容库中查找自己需要的内容。
2语义、句法、语用分析
自然语言理解系统主要的核心部分是其语言分析器,主要用于语法研究和语法分析。而在进行语法研究和语句分析时主要是区分语义、句法、语用分析几个模块。在自然语言理解的相关领域中,越来越多的文献强调语义分析的重要性。在汉语中,有很多这样的例子,如:风把门吹开。对于这样的例子,仅仅在句法的层次上分析并得出“吹”是动词,“门”是名词,符合动词与名词之间的动宾关系,但从语义上分析,这是个“把”字句,而这个分析的结果违背了“把”字句必须是施事。再从语用的角度来看,此句传达的意思不够准确。目前计算机处理的句子都是有合法结构的句子,而人们日常生活中的很多省略句还不在该范畴。其中心任务就是通过语义分析、句法分析和语用分析得到句子结构的形式化表示。
3自然语言应用于信息检索过程中的分析
3.1智能检索技术
随着社会的进步与发展,智能化已向各行各业逐步渗透,在信息检索方面,主要就是模拟人脑进行搜索,根据用户提供的相关词语,采用云计算和大数据技术,分析出用户所要表达的准确意思,然后快速、准确向用户呈现出来。从目前的智能检索发展水平来看,主要可以分为三大步骤,分别是语义理解、知识管理和知识搜索,当用户输入关键词时,系统可以自动识别词义,然后进行分类,最终把库中的准确意思整理好呈现给使用者。其中智能代理技术是自然语言检索过程中的关键性技术,它主要由一些关键性的智能化程序构成,在客户不断搜索过程中分析和学习使用者的偏好和需求,并结合相关的搜索系统来检索使用者所需要的主要信息,方便快捷、更新能力强。
总而言之,智能检索技术是以使用者的需求为出发点,通过需求分析,建立起智能数据库、智能搜索模式,实现数据库自动维护、数据库自动更新等功能。它建立在强大的文本库之上,是现代检索技术的强大推动力,一方面解决了检索精准度不高的问题,另一方面简化检索流程,节省了使用者的时间。
3.2掌握用户的检索偏好
从整体上看计算机技术,它由三大部分组成,是集合了信息传递功能、信息处理功能、信息存储功能的终端。在计算机发展的漫长过程中,其发展围绕人们的需求。随着网络科技的兴起,人们不再喜欢用那种代替检索的中介性行为来满足自己的需求,也不满足只能复制大量数据资料。人们更希望在检索过程中并不是简单把目录的相关内容呈现给使用者,而是经过一定的处理将知识与知识组合起来,产生新的信息。伴随着网络搜索功能的不断开发,用户的数量越来越庞大,各种需求的多样化程度也就越来越高。所以,在未来的发展过程中,检索系统要充分了解使用者的偏好,熟练掌握他们的搜索行为,根据使用者以往的搜索情况分析出搜索误差的范围,进一步提升用户体验、降低错误率。
3.3应用混合检索技术
混合检索技术是一种非常具有优势的检索技术,也是被行内人广泛看好的一项技术,笼统地讲,它的主要工作机理就是良好控制自然语言,避免一些范围大、词义相近的情况。在混合检索技术中,首先要创建一种混合词表。混合词表的设计并没有要求具有很强高的精确度,仅仅是一种范围较大的词表,而且数量较少,一般包含几百个词汇即可,主要形成一种长条形的检索流程。在标引词语时,可以输入一个比较粗泛的词语,当然也可以将文献、资料中的词语抽出来输入进行搜索,这种混合检索模式兼顾了受控语言和自然语言,通过自然语言检索可以使检索具有一定的指向性,而通过受控语言检索使词语有了族性,这两种功能完美结合可以大大缩短用户的检索时间、提高检索质量,在未来将得到越来越广泛的应用。
3.4优化应用自然语言
首先优化先控技术。先控技术,从字面上就可以大致理解其主要含义。这项技术在使用前应建立一个自然语言与检索语言的对应库,前面的一部分为自然语言,后面的一部分为检索语言,当使用者运用自然语言进行检索时,计算机可以根据自然语言找到对应的检索语言,通过这种对应的互换体系在文本库中实现准确检索。这种方法只是检索方法中的一小部分,它的存在并不影响原来具有的标引工具和相关数据信息,它的存在能够有力提升受控语言的性能,能够充分发挥自然语言的优势,可以提高检索的准确性、降低容错率,给使用者带来良好的使用体验。
其次,后控技术也是检索过程中需要的一大技术,后控技术不同于前文提到的先控技术,它主要应用于人工智能检索系统和后控词表中。当用户输入自己的关键词后,通过人工智能检索对使用者的自然语言进行分析和归类,然后通过一些数据将其转化为计算机能够识别的、规范的检索要求,然后将指令传达给后续程序,完成检索工作。在这个过程中,后控技术发挥着关键性作用,当用户输入自然语言后,机器可以根据自然语言从后控词表中选出准确的、规范的词语呈现给用户,任由用户挑选。用户可以点击相关关键词缩小范围进行检索,这种技术可以弥补自然语言检索的不足、提高精准度。运用这项技术的关键就在于应严格编选后控词表,选用一些具有普遍共识、准确性的词语作为词表中的内容,还要控制和识别汉语语言习惯中大量存在的近义词、关联词,还要完善文本库的自动更新功能,使其能够记住使用者偏好,提高实用性。使用这种方法时,可以放松对标引阶段的控制,将关注点放在后控词表上,在检索过程中,使用者可以从一个关键词入手,在文本库中找到一大批与之相近的近义词、等级词等,在这样的使用背景下,使用者完全不用考虑自己搜索的关键词、搜索的主题到底有哪些近义词和等级词,而且使用后控技术,提供的相关词语非常多,速度快、效率高,极大减少了使用者的负担。
4结束语
长期以来,研究者们不断尝试在信息检索中采用自然语言处理技术,但结果并不能让人满意,因此提出了面向用户的查询扩展统计模型中的用户兴趣模型,希望能对现有的用户查询过程进行改进。虽然目前自然语言处理在应用的过程中还存在很多问题,但是自然语言处理技术在网络信息资源检索中必将具有很大的应用前景。
参考文献
[1]杨光荣.论“动态分析语法”——自然语言行为的可计算性及其形式理论[J].山西大学学报:哲学社会科学版,2017(3):78-94.
[2]王璐璐,袁毓林.走向深度学习和多种技术融合的中文信息处理[J].苏州大学学报:哲学社会科学版,2016,10(4):160-167.