湖南衡阳南华大学图书馆 吴蝶 421000
摘 要:本文主要对数据挖掘的概念、技术和主要过程进行了简介,并对数据挖掘技术在图书馆领域的一些应用进行了介绍,针对图书馆信息管理系统中的馆内藏书信息和读者"书目"借阅等信息进行数据挖掘,发现了读者借阅规律,在数据挖掘技术的影响下,现如今图书馆的管理和服务有了很大的提升。
关键词:数据挖掘;图书馆;挖掘技术;用户行为分析
1.前言
如今网络信息、数字资源泛滥,导致馆藏资源受到冷落,移动阅读等新型阅读模式的兴起改变着人类传统的阅读模式。近年来,计算机技术网络技术快速发展的道路上,数据挖掘是技术热点中的热点。通过对不断累积下来的海量数据进行的有效挖掘,可以从这些海量数据中发现某些特定的规律,并对这些规律进行分析处理,对以后的决策有帮助,儿这些规律不能仅靠我们的肉眼观察发现,也不可能在短时间为人们所发现,这就需要借助一些工具、方法、技术来帮助我们进行数据挖掘工作。伴随着图书馆业务特别是数字图书馆的不断发展,大量的数据被收集且存储在图书馆管理系统中,一个图书馆拥有海量的用户行为数据成为很平常的事。同时,信息资源的快速增长又使图书馆用户陷入在“信息迷茫”的沼泽中,作为认知的主体,图书馆用户的心理、社会的素养等方面的差异都决定了不同的需求和偏好。怎么才能解决海量数据所带来的这些问题,最关键的一环就是针对不同的用户,根据其特定的需求来进行数据挖掘,然后根据其行为偏好,设定个人化的分析算法来建立用户模型,这样就能为不同的用户提供相应的个性化服务。
2.数据挖掘简介
2.1数据挖掘的概念
数据挖掘(Data Mining)通俗地称为数据库中的知识发现,一般是指从大量的"有噪声的"随机的实际应用数据中抽取出事先不为人知的"有潜在价值的信息以及知识,然后加以分析并根据人的行为偏好来处理成他人理解的模式的一个过程[1].数据挖掘涉及到的学科领域特别多,而且能够与许多学科交叉发展。例如数据挖掘与图书馆学的交叉发展。
2.2 数据挖掘技术的分析方法
(1)关联规则:关联规则挖掘经常被运用在商店的商品交易记录中,针对顾客交易的商品、行为做相应的关联性分析,借助于交易商品的偏好、意向等元素来建立关联性,并以此决定搭配促销商品、商品摆放位置等策略,从而提高商品的购买率,促进商店销售的业绩增加。例如:“20%买洗衣机的顾客也会同时选择去买烘干机”就是典型的在购买行为上的关联规则。
(2)聚类分析技术:聚类分析是在分类的基础上,将无标志的数据对象应用聚合算法进行归集,来发现其数据的分布模式和可能存在的数据属性之间的关系[2]。(例如,百货公司将在商场进行采购的人根据他们的采购记录将他们划分为公务员类、妈妈类、儿童类)。
(3)分类算法:决策树是一种分类算法,它是利用一些先验的规则来得到一个类别或者数值。例如,银行会将你的往年的现金流水通过一定的公式和规则进行套算,然后计算出你的还款能力,从而决定你是否合适办信用卡,以及你的信用卡可用额度是多少。
2.3数据挖掘的基本过程
数据挖掘不仅是利用数据挖掘的算法对数据进行挖掘的过程,还包括业务对象的确定、前期的数据准备和转换以及对挖掘结果的分析和评估 4个部分。在数据采集和预处理阶段时必须着重注重数据的结构特点,根据数据的结构特点选择相应的采集工具,在数据的预处理阶段应注意数据的完整性,对不完全的数据进行修补。在数据挖掘分析阶段主要依据用户的需求进行挖掘分析。
3.图书馆用户行为分析的概念及关键技术介绍
3.1 图书馆用户行为概述
3.1.1用户行为的基本概念
在图情领域的文献中,有学者指出用户的行为是指情报用户进行的有意识的查寻文献、情报以及阅读和利用文献、情报的活动,简称“查阅行为”[3]。也有部分学者认为用户行为(包括图书馆中的借阅活动和检索活动)是用户在情报系统中一切活动的总括。用户行为一词由用户和行为两个不可分割的部分构成,所以用户行为研究也就分为用户研究和行为研究两个层面,一是基于行为模式的用户分析,一是基于用户的行为模式分析。用户本身就包含着大量的数据信息,包括用户的姓名、性别、年龄等;当用户发生行为后,又产生了与之关联的用户行为数据,包括行为的时间、地点、做什么等。因此用户研究的主体是用户,研究的基础是用户的自身信息和行为信息。但是在图书馆这样非盈利性的机构里,用户的研究常常没有作为重点。所以在基于行为模式的用户分析层面。
3.1.2图书馆用户行为
用户对图书馆的利用分为两类。一类是对实体图书馆的使用,包括阅览、图书借还、电子阅览、讲座以及对图书馆其他实体功能性设施的使用;第二类是对图书馆数字资源的使用,即通过图书馆主页访问图书馆各种类型的电子资源和网上服务。在数字图书馆、移动图书馆盛行的时代,实体图书馆存在的意义以及未来的发展趋势越来越成为图情领域研究者们所关注的重点。只有深入分析实体图书馆的价值、核心竞争力等才能够让实体图书馆有更多的发展空间。
3.2图书馆用户行为分析
图书馆用户进入实体图书馆[4]后发生行为分流,一部分发生阅览行为,一部分发生借还书行为,还有电子阅览以及其他多功能设备的使用行为。这些行为发生的另一个基础是馆藏资源以及电子资源的支撑。用户发生借还书行为的前提是图书馆中有馆藏资源,同时对馆藏资源有信息记录,用户借还书行为发生后,馆藏资源信息也会产生相应的变化。用户发生电子阅览行为时,系统自动记录行为数据,包括使用的设备号、时间、用户信息、以及用户通过电子设备访问了哪些服务器等。从前端用户信息到后端资源配置信息,从用户进入图书馆到发生行为再到退出系统的一系列有数据记录的行为是流程化的,对行为流程的分析有助于对图书馆用户行为形成整体的概念,同时能够反映资源间的整合衔接。
运用数据挖掘技术对图书馆用户行为的流程化分析可以清晰地梳理用户进入图书馆之后的行为模式,再引入年级和学院等用户自身信息后可以对用户行为流程进行多维度的监控,发掘行为特殊的点,从对特殊点的分析得出个性化服务的方案。
3.3关键技术
图书馆领域的技术应用主要如下:一是利用关联规则算法对借阅的历史数据进行关联分析。图书馆的数据库中存着大量的用户信息、图书馆藏书信息和用户借阅信息,将这些信息从图书馆的数据在库中抽查出来,然后进行数据挖掘,找出此类信息之间的相关性,可以推算出用户对哪类图书比较偏爱以及接下来他有可能借阅什么类型的图书,并对其进行推荐。二是利用聚类算法,将书分为新书和旧书,然后进行分析,看读者是偏爱新书,还是偏爱旧书,通过读者对某种类型书类的喜好,得出此类图书的借阅价值。同时,也可以利用聚类方法,将借阅了同种类型图书的读者划分都一块儿,对此类读者的兴趣爱好进行分析,方便以后对其进行个性化推介。三是利用分类算法并借助数据挖掘技术,和聚类算法不一样,聚类分析是找出相同借阅习惯的读者的借阅倾向,并为其提供个性化服务,分类分析是对不同借阅习惯的读者的借阅倾向进行分析,并为其提供个性化服务。
4.数据挖掘在图书馆中的应用
欧美图书馆学家常常这样说“教师是一所学校的大脑,图书馆是一所学校的心脏”通过这样一个比喻来体现高校中图书馆的重要性,希望通过提升图书馆的性能来带给全校师生全新的体验,帮助他们在学术造诣上获得提升。因此,图书馆如何提供正确而有效的给全校师生服务,对提升学校的学术知名度与继续发展有着非常重要的影响。
4.1书目挖掘
书目挖掘(Bibliomining)[5]一词是Nicholson在2003年首先提出,在此之前,有关数据挖掘技术应用于图书馆领域的研究虽有一些成果,但研究人员一般把它称作图书馆的数据挖掘(Data Mining in Library)[6]。通过书目挖掘,可以更深层次的了解有关用户个性化的行为与需求,以利于图书馆管理者做出更准确的决策。具有挖掘价值的图书馆数据主要有两大来源,一是图书馆自动化系统的图书借阅记录,二是图书馆馆藏信息。
书目挖掘过程
(1)确定主题:确定书目挖掘计划研究的主题它是具有预测性质还是描述性质。
(2)建立数据仓库:确定了书目挖掘技术的主题后,我们要依据主题来确定数据的来源,然后我们将这些从分散的数据库中集合到的所有数据统一的放置到一个存放数据的数据仓库中。
(3)挖掘数据:这是实际的执行书目挖掘的地方,根据挖掘计划的主要任务和目标,采用不同的技术和模型将数据仓库中的数据进行挖掘
(4)评估结果:模型建立以后,要由该领域的图书馆专门人员解释,变成有意义的信息。看一看挖掘出来的信息结果是否符合实际。
(5)报告和实施:对前面的结果进行解释和参考,决定是否实施下一个环节的挖掘。书目挖掘在目前而言,在图书管领域而言,有着巨大的发展前景。
4.2图书馆信息推荐系统
我国部分图书馆虽然已经开展推荐服务,例如某些高校的数字图书馆有着新书推荐,还有最高评分推荐图书等等一系列行为吧,但是从总体上来看,我国图书馆服务的智能化服务程度还是相对比较低下,图书馆的服务系统只有最单一的的检索、借阅功能,这样很难满足大部分读者的应用需求。我们都知道多数读者对图书馆藏书的信息了解程度并不是很深,也无法从中快速、精确的找出自己所需要的图书。
为了更好服务于读者,为其呈现一个特色的数目推荐服务,图书馆需要在以下几个方面提升自己的服务品质:首选需要对图书馆现有的借阅记录进行归集并应用数据挖掘技术,来分析出不同种类的图书被借阅时的检索信息有什么共通特征,哪几种图书之间的借阅信息存在关联性,在某个读者对图书馆中某一本图书进行检索时,检索系统会根据图书的关联信息自动推荐出相关连的几种类似图书;同时在读者检索图书的时候,对读者的借阅行为信息进行信息收集并应用数据挖掘、聚合算法等一系列技术,来分析出读者的阅读性趣,判断出读者的年龄、专业、性别等信息,再根据分析出的结果进行图书推荐,同时也可以在用户登录之后自己的界面设计一个用户感兴趣书目,并推介用户将感兴趣书类加入到这个目录中,方便日后的图书馆信息资源的特定信息挖掘,减少了不必要的资金投入,以后再用户的二次登录后,图书馆推介系统能够给读者提供他最想要的书目信息。根据使用算法的不同,推荐技术包括以下七种:协同过滤的推荐技术[7]、基于内容的推荐技术、基于关联规则的推荐技术、基于知识的推荐技术[8]、基于效用的推荐技术[9]、基于网络结构的推荐技术、基于用户统计信息的推荐技术。
5.结语
随着图书馆数字化进程的不断加快,大量的数据不断产生,如何在图书馆的信息海洋中挖掘出重要的对读者有利的信息十分重要。图书馆应该不再坐以待毙,通过聚类、分类、关联规则等数据挖掘技术,对馆内信息去粗留精、去伪存真,不断优化馆藏信息,挖掘学科间的隐性联系,为读者的借阅行为提出指导,更好地为读者提供个性化服务。
参考文献:
[1]张文华. 基于读者行为特征的数据挖掘实例[J]"图书馆杂志,2009(12):55-58
[2]杨光,张学潮. 数据挖掘在高校图书馆用户行为分析中的应用:以山西大学图书馆为例[J]"晋图学刊,2011(3):19-28
[3] 郑挺. 试评《对图书馆 8538 名读者的调查与分析》——兼谈读者行为研究中的调查法[J]. 黑龙江图书馆, 1985, (01),pp 68-71.
[4] 卢荣远. 情报用户行为的社会心理基础[J]. 情报学刊, 1987, (02),pp 33-36.
[5] 朱明. 数据挖掘.第2版.合肥:中国科学技术大学出版社:2008:258-265.
[6] 廖琴,郝志峰,陈志宏. 数据挖掘与数学建模.北京:国防工业出版社,2010:186-199.
[7] 方洪鹰. 数据挖掘中数据预处理的方法研究.硕士学位论文.重庆:西南大学,2009.
[8] 阚华. 以国际质量标准提升图书馆服务[J]. 国家图书馆学刊, 2006, (01),pp 11-15.
[9] 丁媛. 我国研究型大学图书馆多样化服务模式研究[D]. 硕士, 大连理工大学 2010.
作者简介:吴蝶,(1993-),女,南华大学图书馆,助理馆员,硕士;研究方向:信息技术与信息系统。