搜索
您的当前位置:首页正文

一种基于领域本体的用户建模方法

来源:榕意旅游网
总第256期 2011年第2期 计算机与数字工程 Computer&Digital Engineering V01.39 No.2 86 一种基于领域本体的用户建模方法 陈钰张功亮阚述贤周茜赵晓飞桂林朱悠悠 541004) (广西师范大学计算机科学与信息工程学院摘要针对当前大多数个性化服务系统的不足,以旅游领域为背景,提出了一种新的基于本体的用户模型构建方法, 利用领域本体中的概念、实例和属性描述用户兴趣特征,实现了在语义层次上理解用户兴趣。实验表明,该方法能有效提高 用户模型的质量。 关键词个性化;用户建模;旅游领域本体 TP311 中图分类号A User Modeling Method Based on Domain Ontology Chen Yu Zhang Gongliang Kan Shuxian Zhou Xi Zhao Xiaofei Zhu Youyou (School of Computer Science and Information Technology,Guangxi Norma1 University,Guilin 541004) Abstract Currently,there is some disadvantages in most personalized services system.Taking tourism field for exam— ple,a new user model construction method based on ontology which uses concepts is proposed,instances and attributes of domain ontology to describe the characteristics of user interests,and realizes the user interests to be understood in the seman— tie leve1.The experiment shows that this method effectively improve the quality of the user mode1. Key Words personalized,user modeling,tourism domain ontology Class Number TP3]] 1 引言 互联网的飞速发展使网上旅游信息资源呈爆 炸性增长,各类旅游网站提供了海量相关信息,如 景点、酒店、特产、小吃等,给人们的出游带来了极 大的便利,同时也不可避免的产生了一些问题,人 与否直接关系到个性化系统的服务质量,传统的个 性化系统一般采用关键词向量空间模型,缺乏对用 户兴趣的语义描述能力。近年来,由于在用户兴趣 描述上具有明显优势,本体逐渐被国内外一些研究 用于用户建模,文献E2]构建了集成用户兴趣信息 和语义信息的加权本体,并基于该加权本体提出了 一们往往难以快速、准确地找到符合自己需求的信 息,“信息过载”、“资源迷向”等问题日益严重。个 性化服务技术正是这一解决严峻问题的有效方法, 个个性化语义搜索框架;文献[3]基于用户知识 本体和概念向量构建用户模型,实现了用户兴趣的 个性化语义描述;文献[4]研究如何利用本体形式 化描述用户的认知结构,为用户构建基于领域本体 的用户模型,提高了个性化检索的质量。由此可 见,本体是描述用户兴趣,构建用户模型的一种有 效途径,但上述方法的共同缺点是只使用了概念和 实例来描述用户兴趣,而忽视了领域本体中的其他 它根据用户的背景和习惯,对信息资源进行收集、 整理和分类,向用户提供符合其兴趣偏好或需求的 信息 。 用户建模是个性化服务的核心技术。为了给 用户提供针对性的服务,需要获取用户的个人兴趣 信息,并对这些信息进行整理、归纳和数据挖掘,从 实体,影响了用户兴趣描述的精确度。为此,本文 而得到一个可计算的用户模型。用户模型的精确 以旅游领域为背景,研究如何利用本体推理及本体 收稿日期:2010年8月7日,修回日期:2010年9月19日 作者简介:陈钰,男,硕士研究生,研究方向:语义Web、信息检索。 2011年第2期 计算机与数字工程 87 中的各种实体来更精确的描述用户兴趣信息,构建 了一个能自动学习与实时更新的用户模型,并通过 实验验证了该方法的优越性。 地区 fJ景点景区I 旅游本体 I酒店旅馆lI地方特产l l小吃J l旅行社 主食 2旅游领域本体的构建 2.1本体理论 小点 名菜 汤类 国际社 本体(Ontology)的概念起源于哲学领域,是近 年来的一个研究热点,在人工智能界定义为:本体 是共享概念模型的明确的形式化规范说明[5]。本 体的目标是描述某一领域的共有知识,提供对该领 域知识的共同理解,确定该领域内共同认可的术 语,并从不同层次的形式化模式上给出这些词汇和 词汇间相互关系的明确定义。PerezE6]等人归纳出 了构成本体的5个基本元素:概念、关系、函数、公 理和实例。本体按照领域依赖度可以划分为顶层 本体、领域本体、任务本体和应用本体[黥一 一市一枢一一一区7],其中领域 一县一绒 本体用于描述特定领域中的概念及概念之问的关 系,可以为简单的术语赋予明确的背景知识,有利 于知识的共享和重用。 2.2旅游领域本体 ~一一一一一一 一 旅游业是一个集中了食、住、行、游、购、娱六大 要素的综合性产业,相关的Web信息复杂多样,因 此互联网上旅游网站的数据成为领域知识的主要 一一一一一一一一一一~一一 来源。本文通过查阅相关文献、咨询领域专家和参 考国家有关分类标准,根据实际使用需求,一一一一一一一一一一一一一 构建了 一个旅游领域本体。本体中各概念的名称来源于 该领域内共同认可的词汇,定义了如地区、小吃、旅 行社、酒店旅馆、景点景区、地方特产等主要的概念 (类),这些类还可以各自细化出子类别,其层次结 构(部分)如图1所示。为充分发挥本体在知识表 示与逻辑推理方面的优势,需要认真分析本体中类 与类之间的语义关系,注意类之问的并、交、非等标 识,同时属性也是本体中类与类之间常用的语义表 示方法,主要分为数据属性和对象属性,旅游领域 本体中定义有如hasTelphone、hasAddress、 hasPrice等数据属性和hasDish、hasSight、hasSpe- cial、hasTravelAgency等对象属性。此外,本体库 中还包含了大量实例,如地区类实例有南宁、桂林、 北海等;酒店旅馆类实例有桂林大瀑布酒店、梧州 大酒店、贺州国际酒店等;景点景区类实例有象鼻 山、青秀山、银滩、德天大瀑布等。 3基手旅游领域本体的用户建模 用户建模就是构建和维护用户模型的过程,其 国内社 图1旅游本体(部分)层次图 目的是产生一个包含用户背景及兴趣信息的形式 化模型,以满足个性化系统的服务需求。本文中基 于旅游领域本体的用户建模,把对用户兴趣的理解 和描述从基于关键词的层面提升到了基于语义的 层面,使得用户兴趣的描述更为精确。 3.1用户模型的表示 由于旅游领域中的概念十分有限,且具有良好 的层次关系,这就便于利用领域本体中的实体来描 述用户兴趣。本文中,用户模型可以形式化描述为 下列二元组:UserModel===(Userlnfo,UserOnto), 其中, UserInfo一{Name,Sex,Age,Profession, ConLeve1),描述用户的个人基本信息。主要是姓 名、性别、年龄、职业、消费水平等。 UserOnto一{C, ,R,H, ,X,F),表示用户 兴趣本体,它是 由旅游本体的子集加权扩展而来。 C表示用户兴趣概念集;A。为概念属性集;R为关 系集;H为概念层次; 表示用户兴趣概念的实例 集;X为公理集;F为函数集,用于将本体中的各种 实体映射到相应的权值。 在用户模型中,利用领域本体中的概念(类)、 实例、属性等实体描述用户兴趣特征,并对它们进 行加权,构建用户兴趣加权本体。为了更精确的描 述用户兴趣,本文将用户的兴趣特征分为两部分: 用户兴趣概念和兴趣概念属性集,其中用户兴趣概 念C由领域本体中的概念和实例表示,权值为 一 gree (c),且有degree (f)∈[0,∞],表示用户在t 时对某一兴趣概念C的兴趣度;兴趣概念属性A (c)是领域本体中概念属性集合的子集,权值为 一 gree ( (c)),本文设定某一兴趣概念c所有属性 的权值之和为1。例如,用户U 在t时的兴趣特征 可以用图2表示。 88 陈钰等:一种基于领域本体的用户建模方法 第39卷 图2用户“ 的兴趣特征图 由图2可以看出,用户 对桂林市区的兴趣度 为5.8,对桂林市区中景点景区、特产、小吃类信息 感兴趣的程度分别为0.6、0.3和0.1。在景点景区 中,用户对七星公园的兴趣度为3.5,且对其地址 和子景点较为感兴趣;在特产中,用户对与于三花 酒的兴趣度为1.7,且比较关注其价格及种类;在 小吃中,用户对椿记烧鹅的兴趣度为2.3,主要关 注其价格和门店的地址。由此可见,本文的用户模 型能够详细描述用户的兴趣偏好信息,保证了个性 化系统的服务质量。 3.2用户模型的学习与更新 用户背景的不同导致其兴趣领域也各有特色, 例如年轻人热衷于漂流、攀岩、探险等户外运动;老 年人则对园林、博物馆更感兴趣;学生大多选择性 价比较高的自助游;公务员、企业高管等则更加青 睐旅游的高品质。个性化系统一般都是面向注册 用户的,可以根据用户在注册时提供的一些信息 (如用户基本资料、感兴趣的领域等)来构建初始用 户模型,但是初始用户模型并不是一个高效、精确 的模型,用户的兴趣和需求也不是一成不变的,随 着用户社会阅历的增加、知识的丰富、工作的需要 以及时间的变化,用户的兴趣会发生变化和漂移, 因此,用户模型需要不断学习、更新与完善。 本文通过分析用户的检索行为来实现用户模 型的学习与更新,用户的检索行为可分为查询行为 和浏览行为。用户的每一次检索都会输入若干查 询词,由查询词产生若干个页面,用户对每个页面 的兴趣度也各不相同。一般认为:1)某关键词的 搜索次数越多说明用户对该关键词越感兴趣;2) 用户在某个页面的浏览时间越长,说明用户对该页 面的内容越感兴趣;3)用户在一个时间段内,对某 一特征项相关页面的点击次数越多,说明用户对该 特征项越感兴趣。因此,可以通过分析用户某阶段 内的行为特征得到用户当前的短期兴趣,实现用户 模型的自动学习和实时更新。 3.2.1用户兴趣概念的学习更新 用户的兴趣概念主要由领域本体中的概念和 实例来表示,在完成一次检索以后,通过搜集、分 析、去噪、归纳检索行为产生的用户数据,统计用户 对某一关键词搜索次数、某一页面的浏览时间、单 位时间内某一特征项相关页面的点击次数、用户的 浏览速度等数据,得到用户在这一次检索时的短期 兴趣度,表示为value (c)。如果概念C是用户模 型中没有的兴趣,则直接加入用户模型,兴趣度为 value妇 (c);如果用户模型中如果已经存在此兴趣 概念,则用户模型中c的兴趣度增加value妇 (c)。 本文设定兴趣概念c在t(z)时的兴趣度为de- gree毗,( ),在充分考虑用户的长期兴趣与短期兴 趣的情况下,degree (c)的计算公式为: degree£( )(c)一 , rg ( 一1)(c)×e + values )(c) (1) 式(1)中;degree妇一 )(c)表示兴趣概念f在模型更 新前的兴趣度;value )(c)表示兴趣概念c在此次 检索行为中兴趣度的增加值。用户注册时,兴趣概 念c的兴趣度为degree (c),当个性化系统使用一 段时间以后,用户模型会自动更新,兴趣概念c的 兴趣度在t(z)时变成degree )(c),由于用户兴趣 本身的衰减特性,为此引入遗忘因子e一 来反 映这一衰减过程,其中,h表示半衰期,用于控制遗 忘速度,常设为7(单位:天);At表示用户模型两次 更新间隔的天数。 3.2.2概念属性权值的学习更新 领域本体中各概念有不同的属性集,由此对应 不同的个体集合。本文的旅游领域本体中定义了 大量的数据属性和对象属性,为更精确的描述用户 兴趣,本文将这些属性赋予一定的权值后加人用户 模型。用户的检索行为同样会影响兴趣概念各属 性的权值,在完成一次检索以后,用户模型中各概 念属性的权值会自动学习更新。设属性A (c)在t (z)时的权值为degree )(Ac(c)),其计算公式由 文献[8]中公式变形而来: degreet洲cAc 一巡 筹ra—广/…,、 re q kC) / (2) 2011年第2期 计算机与数字工程 89 式(2)中,degree _1)(A (c))表示概念属性A (c) 在£(z一1)时的权值;freq(A (f))表示用户在此次 检索时所浏览的内容中,概念属性A (c)出现的次 5 结语 本文立足于旅游领域,充分考虑描述用户兴趣 数;∑Ac(c)freq(A (c))表示此次检索行为中某一 特征的各种要素,利用用户兴趣概念和概念的各种 兴趣概念c的所有属性出现的次数之和;a是一个 属性描述用户兴趣,依此构建用户模型,充分发挥 本体逻辑推理的优势,提高了用户模型的质量,并 将用户模型成功应用于一个旅游信息语义检索系 统之中。 参考文献 常量,用于调节用户长期兴趣与短期兴趣的关系。 随着个性化系统使用次数的增多,大量的用户 数据也随之产生,本文通过分析收集到的用户数 据,形成了大量关于用户兴趣的有用知识,并通过 本体推理发现新的用户兴趣,这些兴趣知识和新兴 趣又会对用户的检索结果产生影响,从而实现了用 户模型的自动学习与更新,对用户兴趣的描述逐渐 [1]陈俊杰,刘炜.一种基于本体的个性化模式库建模方法 l-J].计算机研究与发展,2007,44(7):1151 ̄1159 [2]吴蓉,丁二玉,骆斌.基于加权本体的个性化语义搜索 _J].计算机工程与设计,2008,29(19):5051 ̄5053 [3]张瑜,苏晓路,刘世洪,等.基于本体的农业科技信息用 户建模系统设计与实现l-J].现代图书馆情报技术, 2009(儿):34~39 趋于精确与完整。 4性能分析与比较 为检测用户模型的效果,本文实现了一个具有 个性化功能的旅游信息语义检索系统TISRS (Tourism Information Semantic Retrieval Sys— E4]Xuan Tian,Xiaoyong Du,He Hu.Modeling individual cognitive structure in contextual information retrieval tern)。衡量一个搜索引擎的性能最常用的标准是 l-J].Computers and Mathematics with Applications, 2009(57):1048 ̄1056 查准率和召回率。查准率表示检索到的相关文档 占检索结果文档的比例;召回率表示检索到的相关 文档占实际相关文档的比例。本文实验选取了以 下三种情况进行比较:1)TISRS系统(无用户模 型);2)基于概念与实例加权的用户模型;3)基于 本文中构建的用户模型。实验首先让用户自主定 义100个与桂林旅游业相关的关键词在上述三种 Es]Studer R,Benjamins V R,Fensel D_Konwledge engi— neering Principles and Methonds[J].Data and Kon— wledge,1998,25(122):161 ̄197 [6]Perez G A,Benjamins R V.Overview of Knowledge Sharing and Reuse Components:Ontologies and Prob— lem-Solving Methods[C]//Stockholm V R,Benjamins B,Chandrasekaran A,eds.Proceedings of the UCAI- 99 workshop on Ontologies and Problem-Solving Meth— 情况下分别进行检索,为情况2)、3)自动建立用户 模型,当用户模型建立以后,再选取1O个如“桂林 市区”、“七星公园”、“三花酒”、“椿记烧鹅”等类关 ods(KRRS),1999:1~15 1-7]Guarino N.Semantic Matching:Formal Ontological Distinctions for Information Organization,Extraction, 键词分别在情况1)、2)、3)中进行检索。实验结果 显示,基于本文中构建的用户模型进行检索同 TISRS系统、基于概念与实例加权的用户模型进行 检索相比,语义搜索引擎的查准率平均提高 14.77 和5.93 ,查全率平均提高23.18 和 1O.47 ,表明本文所构建的用户模型具有较高的 精确度,能较好地提升个性化服务系统的质量。 c c 每 e and Integration -IC]//Pazienza M T,eds.Information Extraction:A Multidisciplinary Approach tO an Emer— ging Information Technology,Springer Verlag,1997: 139~170 E8]Xing J,Ah-Hwee T.Learning and inferencing in user ontology for personalized Semantic Web search[J].In— formation Sciences,2009(179):2794 ̄2808 e e e e e e 饭权尹明 本刊现人编“万方数据——数字化期刊群”“中国学术期刊综合评价数据库来源期刊”、“中国期刊网人编,投稿时敬请说明。 《计算机与数字工程》编辑部 中国学术期刊(35 盘版)”和“中国核心期刊(遴选)数据库”,作者著作权使用费与本刊稿酬一次性给付,不再另行发放。作者如不同意将文章 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top