信息检索研究现状
引言 信息检索的目标是“所得即所需”(What you Get Is What You Want)。一个具体的体现就是:不同的用户在使用同样查询的时候可能获得不同的结果;更进一步,同一个用户在不同时间或者不同地点发出同样的查询可能获得不同的结果。例如,同一个用户对“java”信息的需求:在工作时间希望得到有关编程语言java的相关文档,在休息时间希望得到有关java岛的旅游信息。为了达到这样的目的,检索系统需要充分地理解并掌握检索活动的主体(用户)和客体(资源)。面对这样的挑战,人们一方面在信息资源端做工作,提出了语义网(Semantic Web,也称为语义Web)的概念,使得检索系统能够更好地理解内容,从而使检索结果更符合检索的条件;另一方面是在用户端做工作,通过各种手段获得用户的特征信息并进行用户建模,使用用户个性化信息来修正查询条件,从而改善检索结果。这两个方面的研究对达到“所得即所需”的目标起到了很大的推动作用。尽管语义网和用户建模技术极大地提高了检索系统的智能化、个性化水平,但是,人们也已经意识到,将资源和用户分开来考虑,难以达到“所得即所需”的目标。必须用系统的观点来看待信息检索活动,也就是说,用户检索的结果应该是特定“环境”下的结果,这个环境就是检索过程的上下文(context)。考虑了上下文的检索称为上下文信息检(Contextual Information Retrieval,CIR)。
1 上下文信息检索的概念 Word Net 是 Princeton 大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。在 Word Net2.1 中,上下文(context)被定义如下:
1)语言学上下文,即在一个语言单位附近的片断,用以帮助解释该语言单位。
2)环境,即一种情形或事件发生于其中的环境和背景。信息检索领域中,上下文最初是指“自然语言处理中的文档片段”,专门用于自然语言学中指代短语或句子在实际应用中的语言环境。它在自然语言处理中的价值体现在两个方面:一方面,在自然语言知识获取的过程中,上下文是知识获取的来源,在相应推理机制下,上下文本身就是知识;另一方面,在自然语言处理的应用问题解决过程中,上下文扮演着解决问题所需信息和资源提供者的重要角色。
从20世纪中期开始发展的信息检索系统,基本上是千人一面(one size fits all),不同用户提出同一查询,得到的答案完全相同。这种模式带来的最大问题就是不够人性化,难以准确地满足不同用户的个性化需求。所以,人们最先关注的是和用户有关的上下文,即把用户有关的信息引入检索系统以满足用户的“所得即所需”。文献[6]于2000年总结的Web搜索中的上下文信息主要包括和用户查询意图以及用户查询表达相关的信息。文献[7]也指出上下文和个性化检索紧密相关,用来帮助提高用户检索体验,需要理解每一个用户查找信息的模式习惯、用户目标,以及信息本身。
然而,对信息检索系统而言,可利用的上下文并不仅限于此。2002年9月在Massachusetts Amherst大学智能信息检索中心(the Center for Intelligent Information Retrieval)召开的关于智能信息检索未来研究方向和发展的研讨会上,许多信息检索领域顶级研究者经过讨论给出了上下文信息检索定义[8],即:
定义1(上下文信息检索,Contextual Information Retrieval,CIR)就是把有关用户、查询的上下文知识和信息检索技术融合在一起,统一组织在一个整体框架内,以向用户提供最适合用户需求的检索信息。
随着人们对CIR的关注,2003年第12届TREC(Text Retrieval Conference)国际会议第一次增加了HARD评测(High Accuracy Retrieval from Documents Track)。HARD评测的目的是考察用户及其相关信息对检索过程和检索结果评估的影响,即考察信息检索过程中上下文(如用户地域特点、文档风格等上下文信息)对信息检索性能的影响。
2004年第1届IRiX(Information Retrieval in Context)研讨会在第27届SIGIR上举行,并一举成为
— 欢迎下载 2 SIGIR2004上参会人数最多、最受人关注的研讨会。该研讨会的总目标是如何在信息检索过程中考虑上下文因素以提高用户信息需求满意度。在该研讨会上,信息检索领域中的上下文定义如下。
定义2(上下文,Context)信息检索中的上下文包括一切与检索查询相关的任务信息、交互历史信息、用户信息等明确给出或隐含在检索交互环境中的相关信息。
从定义2中可以看出,只要和用户检索过程相关的一切隐含或明确的信息都将是智能个性化信息检索的上下文,都可能用于优化检索系统,提高检索性能。因此,智能信息检索的上下文实际上是无所不在,无处不在。
事实上,从20世纪90年代后期以来,围绕信息检索、信息推荐等信息服务系统的上下文的研究就层出不穷,有许多研究成果已经成功运用在实际系统中来帮助提高效率和性能,如针对用户兴趣的相关反馈技术、针对Web文档链接内容的Page Rank技术、针对用户访问历史记录的Web日志分析技术等,并取得了一系列重要成果。这为人们进一步挖掘可用上下文以帮助提高检索效果树立了信心,指明了方向。在2007年欧洲信息检索大会上(European Conference On Information Retrieval,ECIR),Yahoo公司新兴搜索技术(Emerging Search Technology)部门的Andrei Broder指出上下文信息不仅在当前第三代搜索引擎实现满足“查询背后的需求”(the need behind the query)目标中起着关键作用,更在未来第四代搜索引擎实现“上下文驱动的信息推送”(context driven information supply)目标中占据主导地位。
2 CIR 中的上下文因素及其分类 2.1 学术界的观点 Peter Ingwersen等人把信息检索系统中涉及的上下文因素抽象概括为六大因素,表示为一个上下文分层嵌套模型(Nested Model of context stratification for IR),如图1所示。该模型作者认为,传统信息检索技术更多的是关注检索对象本身以及检索对象之间的特征,如词语、段落以及文档内容的超级链接等;如今,信息检索系统的上下文技术开始转向用户检索对话过程中(session-time)可获取的上下文信息,如鼠标移动、打印保存等操作,即转向从交互式过程中获取用户的上下文信息。
图 1 Peter Ingwersen 等人提出的分层嵌套的上下文模型 2005年IRiX(Information Retrieval in Context)研讨会上研究者则把信息检索中的上下文看作是包含了信息检索过程中涉及的各种因素的超类,把各种因素不同取值之间的组合看作情景(Situation),把每种因素的取值可能性看作是任务(Task)。上下文中包含的因素主要是3个方面的,分别是系统、用户和环境。其中每一方面的因素又包含多种因素,如用户方面包括动机(Motivation)、知识(Knowledge)、历史(History)和个体差异(Individual differences)等,系统方面包括资源(Resource)、检索模型(Retrieval
Model)、设备(Device)、接口(Interface)等方面。
— 欢迎下载 3 2.2
产业界的观点 Andrei Broder在2007年欧洲信息检索大会上强调了当前和未来上下文信息在信息检索过程中的重要性,指出当前第三代检索技术是依赖上下文信息满足“查询背后的需求”(the need behind the query),并提出未来第四代检索技术需要实现“上下文驱动的信息推送”(context driven information supply)。同时,他指出第三代搜索引擎中上下文中的决定因素(Context Determination)包括空间信息(如user local/target location)、查询信息(如previous queries)、个人信息(如user profile)、明确信息(如user choice of a vertical search)以及潜在信息(如use Google from China, use google.cn)等5种。除了上面学术界给出的阐述外,产业界给出了更为实用的基于上下文的信息检索的说明。他们把基于上下文的信息检索看作是由信息检索领域3种技术构成的三维空间上的一个平面。这3种技术保障了对上下文信息的获取和挖掘,如图2所示。这3种技术分别是:
1)智能的文本挖掘和数据挖掘,通过自动文本概念标注、模式发现和实体知识识别等技术发现各种可用的信息; 2)灵活的内容构建技术,能从结构化或半结构化的数据源中发现独立的XML模式和相关关联; 3)高性能的检索技术,面对超大规模的数据能进行迅速和可扩展的内容处理和检索。
图2 产业界关于上下文检索的一种观点 2.3
本文的分类观点 纵观上面的讨论,Peter Ingwersen等人的看法层次分明,抽象意义明显;2005年IRiX研讨会上给出的结论比较系统、清楚自然,更便于在实现过程中区分和理解;Andrei Broder给出的上下文更符合Internet上搜索引擎环境下的应用;而产业界则在技术层面上给出了挖掘应用上下文因素的相关分析。结合以上讨论和上下文信息在信息检索领域已有的研究成果,本文把人们当前比较关注的上下文因素按照信息检索的逻辑流程分为3个类别,如图3所示,分别是用户上下文、文档上下文和系统上下文。
图 3 本文对检索系统中上下文因素的分类
— 欢迎下载 4 1)用户上下文:检索系统中围绕用户的上下文信息,如用户的兴趣、爱好等,以及用户的查询日志、检索反馈行为等。用户上下文提供了理解用户需求的信息,是现在实现个性化检索及未来实现上下文驱动的信息推送服务的必要条件之一。为了便于详细解析和用户有关的上下文信息,本文把用户上下文分为用户静态上下文和检索任务上下文两个类别。用户静态上下文和用户的专业背景、工作内容、爱好、经验、生活习惯、理解水平等因素密切相关;检索任务上下文包括检索任务的内容、特点、发生时间、作用范围、发生背景等方面,一方面反映用户本次信息需求的内容,另一方面反映用户检索需求的变化和迁移。用户静态上下文描述了用户检索需求的一种长期特点,是用户长期检索兴趣的反映;检索任务上下文描述了用户检索需求的一种短期特点,是用户短期检索需求的反映。
2)文档上下文:文档是指信息检索的目标对象。文档的内容特征、使用范围、产生的时间和地点以及其它元数据(meta data)信息等都属于文档上下文。文档内容特征包括文档的书写语言、术语化程度(专业性程度)、布局特点等因素。除了文档内容外,对Web网页而言,超链分析(link analysis)、布局分析(block analysis)可以较准确地挖掘出其特征;对Pdf、Word等文档而言,元数据分析、布局分析能更有效地发现其特点。另外,整个文档集的组织结构、文档之间的关系等独立于单个文档之外的信息也属于文档上下文的范畴。
3)系统上下文:反映了信息检索系统实现过程中的相关特征,如采用的索引机制、检索模型、检索界面等。
3 CIR 研究现状 3.1 用户上下文 3.1.1 用户静态上下文 用户静态上下文包括用户的专业背景、工作内容、爱好、经验、生活习惯、理解水平等各种和用户个体相关的许多因素,用户建模(user modeling)就是对用户上下文中的因素进行模型表示。当前,研究者比较关注对用户上下文中用户认知特点(cognitive characteristics)的建模,如兴趣、技能、偏好等。随着近年来语义Web(Semantic Web)和本体(Ontology)技术的发展,许多研究纷纷以本体为工具来分析和描述用户上下文。文献[25]在具有层次关系的轻量级本体ODP(Open Directory Project)上对用户查询兴趣进行扩展:把用户兴趣归纳到ODP上的不同类别上,把用户对某个类别下的实例兴趣度的50%加到其父类别上,达到由下层到上层对用户兴趣进行扩展的目的。文献[6]提出基于Lycos的目录层次结构构建一个表示用户兴趣的个性化层次树,以帮助实现Web的个性化浏览。文献把用[27]户的研究兴趣建立在ODP之上,并通过计算搜索结果网页所属类别和用户兴趣所属类别之间的语义距离来实现个性化的检索。这些研究使用的本体大都集中在一些大型的通用本体,所利用的语义关系大都是父子关系,还缺乏对本体信息更充分的利用和进一步挖掘,如本体上概念之间的关联关系、建立在更细粒度上(如领域本体)的分析等。
信息检索系统中常通过用户描述文件(user profile)为每个用户刻画其用户特征。用户描述文件可以表示成加权向量模型、层次结构模型、加权语义网模型、书签和目录结构等,存储时可以采用纯文本文件、XML文件、关系数据库、XML数据库等各种形式。
获取用户上下文最为直接简单的方法就是由用户自我提供确认。系统可以在用户注册该系统时获取相关的用户上下文信息,如年龄、专业、兴趣等。NEC研究所(NEC Research Institute)著名的Inquirus-2项目[6]就是通过用户手工选择查询类别来获取相应的用户上下文信息;Google Personal也是由用户选择兴趣所属类别来创建用户描述文件的。然而,通过许多研究调查表明人工方式获得的用户上下文并不很准确,原因在于大部分用户不愿意花费精力认真准确地填写自己的相关信息。针对许多系统并不能获得用户准确上下文信息的问题,人们提出许多自动获取方法来获得用户静态上下文,如相关反馈(Relevant
— 欢迎下载 5 Feedback, RF,RF)、机器学习(Machine learning, ML)、数据挖掘(Data Mining, DM)等。这些方法通过对用户操作历史、用户访问过的资源特征、用户访问日志等信息的统计分析来获取某方面的用户上下文,帮助创建用户描述文件。例如,文献[12]介绍了使用关联规则挖掘用户的Web日志以构建用户的个性化描述文件;WY.Men等人提出根据用户的点击历史自动把用户兴趣定位到Yahoo的某个类别层次上,从而确定用户的个性化信息;文献[2]通过增量式文本挖掘方式(incremental text mining)发现用户兴趣。为了获取更准确的用户上下文信息,这些自动方法或者需要长期用户的检索任务上下文信息,或者需要与用户上下文人工获取方式结合起来。
3.1.2 检索任务上下文 检索任务上下文提供围绕用户检索目的的上下文信息,包括检索任务的内容特点、发生时间、发生地点(IP地址)、作用范围、发生背景(客户端背景)、用户的反馈信息、响应操作等许多因素。根据这些因素的变化性和复杂性,我们把检索任务上下文分为简单因素和复杂因素两类,两类因素比较如表1所列。简单因素包括用户提交检索时可以获得的一次性数据,这类数据在用户的一次查询过程中基本没有变化,如检索内容、发生时间、发生地点、发生背景等因素。根据这些简单因素,结合文档集的特点,检索系统可以在第一次返回检索结果时向用户提供更适合其需求的文档。例如:根据发出查询用户的IP地址,搜索引擎可以判断用户的使用语言偏好以向用户提供适合用户语言阅读的检索结果;根据用户发出查询的时间,例如是在普通工作时间内还是在休假时间内,搜索引擎可以把用户更满意的结果排在前面。Yahoo公司的基于上下文的信息检索工具Y!Q1首先做到的就是从用户在Web页面上选取的上下文中识别出用户需求并把相关页面返回给用户。复杂因素是指和用户进行该检索时对检索过程和检索结果的响应相关的因素,和简单因素相比,这类数据动态不定,如用户的反馈信息、响应操作、查询持续时间等。根据复杂因素,系统可以将反馈结果应用在用户查看下一页的结果排列上。Steve Fox把复杂因素又划分为结果级别(Result-Level)和会话级别(Session-Level),并详细列出了每一级别上更为细致的因素。
表1 检索任务上下文中的简单因素和复杂因素的比较
简单因素 复杂因素 共同点 都是围绕用户检索任务的上下文信息 区别 在用户的一次查询过程中基本没有变化 和用户在检索过程中的响应 行为有关,动态不定 具体因 素包括 检索内容、发生时间、发生地点、发生背景等 用户的反馈信息、响应操作、 查询持续时间等
复杂因素与用户在检索过程中的响应行为有关,而相关反馈技术是获得这些因素最为重要的方法之一。相关反馈技术不仅在创建用户描述文件时可用于获取用户的兴趣和偏好,对即时提高检索性能、满足用户短期查询也有很好的效果。相关反馈分为明确反馈(explicit feedback)、伪反馈(pseudo feedback)、潜在反馈(implicit feedback)3种形式。明确反馈是指由用户明确给出是否满意检索结果的评价。由于大部分用户在检索过程中不愿主动参与,因此在Web检索系统中单独应用较少;即使有用户主动参与了明确反馈,效果也不是很好。伪反馈是一种没有用户参与的方法,它假设第一次检索结果中Top-N 篇文档正是用户所需,并把这种假设的反馈信息通过查询扩展(query expansion)技术调整新查询的结果排序。伪反馈中可提取出许多信息,如段落和概念等,用于优化检索性能,提取出真正有助于增强了解用户个性化的上下文信息将更具有意义。伪反馈是应用较多的一种方法,但它基于的前提假设“Top-N篇文档与用户所需相关”值得进一步关注。文献[7]曾通过实验发现伪反馈的效果受N值的影响较大,因此提出了两阶段混合模型的解决方法。
潜在反馈是指在用户检索和浏览检索结果的过程中由检索系统自动收集有关用户响应行为的反馈信息,并把反馈信息及时应用到当次检索结果的优化调整上。潜在反馈由于具有不需用户主动配合、能即时修正检索结果的优点,因此成为当前研究领域获取检索任务上下文最主要的方法。也有人对潜在反馈的效
— 欢迎下载 6 果存有疑虑,但研究[8]表明通过潜在结构化的个性化信息进行的个性化Web检索性能要比明确反馈信息的效果好,文献[9]也得出了类似的结论,并且通过进一步研究表明在越复杂的检索任务中,潜在反馈的效果越明显。随着人们对检索任务上下文内容更细致的挖掘应用,针对检索任务上下文的潜在反馈模型也成为最近研究的重点,如文献[9]针对用户的点击流(click through)信息提出一种基于决策理论的潜在反馈模型;文献[4]针对用户与Top-N文档交互的上下文信息提出一种基于启发式的二元投票模型(Binary Voting Model)。
3.2 资源上下文 超链分析技术主要针对Web文档超链分析技术主要针对Web文档中的超级链接(hypertext)信息,早期曾在Lawrence Page和Sergey Brin等提出的Page Rank算法中实现[1]。考虑到重要的文档会有更多的链接指向它,Page Rank算法从文档页面上的进链(back ward link)和出链(forward
link)数量出发计算每个页面的权重。近年来,人们又提出了面向主题(topic-sensitive)的Page Rank算法和基于PPV(Personalized Page Rank Vector)的个性化Page Rank算法,这些算法都是在原有Page Rank的基础上增加了主题特征、用户偏好等其它上下文因素来计算页面的权重。除了Page Rank算法,Kleinberg提出的HITS(Hypertext Induced Topic Search)算法也是超链分析技术中的一个重要算法,与Page Rank的全局平均思想不同,HITS算法针对一个查询请求分析权威页面(Authority)和枢轴(Hub)页面来计算页面的重要程度。然而HITS算法还是单纯从文档中的超级链接出发,忽略了文档中的其它因素。
有许多算法研究文档如何分块,这些文献大都从视觉位置、内容模式方面着手;也有一些研究专门从文档分块角度研究特征,如分块的重要性、分块的吸引性、分块的语义性、分块的指向性等;这些研究在分析分块特征时常常依据的是块中词语的熵信息,或者根据链接的统计信息,或者根据分块中的语义信息。布局分析的一个重要意义在于充分挖掘文档特征,以用于提高信息检索性能。
3.3 系统上下文 信息检索系统所采用的检索模型是系统上下文中关键的一种。信息检索领域中经典的3种检索模型分别是布尔模型、向量模型和概率模型,它们分别基于集合论、代数论和Bayesian概率论。布尔模型基于简单的关键词匹配但检索效果很差;向量模型虽然提供了更好的改进但缺乏一个规范的框架;Bayesian概率论最大的优势在于提供了一个完整的框架以便人们把检索中的各种因素组合在一起考虑。各种模型及其相应的模型扩展在文献[2]中介绍得比较详细,本文不再一一列举。
检索系统中检索界面决定了人机交互(human-computer interaction)的内容,和检索系统中的其它上下文信息配合使用,对实现智能个性化检索非常关键。检索界面主要包括接受用户的查询输入和显示结果两个部分。
对查询输入界面,一方面可以在布局设计上考虑满足不同用户的使用偏好和习惯,另一方面可以在功能上考虑向用户及时推送其感兴趣的检索信息。如当前的Google,一方面针对不同地区用户自动推出不同的语言版本以适应用户的语言习惯,另一方面结合世界新闻事件不断更换其标志图案(logo)以向用户推送最新消息。
根据我们使用Web搜索引擎的经验,结果显示界面往往根据我们使用Web搜索引擎的经验,结果显示界面往往是把从海量信息中筛选出的大量信息显示给用户,因此除了检索性能,结果显示界面的设计常常影响用户对该检索系统是否偏好。好的结果显示界面一方面在布局上要简洁清晰、便于浏览查看,另一方面在功能上还能帮助用户理解个性化的检索结果、提高用户的检索效率。例如,在检索结果列表中加入准确的文档摘要信息,高亮度显示影响文档排序的关键词,按类别显示文档列表等都是比较有效的方法。
除了接受查询部分和显示结果部分,Jaime Teevan认为增加个性化参数控制(control over key personalized
parameters)部分也非常重要。虽然这部分功能用户可能较少使用,但提供给用户简易快捷的调整功能还是可以帮助用户获得更加满意的检索效果的。
— 欢迎下载 7 另外,我们把独立于检索系统之外的社会环境也看作系统上下文的一部分。这些上下文是指隐藏在社会生活、国际背景和文化趋势中的一些外界常规或突发信息。拥有及时社会环境的信息检索系统可以向用户提供更准确更及时的信息。这类上下文有两种方式可以获得,一种是人工收集,另一种是系统自动收集。人工收集是由工作人员根据现实生活,人工收集这类上下文;系统自动收集是指对所有用户检索日志进行统计分析及对比比较,发现这类上下文。两种方法相比而言,人工收集方式具有响应速度快、准确率高等特点,而系统自动收集往往能发现潜在的社会环境信息,从而更易于满足大部分人群潜在的检索需求。如谷歌搜索引擎2 能自动向用户提供和用户输入字面最接近的、最常出现的前10个查询,而网易3总是把系统统计得出的热门搜索显示在其主页面上,以向用户传递人们当前最为关心的信息。
4 CIR 研究面临的挑战 尽管自从上个世纪五六十年代开始的信息检索技术研究历史已达半个多世纪,并且已经发展到当前依赖上下文信息满足“查询背后的需求”的第三代检索技术;尽管各地研究者在理解用户个性化兴趣、解析文档特征、发展不断具有适应性的检索模型等方面进行了多角度研究,并不断从机器学习、人工智能、自然语言处理、数据库系统、数据挖掘等领域借鉴方法和思路;但是面对不断出现的超大规模在线数据,面对快速发展的语义网资源,面对用户对检索效果越来越高的检索要求,基于上下文的信息检索技术还面临着多重挑战。
1)深入理解用户需求并建模 无论是当前第三代依赖上下文信息满足“查询背后的需求”的检索技术,还是未来第四代实现“上下文驱动的信息推送”(context driven information supply)技术,只有深入理解用户个性化的需求才能达到真正使用户满意。虽然有许多研究在用户静态上下文和检索任务上下文领域进行了有效的尝试,但如何深入理解用户需求有待进一步研究,尤其在用户需求背景比较复杂、需求周期变换不定、需求形式多样化的情况下。文献[5]曾把用户上网搜索的需求形式分成3类:对信息的需求(例如:找新闻、找评论、找帖子等)、对导航的需求(找某个特定网站)和对交易的需求(例如:下载软件、在线购物、订机票等)。然而,面对不断增长的海量数据,我们还需要在理解用户的个体需求背景下加深用户需求动机的分析,例如了解用户已有的和查询相关的知识背景等。当然,在深入理解用户需求的同时也可能会带来暴露隐私的危险性,这也是个性化信息检索中一直期待研究的重要问题。
2)加强语义理解 语义网描述了信息资源的语义数据模型,提供了计算机理解内容的基础。随着语义Web和本体技术的发展,大家普遍认为按照本体标注和组织资源可以方便计算机之间基于语义的交换和处理。当前的检索系统虽然大量利用了文档上下文信息,特别是文档内容中的信息如超链接、标签、文档视觉形式以及其它各种形式的元数据类别等信息。但是,本质上这些方法仍然还是靠句法结构,基本上是用单词来匹配文本,缺乏对文档含义的真正理解。如何适应语义网上的处理方式以实现和语义网资源和服务的无缝连接以及如何深入理解文档含义和用户需求的含义都需要深入的语义分析。已有的研究在利用大规模通用本体如Word Net、OPT等上面取得了提高,但面向领域、粒度细致的语义分析和改进仍需深入研究。
3)提供融合上下文的检索模型 检索模型是检索系统的核心算法,信息检索领域中已经成功发展了向量空间模型、概率模型和统计语言模型等3种经典模型,并且还出现了新型的检索模型如基于引力的检索模型(Gravitation-based model)等。对经典的向量空间模型而言,虽然已经有潜在语义分析(Latent Sementic Analysis)、向量空间基(vector space bases)等方法把文档的上下文融入到向量空间模型中,但如何把各种上下文信息合理地融入到检索模型中的研究还不多见。近十年来统计语言模型是被强烈看好的一种支持融入上下文信息的检索模型。对统计语言模型而言,线性插值法是研究过程中常用的方法之一。然而线性插值项的系数并不是一件容易确定的事情,特别是在涉及到多种不同类型的上下文信息时。因此,对如何把各类不同上下文信息合理地融入到检索模型而言,还有许多值得研究的问题。
— 欢迎下载 8 4)CIR标准测试数据集和基准测试查询 众所周知,TREC会议上的测试数据集已成为信息检索领域公认的标准数据集。其中的HARD评测上也专门提供了考察像用户位置、文档风格、文档语言等上下文信息的标准评测数据。但信息检索过程中包含用户、文档、系统等不同种类的上下文,在TREC标准数据集中加入更多标准化的不同类型的上下文信息,特别是便于语义理解的上下文信息如提供标准的领域本体,对考察CIR查询效果的影响具有重要意义。
5)由被动要求转为主动推送 事实上,“Contextual Information Retrieval”具有一语双关的含义,可以具有两种解释形式,分别是基于上下文的信息检索(retrieval determined by context)和上下文中的信息检索(retrieval determined in context)。这两种解释分别代表着当前第三代信息检索技术“满足查询背后的需求”和未来第四代信息检索技术“上下文驱动的信息推送”的研究方向。虽然现在已有像RSS(Really Simple Syndication)这种在线订阅推送服务,但这并不是一种根据用户上下文信息主动变化而适时推送的服务,距离真正的主动推送服务还有很大差距。深入了解并理解用户所处的上下文环境,并充分利用系统、资源等上下文信息是未来实现向用户主动推送信息的前提条件。第三代信息检索技术的发展将为第四代技术奠定坚实基础。
结束语
本文全面介绍了上下文信息检索的研究现状,概括了国内外研究者对上下文信息检索过程中涉及的上下文因素及其分类,并从用户上下文、文档上下文和系统上下文3个角度对国内外有关上下文信息检索技术的研究作了概述。分析探讨了CIR研究领域面临的挑战,指出对用户检索背后需求的探究、基于语义的理解、创建融合上下文的检索模型等将是上下文信息检索领域面临的一些问题。
参考文献 [1]丁浩,林云.Internet上的个性化信息服务[J].软件世界,2000,(3). [2]赵静.个性化信息检索及功能模型[D].图书与情报,2004,(1). [3]应晓敏,等.一种面向个性化服务的无需反例集的用户建模方法[J].国防科技大学学报,2002。(3):67-71. [4]滕跃.基于用户兴趣的个性化WEB检索[D].清华大学。2004. [5]纪明奎.个性化信息检索探析[M]. 哈尔滨商业大学图书馆。2011. [6]张亮,冯志勇.个性化搜索引擎[J].计算机工程,2006,32(18):202-203. [7]宋伟萍,杨建林.个性化信息检索中的相关反馈技术研究[J].图书情报工作,2008(4):11-12 [8]龚笔宏.基于用户反馈的个性化检索技术研究[D].北京:北京大学,2007:1-4 [9]郭新明,赵 蔷,弋改珍.基于相关反馈的个性化信息检索模型研究[J]. 咸阳师范学院学报,2008。(11):54-57. [10]李树青.个性化信息检索技术综述[J]. 综述与述评,2009.(5) [11]朱苏. 基于用户信息管理的个性化信息服务. 淮阴工学院学报, 2004.12(6):81-82. [12]毛军. 网络环境下的个性化主动信息服务. 中国信息导报, 2001(9): 27-28. [13]张玉叶, 李连, 王春歆. 个性化主动信息服务实现研究. 情报杂志, 2005(8):71-72. [14]王玉英, 韩伟. 基于网络的个性化信息服务研究. 图书情报知识, 2003.12(6):64-65. [15] 徐宝文, 张卫丰. 搜索引擎与信息获取技术. 北京:清华大学出版社, 2003.1-23. [16]
Network Resource. Mobile Agent. http://www.ecs.soton.ac.uk/~nrj/download-files/KE-REVIEW-95.ps, 2006.09 [17]
Russell. S. Norvig, P. Artifical Intelligence: A Modern Approach. Prentice-Hall,Englewood Cliffs, 1995: 46~47
- 范文大全
- 职场知识
- 精美散文
- 名著
- 讲坛
- 诗歌
- 礼仪知识
-
超星尔雅学习通《对话大国工匠致敬劳动模范》题库附答案
超星尔雅学习通《对话大国工匠致敬劳动模范》题库附答案 1、历史只会眷顾坚定者、奋进者、搏击者,而不会
【入党申请书】 日期:2021-05-12
-
对于政治生态考核整改工作方案
本文系作者原创投稿,仅供学习参考,请勿照搬照抄! 关于政治生态考核整改工作的方案 为做好推进风清气正
【经济工作】 日期:2020-06-05
-
大学生学习2024年两会精神心得感悟
大学生学习2024年两会精神心得感悟过去一年,是全面贯彻二十大精神的开局之年,中国共产党带领全国各族人民,付出艰辛努力,换来重大成
【心得体会】 日期:2024-03-07
-
中国传统故事英文版 中国古代故事英文版
历史学科蕴含着许多丰富的、生动的、有趣的素材,每一个历史事件、历史人物都有相关的、动人的历史小故事,都能给人以启迪。你对中国古代的故事了解多少呢?下面是小编为您...
【调查报告】 日期:2019-05-22
-
基尔霍夫定律验证实验报告
基尔霍夫定律的验证的实验报告本文关键词:基尔,定律,霍夫,验证,实验基尔霍夫定律的验证的实验报告本文
【思想宣传】 日期:2021-03-08
-
中小学党建工作实施意见
中小学党建设工作实施意见中小学校担负着培养德智体美全面发展的社会主义建设者和接班人的重要使命。加强中
【爱国演讲】 日期:2020-09-22
-
地藏经诵读仪规(完整版)
地藏经诵读仪规(完整版) 恭请文: 恭请大慈大悲大愿地藏王菩萨、护法诸天菩萨慈悲加持护念弟子***能
【个人简历】 日期:2021-03-31
-
青年学生学习全国人大十四届二次会议心得感想16篇
青年学生学习全国人大十四届二次会议心得感想16篇报告中提到政府在经济调控、消费政策、基础设施和制造业投资、房地产调控以及地方债务
【心得体会】 日期:2024-03-07
-
小学党建工作制度
小学党建工作制度33篇 党建工作责任制度 1 党支部年初制定全年党建工作计划,将目标任务分解到有关部
【思想学习】 日期:2021-02-10
-
2022读懂中国五老事迹征文5篇
2022读懂中国五老事迹征文5篇 放军经过两天的拼搏,到了马垅都筋疲力尽,马垅村的村民纷纷拿出自家的伙食到榕树下给解放军们食用,
【征文演讲】 日期:2022-07-07
-
执行信息公开网
执行信息公开网 执行信息公开网 执行信息公开网: zhi*ing (点击下图可直接进行访问) 全国
【职场知识】 日期:2020-07-03
-
年国家开放大学电大电子商务单选题题库
单选: 1、EDI是指A、电子商务B、电子数据交换C、电子交易 D、移动数据交换 答案: B 2、电
【职场知识】 日期:2020-06-05
-
大学教师毕业设计指导记录4篇
大学教师毕业设计指导记录4篇 毕业设计是指工、农、林科高等学校和中等专业学校学生毕业前夕总结性的独立作业。是实践性教学最后一
【职场知识】 日期:2022-05-11
-
有机磷酸酯类中毒及其解救(实验报告范文)
有机磷酸酯类中毒及其解救XXX、XXX一、实验目的1 观察有机磷酸酯类农药敌百虫中毒时的症状。 2
【职场知识】 日期:2020-08-30
-
“以学生为中心”的教学原则
以学生为中心的教学原则教师在开展以学生为中心的教学实践中,必须谨记学习目标不再是知识的获得,能力要比知识更重要。以下是蒲公英阅读网
【职场知识】 日期:2023-01-05
-
2021教育基础知识试题(附答案)
2021教育基础知识精选试题(附答案) 1、主张恢复西方传统教育核心价值,反对“进步教育
【职场知识】 日期:2021-03-17
-
组工干部学习谈治国理政第三卷《共建创新包容开放型世界经济》心得体会
组工干部学习谈治国理政第三卷《共建创新包容的开放型世界经济》心得体会 《习近平谈治国理政》第三卷第七
【职场知识】 日期:2020-09-22
-
男一分钟仰卧起坐标准表
表表11--13 男生一分钟仰卧起坐、引体向上单项评分表(单位:次) 等级 单项 得分 三年级 四年
【职场知识】 日期:2021-05-08
-
心理健康黑板报_心理健康黑板报图片
虽然工作上难免压力,但是只要正视压力,一切就不会太辛苦。下面就随小编看看心理健康黑板报内容,希望喜欢哦。 心理健康黑板报图片欣赏 心理健康黑板报图片1 心理健...
【职场知识】 日期:2020-02-26
-
“从青风公司审计案例看销售与收款循环审计”案例说明书
“从青风公司审计案例看销售与收款循环审计”案例说明书一、本案例要解决的关键问
【职场知识】 日期:2020-09-28
-
唐代诗人李昂个人信息
唐代诗人李昂个人信息 导读:我根据大家的需要整理了一份关于《唐代诗人李昂个人信息》的内容,具体内容:
【古典文学】 日期:2020-11-07
-
[关于中秋的朗诵诗词] 关于爱国的朗诵诗词
中秋,热闹的街头树起了灯彩,舞起了火龙。你知道多少关于中秋的朗诵诗词?下面小编为你整理了几篇关于中秋的朗诵诗词,希望对你有帮助。 关于中秋的朗诵诗词一 中秋佳节...
【古典文学】 日期:2019-06-06
-
叠加原理实验报告
一、实验目的1、通过实验来验证线性电路中的叠加原理以及其适用范围。 2、学习直流仪器仪表的测试方法。
【古典文学】 日期:2020-11-12
-
输血查对制度
输血查对制度依据卫生部《临床输血技术规范》的要求,制订抽血交叉配备查对制度、取血查对制度、输血查对制
【古典文学】 日期:2020-09-24
-
大气唯美黑板报【国庆节大气黑板报】
日本在投降的那一天,再也没有昔日的嚣张,我们中国的屈辱得到洗刷。下面就随小编看看国庆节大气黑板报内容,希望喜欢哦。 国庆节大气黑板报图片欣赏 国庆节大气黑板报...
【古典文学】 日期:2019-05-05
-
怎样认识世界处于百年未有之大变局
怎样认识世界处于百年未有之大变局 首先,“大变局”是对国际格局发生巨大变迁的
【古典文学】 日期:2020-10-28
-
【二人旅游英语情景对话】 二人英语对话2分钟旅游
随着国内外旅游业市场的不断扩大,旅游英语人才成为社会的紧缺人才。小编精心收集了二人旅游英语情景对话,供大家欣赏学习! 二人旅游英语情景对话1 A:Itsmyfirsttimeto...
【古典文学】 日期:2020-02-29
-
2021公安专业知识考试练习题(附答案)
2021公安专业知识考试练习题(附答案) 1 甲地公安机关接到群众举报,在当天举行的大型娱乐活动中,
【古典文学】 日期:2021-01-29
-
法律知识手抄报图片大全|法律知识手抄报
我国开展了全面的普法宣传工作,法制宣传教育、普及法律常识作为经常的重要任务。做法制教育手抄报,普及法律知识。下面是小编为大家带来的法律知识手抄报图片大全,希望大家...
【古典文学】 日期:2020-03-10
-
乳糖检测方法
附录A(规范性附录) 乳糖的测定A 1原理牛乳或乳粉样液经沉淀剂澄清后,样液中的乳糖在苯酚、氢氧化钠
【古典文学】 日期:2020-12-08
-
时尚女装店面装修效果图|韩式女装店面装修
在服装店的设计之中,我们要将多变、创新、品牌自身的定位与发展趋势相结合,用一种可持续的设计方式呈现出来,以便更加适应不断更新的展示主体。下面小编就为大家解开时尚女装店...
【中国文学】 日期:2019-05-16
-
2021年超星尔雅学习通《辩论与修养》章节测试试题(共183题附答案)
2021年超星尔雅学习通《辩论与修养》章节测试试题(共183题附答案)1、辩论的目的不是单纯获得某种
【中国文学】 日期:2021-05-12
-
天地人格最佳搭配起名技巧|天地人格的五行怎么算
天地有阴有阳,物体刚柔表里,而数字则有一个诱导力,那么你知道怎么计算天地人格来取名吗?今天小编为你整理了天地人格最佳搭配起名技巧,一起来看看用天地人格取名的方法有哪些...
【中国文学】 日期:2019-06-06
-
信息技术重要性
信息技术的重要性 信息技术与课程整合将带来课程内容的革新,信息技术的高速发展,要求传统的课程必须适应
【中国文学】 日期:2021-02-11
-
【世界上最大的半岛】阿拉伯半岛
你知道世界上最大的半岛是什么吗?下面由小编来介绍一下。 阿拉伯半岛的简介 阿拉伯半岛(阿拉伯文:)位于亚洲,是世界上最大的半岛。沙特阿拉伯、也门、阿曼、阿拉伯联合...
【中国文学】 日期:2019-05-24
-
2022年当前世界下中国面临国际形势论文范本
和平与发展仍然是当今时代的主题。谋和平、求合作、促发展是各国人民的共同愿望。为了大家学习方便,下面是小编为大家整理的当前世界下中国面临的国际形势论文范文内容,以供参...
【中国文学】 日期:2022-03-31
-
雪天安全行车注意事项_雪天安全行车提示语
维护城市交通秩序,争做河源文明市民。你们想看看雪天安全行车提示语有哪些吗?以下是小编推荐雪天安全行车提示语给大家,欢迎大家阅读! 安全行车温馨提示语【经典篇】 1...
【中国文学】 日期:2020-03-15
-
2021年5月时事政治热点(国内+国际)
2021年年5月时事政治热点(国内+国际)国内部分 1 55月月66日,由商务部和海南省人民政府共同
【中国文学】 日期:2021-06-10
-
古代人物漫画女生唯美图片欣赏 漫画人物图片女孩唯美
中国漫画始于清末民初,而平面设计虽然其名称是在改革开放以后确立的,但设计活动却自古就有,二者的相互影响是本文的主要讨论范围。小编整理了唯美古代女生人物漫画,欢迎阅读!...
【中国文学】 日期:2020-03-19
-
关于通过努力获得成功的故事:靠自己努力成功的例子
努力,是成功的一半。人生道路上难免会遇到挫折,但我们不应后退,应向理想之路奋勇前进。关于名人努力成功的故事你了解吗?以下是小编分享的关于通过努力获得成功的故事,一起...
【中国文学】 日期:2020-03-03
-
山东省生产经营单位安全生产主体责任规定(303号令)
山东省生产经营单位安全生产主体责任规定(2013年2月2日山东省人民政府令第260号公布根据2016
【外国名著】 日期:2020-10-22
-
改革开放大事记简表(改革开放新时期1978-2012年)
改革开放大事记简表 (1978-2012年) 时间1978年12月18日至22日地点北京事件党的十一
【外国名著】 日期:2021-06-17
-
大学生音乐欣赏论文 大学音乐鉴赏论文3000
今天小编就为你介绍关于大学生音乐欣赏论文,下面是!小编给你搜集了相关资料!希望可以能帮助到大家。 大学生音乐欣赏论文—第一篇 音乐是生活不可缺少的一部分,学会欣...
【外国名著】 日期:2019-05-27
-
材料力学金属扭转实验报告
材料力学金属扭转实验报告 【实验目的】 1、验证扭转变形公式,测定低碳钢的切变模量G。;测定低碳钢和
【外国名著】 日期:2020-11-27
-
长豆角家常做法怎么做好吃营养 炒豆角的家常做法
豆角在我们日常生活中是很常见的食材,可能我们只知道它含有优质蛋白和维生素,其实它还有其他的营养价值。它也是可以和很多食材做搭配的。下面小编为大家整理了长豆角的做法...
【外国名著】 日期:2020-02-26
-
白烛葵的花语:白烛葵的不死幻想症
白烛葵,花名,花语为“不感兴趣”。现又指《知音漫客》上连载漫画《极度分裂》里主要角色之一。下面小编为你整理了白烛葵的花语。欢迎阅读。 白烛葵的花语:不感兴趣 ...
【外国名著】 日期:2019-05-11
-
植物装饰画黑白图片欣赏|荷花装饰画黑白图片
装饰画是一种装饰性艺术,是装饰性和创造性相结合的艺术设计形式。小编整理了植物装饰画黑白,欢迎阅读! 植物装饰画黑白图片展示 植物装饰画黑白图片1 植物装饰画黑白...
【外国名著】 日期:2019-05-31
-
(新版)就业知识竞赛题库及答案解析
(新版)就业知识竞赛题库(全真题库) 一、单选题1 (单选):在职业生涯规划工具中,组织在展开员工职
【外国名著】 日期:2021-07-21
-
坚定不移全面从严管党治警研讨发言稿
坚定不移全面从严管党治警研讨发言稿政治建警、从严治警是党在新时代的建警治警方针。一年前的全国公安工作
【外国名著】 日期:2020-09-18
-
[10.1旅游去哪里好玩] 旅游去哪里好玩
十月一到,秋意已在一个我们不经意的黎明走来,习习凉风,却是最适合出门游行。小编为您整理了10 1旅游去哪里好玩,秋天,我们一起出发吧。 1、云南建水古城 建水古城...
【外国名著】 日期:2020-03-01
-
梧桐花的花语|梧桐花的功效与作用
梧桐花为梧桐科植物梧桐的花,植物形态详梧桐子条。今天小编为你整理了梧桐花的花语,欢迎阅读。 梧桐花的花语是:情窦初开 在春季里晚开的花朵,有着恬淡的气息。 ...
【寓言童话】 日期:2020-03-03
-
西部计划笔试题库(99题含答案)
西部计划笔试题库(99题含答案) 1 第十三届全国人大三次会议表决通过了《中华人民共和国民法典》,自
【寓言童话】 日期:2021-06-16
-
大学生音乐欣赏论文 大学音乐鉴赏论文3000
今天小编就为你介绍关于大学生音乐欣赏论文,下面是!小编给你搜集了相关资料!希望可以能帮助到大家。 大学生音乐欣赏论文—第一篇 音乐是生活不可缺少的一部分,学会欣...
【寓言童话】 日期:2020-03-12
-
年学生资助诚信教育主题活动方案
各二级学院(部): 为深入贯彻落实习近平总书记关于教育的重要论述,落实立德树人根本任务,增强当代大学
【寓言童话】 日期:2020-06-21
-
主题教育调查研究工作方案2篇
主题教育调查研究工作方案1根据省、市、县开展“不忘初心、牢记使命”主题教育工
【寓言童话】 日期:2021-03-19
-
油管、套管规格尺寸对照表
API油管规格及尺寸 公称尺寸(in) 不加厚外径(mm) 不加厚内径(mm) 加厚外径(mm) 加
【寓言童话】 日期:2020-08-31
-
惊悚鬼故事50字 令人惊悚的故事
这些惊悚故事在短短的篇幅和时间之内让您感受到故事里传达出来的恐怖感,令你感到害怕。下面就是小编给大家整理的令人惊悚的故事,希望对你有用! 令人惊悚的故事篇1:学校...
【寓言童话】 日期:2019-05-13
-
【古代男生漫画图片大全】男生漫画头像
漫画和动画组成了动漫产业的两大支柱。然而,与动画相比,漫画在业界和学界皆相对冷清。小编整理了古代男生漫画,欢迎阅读! 古代男生漫画图片展示 古代男生漫画图片1 ...
【寓言童话】 日期:2019-05-27
-
北京最好吃的自助餐厅 北京高档自助餐排名
自助餐简直就是拯救大胃王的最佳饮食!没有之一!世界上没有什么事情是吃一顿自助餐解决不了的,如果有,那就吃两顿!下面小编给大家推荐北京几家好吃的自助餐。 北京最好吃的...
【寓言童话】 日期:2020-02-25
-
信息论与编码期末复习试题含参考答案
信息论与编码期末复习试题含参考答案 在无失真的信源中,信源输出由H(X)来度量;在有失真的信源中,信
【寓言童话】 日期:2021-03-19
-
学生高考动员演讲稿
学生高考动员演讲稿3篇高考动员演讲稿11 老师们、同学们: 大家下午好!漫漫高考长征路已经进入尾声了
【百家讲坛】 日期:2021-09-22
-
企业安全演讲稿2021
最新企业安全的演讲稿5篇 演讲稿是作为在特定的情境中供口语表达使用的文稿。在充满活力,日益开放的今天
【百家讲坛】 日期:2021-09-22
-
XX镇扶贫项目实施专项整治工作总结_1
XX镇扶贫项目实施专项整治工作总结 为深入贯彻精准扶贫精准脱贫基本方略,认真落实党中央、国务院,省委
【百家讲坛】 日期:2021-09-22
-
对乡镇领导班子干部成员批评意见例文
对乡镇领导班子干部成员的批评看法范文 一、对党委书记XXX同志的批评看法〔3条〕 1、与干部交流偏少
【百家讲坛】 日期:2021-09-22
-
群英乡扶贫资金项目芬坡村祖埇村生产道路硬化工程绩效自评报告
群英乡扶贫资金项目((芬坡村祖埇村生产道路硬化工程))绩效自评报告 一、基本情况(一)群英乡扶贫资金
【百家讲坛】 日期:2021-09-22
-
党委书记警示教育大会上讲话2021汇编
党委书记在警示教育大会上的讲话55篇汇编 党委书记在警示教育大会上的讲话(一) 同志们: 根据省州委
【百家讲坛】 日期:2021-09-22
-
对于2021年召开巡视整改专题民主生活会对照检查材料
关于12021年召开巡视整改专题民主生活会对照检查材料 按照中央巡视组要求和省、市、区委统一部署,区
【百家讲坛】 日期:2021-08-14
-
消防安全知识培训试题.doc
消防安全知识培训试题姓名: 部门班组: 成绩: 一:填空题,每空4分,共44分。 1、灭火剂是通过隔
【百家讲坛】 日期:2021-08-14
-
涉疫重点人员“五包一”居家隔离医学观察工作流程
涉疫重点人员“五包一”居家隔离医学观察工作流程 目前,全球疫情仍处于大流行状
【百家讲坛】 日期:2021-08-14
-
疫情防控致全体师生员工及家长一封信
疫情防控致全体师生员工及家长的一封信 各位师生员工及全体家长朋友: 暑假已至,近期我省部分地方发现确
【百家讲坛】 日期:2021-08-14