跳到主要内容

扩展下一代搜索引擎的个性化查询结果

北卡罗莱纳州立大学的研究人员已经开发出一种方法,让搜索引擎为用户提供更准确、更个性化的搜索结果。过去的挑战是如何扩大这种方法的规模,以便它不会消耗大量的计算机资源。现在,研究人员设计了一种实现个性化搜索的技术,其效率比以前的方法高出100多倍。

争论的焦点是搜索引擎如何处理复杂或令人困惑的查询。例如,如果用户正在搜索从事金融信息学研究的教师,那么该用户想要的是教师相关网页的列表,而不是研究生提及使用这些术语的教师或新闻报道的页面。这是一个复杂的搜索。

研究人员正在开发大规模改进“个性化”搜索结果的方法。(点击放大图像。)
研究人员正在制定方法,以提高大规模的“个性化”搜索结果。(点击放大图像。)

类似地,当搜索有多种可能的解释时,传统的搜索引擎会使用非个人的技术。例如,如果一个用户搜索这个词的捷豹的速度,用户可以寻找信息在美洲豹超级计算机,丛林猫或汽车,”博士说Kemafor Anyanwu,北卡罗来纳大学的助理教授计算机科学和研究论文的资深作者。“在任何给定的时间,同一个人可能想要这些东西的任何信息,所以分析用户不一定很有帮助。”

Anyanwu的团队通过查看用户的“环境查询上下文”来解决个性化搜索问题的方法,这意味着它们看出用户最近的搜索,以帮助解释当前搜索。具体而言,它们超出了搜索中使用的单词来确定相关概念以确定搜索的上下文。因此,如果用户之前的搜索包含“节约”这个词,它将与概念相关联,喜欢“动物”或“野生动物”甚至“动物园”。然后,随后的搜索“Jaguar Speed”会推动丛林猫在结果中提高的结果 - 而不是汽车或超级计算机。并且最近概念已经与搜索相关联,当新搜索的结果时给出的权重越多。

搜索引擎也试图识别用户在搜索结果上的点击行为模式,以识别最有可能的用户搜索意图。然而,这些技术是非个人的,是在全球基础上应用的。因此,如果一组关键词最频繁的点击模式是在特定的上下文中,那么该上下文将成为与大多数或所有用户的查询相关联的上下文——即使您最近的搜索历史表明您的查询上下文是关于丛林猫的。

“我们所做的是不同的,”Anyanwu说。“我们正在实时确定各个用户的搜索条件的上下文,并使用它来确定用户对特定时间特定查询的意图。这使我们可以更有效地处理比传统搜索引擎更复杂的搜索。随着人们现在使用Web作为支持不同类型任务的关键知识库,此类搜索变得越来越普遍。“

虽然Anyanwu和她的团队在一年前开发了一个背景知识的个性化搜索技术,但挑战是如何扩展这种方法。“因为每个用户运行环境上下文程序将采用大量计算资源,这是不可行的,”Anyanwu说。

但是,AnyanWu的研究团队现在已经提出了一种技术,其中包括表示数据的新方法,用于索引数据的新方法,以便可以有效地访问它,以及用于组织这些索引的新计算体系结构。新技术取得了显着差异。

“我们新的索引和搜索计算架构允许我们使用8GB的机器支持大约2900个并发用户的个性化搜索,而早期的方法只支持17个并发用户。这使得这个概念更加实用,也让我们离下一代搜索引擎更近了一步。”

本文,“个性化搜索:多租户语义网络搜索系统中缩放并发性的案例“将在2013年10月6日至9日在加利福尼亚州圣克拉拉举行的2013年大型数据大会上展示了2013年IEEE国际会议。本文的主要作者是海州福,前博士。在NC状态的学生。本文由Hyeongsik Kim,Ph.D.在NC状态的学生。该研究得到了国家科学基金会的支持。

- 船员 -

编辑注:研究摘要跟随。

个性化搜索:大型RDF数据集上的多租户语义Web搜索系统的并发扩展案例

作者:海州Fu, Hyeongsik Kim, Kemafor Anyanwu,北卡罗莱纳州立大学

提出了2013年10月6日至9日,IEEE大数据国际会议,加州圣克拉拉。

抽象的:最近的关键字在语义Web上的关键字搜索技术正在远离浅,信息检索样式方法,该方法仅查找“关键字匹配”,以朝着尝试从关键字查询引发结构的更多解释方法。查询解释过程通常由数据中的结构和架构引导,并且通常由图形探索过程支持。然而,基于图形的探索的解释技术对于大型数据库的多租户方案是不切实际的,因为需要为不同的用户查询维护单独的昂贵的图形探索状态。这导致大量并发请求的情况下显着的内存开销。这种限制可能会对实现个性化搜索的最终目标产生负面影响。在本文中,我们提出了一种轻量级的解释方法,采用索引来提高吞吐量和并发性,以更少的内存开销。它也更容易发生于分布式或分区执行。该方法在一个名为“SKI”的系统中实施,并且对DBPedia和亿亿亿亿次三重挑战数据集的SKI性能的实验评估显示了对现有技术的数量级性能改进。

留下回应

您的电子邮件地址不会被公开。各个领域都需要。