用户名: 密 码:
您现在的位置:首页 >> SEO技巧 >> 内容

充分理解 Lucene Indexer

时间:2010/3/29 15:37:04 点击:4252

  核心提示:对我们大多数人,在组织信息的行为是关于适当储存。然而,信息检索的一个重要方面是能够找到的信息,人们可以有意识地失去了跟踪,作为信息的数量,我们保持不断建立。一个有效的策略是正确的组织信息摆在首位。这就是一个产品(图书馆,其实像MnemonicFS)一样。另一种策略是已知的资料索引的东西。信息索引就像...
对我们大多数人,在组织信息的行为是关于适当储存。然而,信息检索的一个重要方面是能够找到的信息,人们可以有意识地失去了跟踪,作为信息的数量,我们保持不断建立。一个有效的策略是正确的组织信息摆在首位。这就是一个产品(图书馆,其实像MnemonicFS)一样。另一种策略是已知的资料索引的东西。信息索引就像是在你的车化油器的东西:我们大多数人使用它,甚至取决于它让我们去,但不会有许多人是如何它人们所期待的工作,甚至,甚至不知道是什么摆在首位。作为开发人员,是有一定道理,以了解索引和信息检索的意义所在。下面试图总结一篇文章。

一个优秀的信息索引库Lucene的,一个开源项目托管在Apache。最好的部分是,它是在Apache许可下的许可,因此是免费的,你不必支付任何人使用它的任何专利。虽然Lucene的在Java世界的演变,它也有一个网络端口,可用点。 Lucene是一个索引,或者更正式,信息检索(IR)的图书馆。它提供了索引的文本设施(API)和取回使用搜索条件。在最根本上说,谷歌也是一个索引,并使用信息的索引页从WWW其专有的算法。当你输入您的搜索字词中,通过关于谷歌搜索页面现在无处不在的搜索框,您实际上援引其信息检索的一部分。当然,谷歌还拥有以上部分的红外多层次的算法:例如,搜索词,用户类型通常指在WWW上找到数以百万计的网页,怎么会知道哪个打谷歌是最相关的是什么用户想到的时,他们在搜索字词输入?那么,它有这样做,什么流行的说法是因为页面排名算法公布其自己的方式。不过,我离题。我们并不真正关心在这里,在这篇文章。我们关心的是索引和信息检索。

一个警告,然后再阅读:虽然解释如下可能在技术上是最真实的方式红外线系统是真的(因为我既没有时间也没有兴趣来深入研究国际关系理论),我纯粹是从功能的主题角度看,这样用户将一个图书馆。而这正是整个的Lucene的美丽谎言:你不必知道,甚至复杂的算法,知道红外开始使用它。 Lucene的完成所有的辛苦了你部分的照顾。它究竟是什么擅长:信息索引和检索。这让你的应用程序开发,在获取它的文本数据容易的部分。这里,有几个附加可让您的生活更轻松。

工具栏:您可能需要有一个在随之而来的代码与本文看看。你可以做,在CodeMinima。虽然网络是在点,本身的解释适用于任何图书馆的Lucene的港口。

从根本上讲,没有一个索引词意味着什么:它索引。 (是的,我知道,这不是最有帮助的解释,但请与我承担了一会儿。)一个索引,实在是可以充满每一段文字内“文件时提到了各种数据库。“

(要了解任何技术,在你需要做的第一件事是了解的名称与它去。在Lucene的世界里,“文件”不一定意味着如Microsoft Word或PDF文件。它还可以意味着一个网页,一个在文件系统,甚至一个简单的字符串的文件。因此,我会继续提到这个词,“文件”时,双引号内使用参照Lucene的突出事实,即它不是一个传统的文件。请注意,文本数据进行索引可能来自于在您的文件系统文件,在WWW网页,等:文本,从他们的起源是一个“文件”只要Lucene是问题。作为一个开发你的任务是获取,在数据的文本形式向Lucene的索引,然后被称为“文件。”其次,索引的唯一任务是索引的文本(或“文件”)传递给它,不取一些像网页或文件的位置。这是你的,应用程序开发人员使用的库,这样做。)

因此,如果我的“文件”已经像“有缘千里来相会”的索引将创建多个“项”,在其内部统计表“快跳的内容”,“褐色”,“狐狸”,“跳”,“懒惰“,”狗“,”有缘“,”有缘“,等等。这基本上意味着每一个短语,发生在“文件”是在索引补充。

在前往任何进一步的,如果我们采取进一步的数据库比喻,我们可以说,一个索引是一个巨大的“表”中存储的文本引用所有作品,因为他们在“文件发生。”还提供给用户的设施为存储是该文件有关的多个领域。例如,你还可以存储提到,作为一个外地文件。该参考唯一标识特定的“文件”中,该文本发生。如果您有任何数据库的工作时间,你会知道,在它的表行,在一个格式化的方式存储信息,并且每一行可能有一个独特的标识值(主键),一个值,不会(不应该)得到重复的任何其他列在该表。此值也日益显着当你想退出是从表中的数据行。在Lucene的,此值可能是一个数字,或像一个网址的东西。这种独特的价值,帮助确定在检索过程时,搜索结果(或更贴切,一击中)返回给用户。它可以帮助用户了解如何原始文档被检索。

要使用实际的例子,如果你是索引的网页,这是您的应用程序开发任务,以检索每个网页的内容,并剥夺都喜欢HTML标记等不相干的格式化,因此您只有平原文本手。告诉你今后的索引,索引的文本,它确实非常有效。在这一点上,你也可以告诉索引唯一的ID,你会希望能与该网页的内容相关。这可能是该网址。事实上,这是任何基于Web的搜索引擎会做。在Lucene的图书馆,但是,不强制图书馆用户定义这个词,完全由你来决定你将要使用此值,或如果您想使用一个在所有。在Lucene的文件类有一个字段信息添加到“文件”,以便在信息检索,您可以决定哪些领域返回的袭击事件的方法。

阿要注意的是,索引忽略了一些如改为“”,“认为”,“1”,“它”等。这些话都是我们所知道的停用词,词不具有任何意义或相关的“文件”文本编制索引。

一个搜索就可以做一个预先存在的指数(自然),是相反的索引功能。虽然索引添加到索引,从索引中搜索检索。搜索功能需要作为其输入搜索词并返回结果或作为其输出点击设置。之前通过查询搜寻到Lucene索引,它分析筛选出任何停止的话,可能在目前的搜索字词。搜索结果返回的点击,每个打对象告诉比如如何你有关的各种事情的结果就是您的搜索字词(分)。每次点击也可用于检索的独特识别领域,如前所述。

我建议你通过在CodeMinima代码示例,然后回来再阅读这篇文章。但愿,这应该造成更大的清晰度你。

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发大师(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:4984672[at]qq.com 沪ICP备12025887号-1
  • Powered by 论坛群发大师