写给自己的歌

Panda loves Bunny
文章标签 ‘Lucene’

总结一下lucene的环境搭建,查看以及了解lucene的原理,对其有个大概的了解。 1、下载lucene2.3.2 地址:http://apache.mirror.phpchina.com/lucene/java/ 2、下载jdk1.6 3、下载tomcat 下载以上内容完成后,开始安装。

1. 搭建Lucene的开发环境:在classpath中添加lucene-core-2.9.1.jar包 2. 全文搜索的两个工作: 建立索引文件,搜索索引. 3. Lucene的索引文件逻辑结构 1) 索引(Index)由若干块(片段)(Segment)组成 2) 块由若干文档(Document)组成: 一个文件映射成一个文档。数据库表中的一条记录映射成一个文档。 3) 文档由若干域(Field)组成:文件的属性(文件路径,文件的内容)映射成一个域。记录的某个字段映射成一个域。 4) 域由若干词(关键字…

Luncene是什么就不介绍了。 一、先去网上Down下来 paoding-analysis-2.0.4-beta,解压,在lib目录找到lucene-core-2.2.0.jar,lucene-highlighter-2.2.0.jar,commons-logging.jar 这几个Jar包放到项目当中。 二、添加Paoding。 在项目中使用发现,直接添加paoding-analysis.jar会发生异常。所以我们不直接添加这个Jar,而是把Src目录下的所有文件(也就是源代码) copy 都我们项目…

1、indexWriter类主要功能是对索引的创建,加入Document后,合并各种索引段,以及控制与索引相关的其他方面,它是lucene索引的主要操纵者。 2、我们首先看看IndexWriter的构造函数

1 倒排索引 倒排索引是满足实际应用而设计的一种数据结构。倒排索引的每一个元素是一个索引项,每一个索引项是由关键字属性值和关键字关联结果,或者记录的存放地址组 成。倒排索引是利用索引关键字直接确定文档列表,最后确定希望找到的文档列表。与传统的顺序查找和记录组织方式相反,因此称为倒排索引。通常把采用倒排索 引方式组织的文件或者倒排索引和文档主文件一起称为倒排文件。 2 Lucence索引器 2.1 模式 2.1.1 独立索引模式:每个Document独立索引成一 个文件 2.1.2 符合索引模式:等待索引的…

一月 31st, 2012

Lucene的索引文件格式

No Comments, 使用心得, 网文转载, by tumaotm_122.

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。 本文详细解读了Apache Lucene – Index File Formats(http://lucene.apache.o…

一月 31st, 2012

HTML Parser使用

No Comments, 使用心得, 网文转载, by tumaotm_122.

Lucene 2.2.0发行包中自带的org.apache.lucene.demo包中,有一个为HTML和TXT文件建立索引、删除索引以及实现检索的实例,其中在org.apache.lucene.demo.html包中的一些类,是真正解析HTML文件的工具类,包括解析类、预定义类、异常处理类。 这个例子的命令提示为: IndexHTML [-create] [-index] 是建关于索引的命令,-create是建立索引,-index是选择删除指定的索引文件。 这个例子运行过程如下所示。 将相关jar包lu…