用户名: 密 码:
您现在的位置:首页 >> SEO开发技巧 >> 内容

Lucene搜索引擎不支持UTF-8本地文件问题解决

时间:2009-08-30 19:47:55 点击:3542

  核心提示:lucene搜索引擎在早期项目便使用了,基本就是在原来Demo的基础上改改,核心不变,展示改下。。。网上基本也都这种。原来我们站点使用的是GBK方案。。但后面我加了很多JS,为了符合国际化,最主要是JSON文件读取的方便,全部改为了UTF-8,结果问题出来了。。。Lucene不支持UTF-8的文件。...

lucene搜索引擎在早期项目便使用了,基本就是在原来Demo的基础上改改,核心不变,展示改下。。。
网上基本也都这种。原来我们站点使用的是GBK方案。。
但后面我加了很多JS,为了符合国际化,最主要是JSON文件读取的方便,全部改为了UTF-8,
结果问题出来了。。。
Lucene不支持UTF-8的文件。。
而且问题是,直接java运行时,解析正常,部署到Tomcat下便不行。。。
研究代码。。。但这代码读了三四天也没看出来哪里读取。。。太乱了。。。机器生成的。

今天偶然查到,HTMLParse可以传多种值,试了下,
把原来传FileInputStream改为了直接传Reader,结果居然成功了。。记录下。。HOHO

关键程序:

    FileInputStream fis = new FileInputStream(f);
    Reader reader = new InputStreamReader(fis, "UTF-8");
    //HTMLParser parser = new HTMLParser(fis);    //这是原来的。。。
    HTMLParser parser = new HTMLParser(reader);
     
   
   
    // Add the tag-stripped contents as a Reader-valued Text field so it will
    // get tokenized and indexed.
    doc.add(new Field("contents", parser.getReader()));
 

 

文章来源:http://www.xinxilong.com

作者:不详 来源:网络
相关文章
  • 没有相关文章
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 论坛群发工具(www.xinxilong.com) © 2008 版权所有 All Rights Resverved.
  • Email:433168@qq.com 沪ICP备12025887号
  • Powered by 论坛群发大师