How to classify documents indexed with lucene(如何对用 lucene 索引的文档进行分类)
问题描述
我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档?
I have classified a set of documents with Lucene (fields: content, category). Each document has it's own category, but some of them are labeled as uncategorized. Is there any way to classify these documents easily in java?
推荐答案
从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器.
As of Lucene 5.2.1, you can use indexed documents to classify new documents. Out of the box, Lucene offers a naive Bayes classifier, a k-Nearest Neighbor classifier (based on the MoreLikeThis class) and a Perceptron based classifier.
缺点是所有这些类都标有实验性警告,并附有维基百科的链接.
The drawback is that all of these classes are marked with experimental warnings and documented with links to Wikipedia.
这篇关于如何对用 lucene 索引的文档进行分类的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:如何对用 lucene 索引的文档进行分类
基础教程推荐
- Java Keytool 导入证书后出错,"keytool error: java.io.FileNotFoundException &拒绝访问" 2022-01-01
- “未找到匹配项"使用 matcher 的 group 方法时 2022-01-01
- FirebaseListAdapter 不推送聊天应用程序的单个项目 - Firebase-Ui 3.1 2022-01-01
- 降序排序:Java Map 2022-01-01
- Java:带有char数组的println给出乱码 2022-01-01
- 减少 JVM 暂停时间 >1 秒使用 UseConcMarkSweepGC 2022-01-01
- 如何使用 Java 创建 X509 证书? 2022-01-01
- 在 Libgdx 中处理屏幕的正确方法 2022-01-01
- 设置 bean 时出现 Nullpointerexception 2022-01-01
- 无法使用修饰符“public final"访问 java.util.Ha 2022-01-01