Sentence annotation in text without punctuation(文本中不带标点符号的句子标注)
问题描述
我很难让CoreNLP系统正确地找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置。
苦苦挣扎的原因:
- 有些诗全长没有标点符号(有时没有大小写)
- 有些诗的句子从一段到另一段
- 有些诗每行开头都要大写
This is a particularly tricky one (系统认为第一句话以""结尾。在第二节的开头)
考虑到缺少大写字母和标点符号,我想我应该尝试使用-tokenizeNls来看看这是否会改进它,但它做得太过分了,去掉了空行之间的任何句子(有几个)
这些句子通常在行尾结束,但并不总是如此,因此,如果系统可以将一行结尾视为可能的断句候选者,并可能权衡这些结束点的可能性,但我不知道如何实现这一点,这将是一种巧妙的做法。
有没有一种优雅的方法来做到这一点?还是其他选择?
提前谢谢!
(预期句子输出here)
推荐答案
我构建了一个句子分割器,它也可以很好地处理无标点符号或部分标点符号的文本。您可以在https://github.com/bedapudi6788/deepsegment找到它。
该模型基于命名实体识别可以用于句子边界(即句子的开始或句子的结束)的思想。我利用来自tatoeba的数据来生成训练数据,并为这项任务训练了一个带有手套嵌入和字符级别的BiLSTM+CRF模型。虽然这是在Python中构建的,但您将能够使用Flask来设置一个简单的REST API,并将其与Java代码一起使用。
这篇关于文本中不带标点符号的句子标注的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:文本中不带标点符号的句子标注
基础教程推荐
- 首次使用 Hadoop,MapReduce Job 不运行 Reduce Phase 2022-01-01
- Spring Boot Freemarker从2.2.0升级失败 2022-01-01
- 如何对 HashSet 进行排序? 2022-01-01
- 如何强制对超级方法进行多态调用? 2022-01-01
- 如何使用 Stream 在集合中拆分奇数和偶数以及两者的总和 2022-01-01
- 如何使用 Eclipse 检查调试符号状态? 2022-01-01
- Java 中保存最后 N 个元素的大小受限队列 2022-01-01
- 由于对所需库 rt.jar 的限制,对类的访问限制? 2022-01-01
- 在螺旋中写一个字符串 2022-01-01
- 如何在不安装整个 WTP 包的情况下将 Tomcat 8 添加到 Eclipse Kepler 2022-01-01