强制斯坦福解析器接受未经解析器词典许可的POS标签
|
我有一个预加标记的句子文件,其中一些在命令式中(隐式主语,动词在前等)。没有任何部分标记,斯坦福解析器错误地将第一个单词(动词)标记为这些命令式句子中大多数(但不是全部)主题的名词。通过部分标记(我肯定可以做得很好-我已经编辑并重新编译了LexicalizedParser以确保相关的命令行选项被识别并最终在lexicalizedParser.java中的正确位置)句子(使用_VB),其行为与没有标记时没有什么不同。
根据lexparser程序包的摘要(在页面“大约有60%的解释限制...”的页面中查找大约60%的内容),这是因为将POS标签VB放在其中某些单词上太奇怪了让解析器相信。
如何使解析器读取并跟随所有标签(最好从命令行)?更新词典?
使用EnglishFactored.ser.gz而不是EnglishPCFG.ser.gz可以减轻此问题,但不会消失。
几年前,有人在斯坦福[parser-user]邮件列表中张贴了类似的问题,但我似乎找不到此帖子的答案。
编辑:
使用解析器的另一个版本(从2010年8月20日开始),似乎根本不会出现此问题。
没有找到相关结果
已邀请:
1 个回复
素汞读
但是带有标记和部分标记的文本是这样的:
一切都是固定的:
但是您必须使用正确的标签。它不会将\“使用\”标记为VB。算是太不可思议了。 \“使用\”作为动词应为VBG。它是当前的分词形式,而不是命令式中使用的简单动词。