一、说明
斯坦福大学的核心NLP是迄今为止经过最久经考验的NLP库。在某种程度上,它是当今NLP性能的黄金标准。在各种其他功能中,库中支持命名实体识别 (NER),这允许在一段文本中标记重要实体,例如人名、地点等。
核心NLP NER标记器实现了CRF(条件随机场)算法,这是解决NLP中NER问题的最佳方法之一。该算法在标记数据集上训练,输出是学习的模型。
二、实际训练集上的操作
基本上,模型学习训练数据中的信息和结构,并可以使用它来标记看不见的文本。CoreNLP带有一些预先训练的模型,例如训练为结构化英语文本的英语模型,用于检测名称,地点等。