Stanford CoreNLP

最后发布时间 : 2024-02-09 11:53:58 浏览量 :

学习资料

Stanford CoreNLP提供了一套用Java编写的自然语言分析工具。它可以接受原始的人类语言文本输入，给出单词的基本形式、词性，无论是公司名称、人员名称等，规范化和解释日期、时间和数字量，根据句法短语或依赖关系标记句子结构，并指示哪些名词短语指代相同的实体。它最初是为英语开发的，但现在也为（现代标准）阿拉伯语、（大陆）中文、法语、德语、匈牙利语、意大利语和西班牙语提供了不同级别的支持。Stanford CoreNLP是一个集成的框架，它可以很容易地将一堆语言分析工具应用于一段文本。从纯文本开始，只需两行代码就可以运行所有工具。它的分析为更高级别和特定领域的文本理解应用程序提供了基础构建块。Stanford CoreNLP是一套稳定且经过良好测试的自然语言处理工具，广泛用于学术界、工业界和政府的各个团体。这些工具以各种方式使用基于规则、概率机器学习和深度学习组件。

模型

对应于最新代码的模型jar可以在下表中找到。
一些较大的（英文）模型，如shift-reduce解析器和WikiDict，并没有与我们的默认模型jar一起分发。这些需要下载英语（额外）和英语（kbp）罐子。其他语言的资源需要使用相应的模型jar。

获取模型的最佳方法是使用 git-lfs 并从 Hugging Face Hub 克隆它们。

例如，要获取法语模型，请运行以下命令:

# Make sure you have git-lfs installed
# (https://git-lfs.github.com/)
git lfs install

git clone https://huggingface.co/stanfordnlp/corenlp-french

这些jar可以直接从下面的链接或Hugging Face中心页面下载。

Language	Model Jar	Last Updated
Arabic	download (HF Hub)	4.5.6
Chinese	download (HF Hub)	4.5.6
English (extra)	download (HF Hub)	4.5.6
English (KBP)	download (HF Hub)	4.5.6
French	download (HF Hub)	4.5.6
German	download (HF Hub)	4.5.6
Hungarian	download (HF Hub)	4.5.6
Italian	download (HF Hub)	4.5.6
Spanish	download (HF Hub)	4.5.6