TAC评测

TAC评测

最近和实验室的师兄师姐还有同学一起参加TAC2018,这里先整理放一些相关的内容。内容暂时不分先后,觉得值得写的就放一些,大部分内容包括模型之类的,也不适合在博客里写,之后还会有统一的整理。

WordNet

这一次TAC评测中需要对实体进行分类(共有7900多种),使用的Taxonomy是WordNet中的语义体系。WordNet也是NLP里面经常用到的一个语义网络,不过现在只对英文支持较为完善,中文内容还比较薄弱。

  • 关于WordNet的介绍,可以见这里的课件

  • 为了方便使用,这里就直接使用了NLTK里面的WordNet corpus来进行相关的处理分析,文档于

  • 另外关于NLTK中WordNet接口的介绍还可以见这里的博客

  • 网上找了很久,WordNet中Synsets一个明显的树状结构,竟然没有可以在线查看WordNet层次结构的地方,所以直接做了一个,网页在此,因为TAC评测中所有的7900多种types都是Noun,所以这里只画出了名词的树形图。效果如下,鼠标悬停显示的是当前synset的offset(即可以看成是每个synset的唯一id,这个id十分有用)

    WordNet Synsets树形图

本文遵守 CC-BY-NC-4.0 许可协议。

Creative Commons License

欢迎转载,转载需注明出处,且禁止用于商业目的。

上篇博客撰写
下篇一些杂项