TAC评测
最近和实验室的师兄师姐还有同学一起参加TAC2018,这里先整理放一些相关的内容。内容暂时不分先后,觉得值得写的就放一些,大部分内容包括模型之类的,也不适合在博客里写,之后还会有统一的整理。
WordNet
这一次TAC评测中需要对实体进行分类(共有7900多种),使用的Taxonomy是WordNet中的语义体系。WordNet也是NLP里面经常用到的一个语义网络,不过现在只对英文支持较为完善,中文内容还比较薄弱。
-
关于WordNet的介绍,可以见这里的课件
-
为了方便使用,这里就直接使用了NLTK里面的WordNet corpus来进行相关的处理分析,文档于此
-
另外关于NLTK中WordNet接口的介绍还可以见这里的博客
-
网上找了很久,WordNet中Synsets一个明显的树状结构,竟然没有可以在线查看WordNet层次结构的地方,所以直接做了一个,网页在此,因为TAC评测中所有的7900多种types都是Noun,所以这里只画出了名词的树形图。效果如下,鼠标悬停显示的是当前synset的offset(即可以看成是每个synset的唯一id,这个id十分有用)