现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。
文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。
这里有训练好的模型,30种语言非英语,感觉语料不是很好
这个项目里面有英文预料的,英文有很多语料库例如wordbank google news,wallstreet,都是很好的语聊库。
我们当然用我厂自家的模型。
下面是另一片综述的文章。
posted on 2017-11-10 12:52 阅读( ...) 评论( ...)