Text Clustering & BERT - Self-supervised Document Clustering Based on

藏宝库编辑 7 天前 3685 0 来自 中国
emmm..这个系列可能会有好几篇文章吧,用来补充对黑色九月的无知..
Shi H, Wang C. Self-supervised document clustering based on bert with data augment[J]. arXiv preprint arXiv:2011.08523, 2020.
择要导读

作者指出对比学习作为一种效果很好且并不复杂的模子设计,很轻易与深度模子进行结合。在本文中,基于BERT,分别提出了自监视对比学习(SCL)和使用无监视数据增强(UDA)的小样本(few-shot)对比学习(FCL)用于文本聚类。对短文本和长文本的聚类中,SCL实现了无监视方法中的SOTA;FCL的性能则接近于有监视方法。
重要贡献点


  • 针对SCL,设计了multi-language back translation(BT,多语言回译)以及random mask(RM,随机掩码)来天生正例样本。
  • 针对FCL,提出了无监视数据增强(UDA)。
模子框架

用于FCL和SCL的学习框架如下所示。
在每个mini-batch的学习中,(1)会选取产生
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-18 16:49, Processed in 0.165292 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表