NERV

与其感慨路难行,不如马上出发

0%

这篇论文介绍了大型语言模型的研究现状。研究人员发现通过将语言模型的参数规模增加超过一定水平时,大语言模型(LLM)不仅可以实现显著的性能提升,而且还表现出一些特殊能力(例如上下文学习),这些能力在小规模语言模型(例如BERT)中不存在。最近,学术界和工业界对LLM的研究取得了很大进展,其中一个显著进展是ChatGPT的推出,引起了社会广泛关注。LLMs的技术进化对整个AI社区产生了重要影响,这将彻底改变我们开发和使用AI算法的方式。本篇Survey通过介绍背景、主要发现和主流技术来回顾LLMs的最新进展。特别关注LLMs的四个主要方面:预训练、适应性调整、利用和能力评估。此外,还总结了开发LLMs可用资源并讨论未来方向中存在的问题
Read more »

在文本识别领域,如何在端到端的训练任务中使用语言信息是一个具有挑战性的任务,在本篇论文中,作者认为语言模型的限制在于三个方面:1. 隐式的语言建模 2. 特征表达没有方向性 3. 语言模型的输入有噪声。于是作者提出了ABINet,针对这三个方面进行改善。1. 将视觉和语言模型的梯度反传隔绝开,来显式地加强语言模型 2. 使用双向特征表达 3. 采用迭代的方式来优化语言模型的输入。此外,作者还提出了可以有效使用无标注数据的自监督训练方法
Read more »

本篇文章为kaiming的新作,与MAE类似,将随机丢弃patch的方法用于clip,使得计算相同的文本-图片对时的显存占用显著降低,从而可以扩大每次计算的batch size, 在每个iteration计算更多图片-文本对的contrastive loss,在加速模型的同时,提升模型的性能。实验表明,在下游任务上,FLIP算法较CLIP由显著的提升。此外,本文还探讨了模型大小、数据集大小以及训练时长等方面的可扩展性
Read more »

作者提出了一个简单的基于transformer的文本检测模型,该模型仅使用少量的feature进行文本检测,减少了背景干扰及计算量。在所有尺度的feature map上选取少量feature后,将其输入transformer中学习feature之间的关系,并将他们分成不同的组,每个组代表一个文本,并进一步计算文本位置。该模型不需要NMS等复杂的后处理,且性能达到了SOTA。
Read more »

作者提出了一个简单的基于检测的transformer网络,该网络将序列建模成一个序列,并用一系列可学习的queries来表示,经过decoder的编码后,queries中已经包含了文本的语义信息和位置信息,可用于预测中心线、边界、文本以及置信度等一系列下游任务。同时本文还引入了一种基于文本匹配的loss,来更好的监督模型训练。实验表明,模型达到了SOTA且效率更好,在使用线条标注时,该方法也可以获得较好的结果。
Read more »

由于transfomer可以捕获文本的长期之间的依赖关系,因此现在的文本识别算法大多使用CNN-Transformer混合的框架,但是这样的方式只能在decoder部分受益,因此本文提出了一种仅依赖于transformer的文本识别框架。此外,作者发现并解决了两个较为关键的问题,第一个首字母的准确率较低,第二个为图片中文字为不同的大小,但如ViT这种架构使用的是固定的patch。为此作者提出了一个多专家纯Transformer结构,即PTIE,可以处理多种分辨率的patch,并进行正向和反向的解码。
Read more »

在本篇论文中,作者提出了一种适用于任何任务、任何模态的框架,统一了多种多模态、单模态的任务,包括图像生成、图像分类、图像文本问答等任务。在预训练和微调阶段,OFA算法都适用了指示型学习的方法,在下游任务上不需要和任务相关layer。此外,OFA仅使用2000万公开的文本-图像对数进行训练,性能已经达到了SOTA水平,而且可以有效的迁移至未曾训练过的任务和模态上。
Read more »

使用大规模文本-图片对进行对比学习训练(CLIP)的方法发展很快,也给下游任务提供了一个很好的模型,但是对于分割任务而言,由于其需要产生pixel级别的密集预测,因此,如何将通过文本-图片对级别训练得到的先验迁移到文本-像素级别的模型上,就成了一个值得研究的问题,为此,本文提出了一种一种将CLIP权重迁移到图像分割模型上的finetune方法。通过进一步从图像中获得背景信息,可以进一步改善CLIP的文本编码器,从而提高模型性能。本文提出的finetune方法可以用于任意图像分割模型,并取得性能提升。
Read more »

现有的目标检测方法大多依赖于密集的anchor box,如faster rcnn,retinanet等,这些anchor box需要手工设定,且数量众多,同时会造成大量重复的预测,需要nms才能去除,因此使目标检测算法较为复杂。本文借鉴DERT中的set prediction思想,将RCNN算法中大量手工设计的anchor生成的proposal转换为固定数量的个可学习的proposal,减少了计算量,且由于proposal与gt为一一对应,因此无需使用NMS进行后处理,极大地简化了目标检测的流程。
Read more »