Nougat: Neural Optical Understanding for Academic DocumentsA Survey of Large Language Models Posted on 2023-10-27 Edited on 2023-10-17 In 论文笔记 本文提出了一个端到端训练的Encoder-Decoder架构的transformer,用于将文件转换为轻量化的标记语言,该方法仅依赖图像;此外,本文还提出了一个自动化、非监督的数据生产流程,用于产生数据,帮助模型训练。 Read more »
A Survey of Large Language Models Posted on 2023-06-05 In 论文笔记 这篇论文介绍了大型语言模型的研究现状。研究人员发现通过将语言模型的参数规模增加超过一定水平时,大语言模型(LLM)不仅可以实现显著的性能提升,而且还表现出一些特殊能力(例如上下文学习),这些能力在小规模语言模型(例如BERT)中不存在。最近,学术界和工业界对LLM的研究取得了很大进展,其中一个显著进展是ChatGPT的推出,引起了社会广泛关注。LLMs的技术进化对整个AI社区产生了重要影响,这将彻底改变我们开发和使用AI算法的方式。本篇Survey通过介绍背景、主要发现和主流技术来回顾LLMs的最新进展。特别关注LLMs的四个主要方面:预训练、适应性调整、利用和能力评估。此外,还总结了开发LLMs可用资源并讨论未来方向中存在的问题 Read more »
Read Like Humans: Autonomous, Bidirectional and Iterative LanguageModeling for Scene Text Recognition Posted on 2022-12-25 In 论文笔记 在文本识别领域,如何在端到端的训练任务中使用语言信息是一个具有挑战性的任务,在本篇论文中,作者认为语言模型的限制在于三个方面:1. 隐式的语言建模 2. 特征表达没有方向性 3. 语言模型的输入有噪声。于是作者提出了ABINet,针对这三个方面进行改善。1. 将视觉和语言模型的梯度反传隔绝开,来显式地加强语言模型 2. 使用双向特征表达 3. 采用迭代的方式来优化语言模型的输入。此外,作者还提出了可以有效使用无标注数据的自监督训练方法 Read more »
Scaling Language-Image Pre-training via Masking Posted on 2022-12-18 In 论文笔记 本篇文章为kaiming的新作,与MAE类似,将随机丢弃patch的方法用于clip,使得计算相同的文本-图片对时的显存占用显著降低,从而可以扩大每次计算的batch size, 在每个iteration计算更多图片-文本对的contrastive loss,在加速模型的同时,提升模型的性能。实验表明,在下游任务上,FLIP算法较CLIP由显著的提升。此外,本文还探讨了模型大小、数据集大小以及训练时长等方面的可扩展性 Read more »
Few Could Be Better Than All:Feature Sampling and Grouping for Scene Text Detection Posted on 2022-12-11 In 论文笔记 作者提出了一个简单的基于transformer的文本检测模型,该模型仅使用少量的feature进行文本检测,减少了背景干扰及计算量。在所有尺度的feature map上选取少量feature后,将其输入transformer中学习feature之间的关系,并将他们分成不同的组,每个组代表一个文本,并进一步计算文本位置。该模型不需要NMS等复杂的后处理,且性能达到了SOTA。 Read more »
论文笔记 - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting Posted on 2022-12-04 In 论文笔记 作者提出了一个简单的基于检测的transformer网络,该网络将序列建模成一个序列,并用一系列可学习的queries来表示,经过decoder的编码后,queries中已经包含了文本的语义信息和位置信息,可用于预测中心线、边界、文本以及置信度等一系列下游任务。同时本文还引入了一种基于文本匹配的loss,来更好的监督模型训练。实验表明,模型达到了SOTA且效率更好,在使用线条标注时,该方法也可以获得较好的结果。 Read more »
论文笔记 - Pure Transformer with Integrated Experts forScene Text Recognition Posted on 2022-11-27 In 论文笔记 由于transfomer可以捕获文本的长期之间的依赖关系,因此现在的文本识别算法大多使用CNN-Transformer混合的框架,但是这样的方式只能在decoder部分受益,因此本文提出了一种仅依赖于transformer的文本识别框架。此外,作者发现并解决了两个较为关键的问题,第一个首字母的准确率较低,第二个为图片中文字为不同的大小,但如ViT这种架构使用的是固定的patch。为此作者提出了一个多专家纯Transformer结构,即PTIE,可以处理多种分辨率的patch,并进行正向和反向的解码。 Read more »
论文笔记 - OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Posted on 2022-11-20 In 论文笔记 在本篇论文中,作者提出了一种适用于任何任务、任何模态的框架,统一了多种多模态、单模态的任务,包括图像生成、图像分类、图像文本问答等任务。在预训练和微调阶段,OFA算法都适用了指示型学习的方法,在下游任务上不需要和任务相关layer。此外,OFA仅使用2000万公开的文本-图像对数进行训练,性能已经达到了SOTA水平,而且可以有效的迁移至未曾训练过的任务和模态上。 Read more »
论文笔记 - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting Posted on 2022-11-13 In 论文笔记 使用大规模文本-图片对进行对比学习训练(CLIP)的方法发展很快,也给下游任务提供了一个很好的模型,但是对于分割任务而言,由于其需要产生pixel级别的密集预测,因此,如何将通过文本-图片对级别训练得到的先验迁移到文本-像素级别的模型上,就成了一个值得研究的问题,为此,本文提出了一种一种将CLIP权重迁移到图像分割模型上的finetune方法。通过进一步从图像中获得背景信息,可以进一步改善CLIP的文本编码器,从而提高模型性能。本文提出的finetune方法可以用于任意图像分割模型,并取得性能提升。 Read more »
论文笔记 - Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Posted on 2022-11-06 In 论文笔记 现有的目标检测方法大多依赖于密集的anchor box,如faster rcnn,retinanet等,这些anchor box需要手工设定,且数量众多,同时会造成大量重复的预测,需要nms才能去除,因此使目标检测算法较为复杂。本文借鉴DERT中的set prediction思想,将RCNN算法中大量手工设计的anchor生成的proposal转换为固定数量的个可学习的proposal,减少了计算量,且由于proposal与gt为一一对应,因此无需使用NMS进行后处理,极大地简化了目标检测的流程。 Read more »