NERV - 与其感慨路难行，不如马上出发

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Posted on 2026-04-16 In 论文笔记

针对大型推理模型后训练中在线策略蒸馏（OPD）需要实时教师服务器导致的高昂基础设施开销问题，提出Lightning OPD离线框架。首次揭示"教师一致性"是OPD的必要条件，在SFT rollout上一次性预计算教师对数概率，消除对实时教师服务器的依赖，训练效率提升4.0倍，AIME 2024达到69.9%。

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Posted on 2026-04-16 In 论文笔记

Nemotron 3 Super 是一个拥有1200亿总参数（激活120亿）的混合Mamba-Attention MoE模型。首次采用NVFP4格式预训练，引入LatentMoE架构优化计算与参数效率，结合多Token预测层加速推理。在25万亿token上训练后支持100万上下文长度，推理吞吐量最高达同级开源模型的7.5倍。

Attention Residuals

Posted on 2026-04-01 In 论文笔记

本文提出注意力残差，用基于softmax的注意力机制取代固定权重的残差累加，使每一层能够通过可学习的权重选择性聚合前层特征，有效缓解PreNorm导致的隐藏状态随深度无控增长问题。为解决大模型训练的显存与通信开销，进一步提出块级注意力残差，在极低开销下实现了显著收益，在48B参数模型上改善了梯度分布并提升了所有下游任务性能。

Nougat: Neural Optical Understanding for Academic DocumentsA Survey of Large Language Models

Posted on 2023-10-27 Edited on 2023-10-17 In 论文笔记

本文提出了一个端到端训练的Encoder-Decoder架构的transformer，用于将文件转换为轻量化的标记语言，该方法仅依赖图像；此外，本文还提出了一个自动化、非监督的数据生产流程，用于产生数据，帮助模型训练。

A Survey of Large Language Models

Posted on 2023-06-05 In 论文笔记

这篇论文介绍了大型语言模型的研究现状。研究人员发现通过将语言模型的参数规模增加超过一定水平时，大语言模型(LLM)不仅可以实现显著的性能提升，而且还表现出一些特殊能力（例如上下文学习），这些能力在小规模语言模型（例如BERT）中不存在。最近，学术界和工业界对LLM的研究取得了很大进展，其中一个显著进展是ChatGPT的推出，引起了社会广泛关注。LLMs的技术进化对整个AI社区产生了重要影响，这将彻底改变我们开发和使用AI算法的方式。本篇Survey通过介绍背景、主要发现和主流技术来回顾LLMs的最新进展。特别关注LLMs的四个主要方面：预训练、适应性调整、利用和能力评估。此外，还总结了开发LLMs可用资源并讨论未来方向中存在的问题

Read Like Humans: Autonomous, Bidirectional and Iterative LanguageModeling for Scene Text Recognition

Posted on 2022-12-25 In 论文笔记

在文本识别领域，如何在端到端的训练任务中使用语言信息是一个具有挑战性的任务，在本篇论文中，作者认为语言模型的限制在于三个方面：1. 隐式的语言建模 2. 特征表达没有方向性 3. 语言模型的输入有噪声。于是作者提出了ABINet，针对这三个方面进行改善。1. 将视觉和语言模型的梯度反传隔绝开，来显式地加强语言模型 2. 使用双向特征表达 3. 采用迭代的方式来优化语言模型的输入。此外，作者还提出了可以有效使用无标注数据的自监督训练方法

Scaling Language-Image Pre-training via Masking

Posted on 2022-12-18 In 论文笔记

本篇文章为kaiming的新作，与MAE类似，将随机丢弃patch的方法用于clip，使得计算相同的文本-图片对时的显存占用显著降低，从而可以扩大每次计算的batch size，在每个iteration计算更多图片-文本对的contrastive loss，在加速模型的同时，提升模型的性能。实验表明，在下游任务上，FLIP算法较CLIP由显著的提升。此外，本文还探讨了模型大小、数据集大小以及训练时长等方面的可扩展性

Few Could Be Better Than All:Feature Sampling and Grouping for Scene Text Detection

Posted on 2022-12-11 In 论文笔记

作者提出了一个简单的基于transformer的文本检测模型，该模型仅使用少量的feature进行文本检测，减少了背景干扰及计算量。在所有尺度的feature map上选取少量feature后，将其输入transformer中学习feature之间的关系，并将他们分成不同的组，每个组代表一个文本，并进一步计算文本位置。该模型不需要NMS等复杂的后处理，且性能达到了SOTA。

论文笔记 - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting

Posted on 2022-12-04 In 论文笔记

作者提出了一个简单的基于检测的transformer网络，该网络将序列建模成一个序列，并用一系列可学习的queries来表示，经过decoder的编码后，queries中已经包含了文本的语义信息和位置信息，可用于预测中心线、边界、文本以及置信度等一系列下游任务。同时本文还引入了一种基于文本匹配的loss，来更好的监督模型训练。实验表明，模型达到了SOTA且效率更好，在使用线条标注时，该方法也可以获得较好的结果。

论文笔记 - Pure Transformer with Integrated Experts forScene Text Recognition

Posted on 2022-11-27 In 论文笔记

由于transfomer可以捕获文本的长期之间的依赖关系，因此现在的文本识别算法大多使用CNN-Transformer混合的框架，但是这样的方式只能在decoder部分受益，因此本文提出了一种仅依赖于transformer的文本识别框架。此外，作者发现并解决了两个较为关键的问题，第一个首字母的准确率较低，第二个为图片中文字为不同的大小，但如ViT这种架构使用的是固定的patch。为此作者提出了一个多专家纯Transformer结构，即PTIE，可以处理多种分辨率的patch，并进行正向和反向的解码。