terminal

AI Stack

rss_feed
SYS_STABLE
目录

预训练

条目:21
2026年二月 19 篇
类型阅读条目
[自动] [ARXIV]
5minschool 面向法语的ModernBERT多样性训练案例研究
02-26 ModernBERT 数据多样性 预训练
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-24 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速 AI 模型生产
02-24 SageMaker HyperPod AWS
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-23 AWS SageMaker HyperPod
[自动] [BLOGS_PODCASTS]
4minmic Hexagon 利用 SageMaker HyperPod 加速分割模型预训练
02-23 AWS SageMaker HyperPod
[自动] [ARXIV]
3minschool 通过任务复杂度量化验证浅层对齐假说
02-19 浅层对齐假说 SAH 任务复杂度
[自动] [ARXIV]
3minschool 基于任务复杂度的浅层对齐假说操作化研究
02-18 浅层对齐 SAH 任务复杂度
[自动] [HACKER_NEWS]
4minnewspaper LLM 数据集构建与模型训练优化指南
02-18 LLM 数据集构建 模型训练
[自动] [JUEJIN]
2minsticky_note_2 大模型行为塑造:SFT与LoRA深度解析
02-15 SFT LoRA 微调
[自动] [ARXIV]
4minschool 权重衰减提升语言模型可塑性
02-13 权重衰减 模型可塑性 微调
[自动] [ARXIV]
4minschool 权重衰减提升语言模型可塑性
02-12 LLM 权重衰减 模型可塑性
[自动] [ARXIV]
3minschool Data Science and Technology Towards AGI Part I: Tiered
02-11 AGI 数据管理 分层架构
[自动] [ARXIV]
3minschool MEG-XL:长上下文预训练实现数据高效的脑电转文本
02-04 MEG-XL 脑机接口 脑电转文本
[自动] [ARXIV]
4minschool MEG-XL:基于长上下文预训练的高效脑电转文本模型
02-03 MEG-XL 脑机接口 BCI
[自动] [ARXIV]
5minschool TEON:张量化正交化方法优化大语言模型预训练
02-03 TEON 优化器 预训练
[自动] [ARXIV]
5minschool TEON:张量化正交化技术优化大语言模型预训练
02-02 TEON 优化器 Muon
[自动] [BLOGS_PODCASTS]
4minmic 2026年AI展望:LLM、智能体、算力与Scaling Laws
02-02 LLM 智能体 Scaling Laws
[自动] [ARXIV]
4minschool FineInstructions:将合成指令数据扩展至预训练规模
02-02 LLM 指令微调 合成数据
[自动] [ARXIV]
4minschool FineInstructions:将合成指令扩展至预训练规模
02-01 FineInstructions 合成数据 指令微调
2026年一月 2 篇
类型阅读条目
[自动] [ARXIV]
3minschool FineInstructions:将合成指令数据扩展至预训练规模
01-31 LLM 指令微调 合成数据
[自动] [ARXIV]
4minschool FineInstructions:将合成指令数据扩展至预训练规模
01-30 LLM 预训练 指令微调