目录
预训练
条目:21
2026年二月
19 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
面向法语的ModernBERT多样性训练案例研究 02-26
ModernBERT
数据多样性
预训练 |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-24
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速 AI 模型生产 02-24
SageMaker
HyperPod
AWS |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23
AWS
SageMaker
HyperPod |
[自动]
[BLOGS_PODCASTS] | 4min | mic
Hexagon 利用 SageMaker HyperPod 加速分割模型预训练 02-23
AWS
SageMaker
HyperPod |
[自动]
[ARXIV] | 3min | school
通过任务复杂度量化验证浅层对齐假说 02-19
浅层对齐假说
SAH
任务复杂度 |
[自动]
[ARXIV] | 3min | school
基于任务复杂度的浅层对齐假说操作化研究 02-18
浅层对齐
SAH
任务复杂度 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM 数据集构建与模型训练优化指南 02-18
LLM
数据集构建
模型训练 |
[自动]
[JUEJIN] | 2min | sticky_note_2
大模型行为塑造:SFT与LoRA深度解析 02-15
SFT
LoRA
微调 |
[自动]
[ARXIV] | 4min | school
权重衰减提升语言模型可塑性 02-13
权重衰减
模型可塑性
微调 |
[自动]
[ARXIV] | 4min | school
权重衰减提升语言模型可塑性 02-12
LLM
权重衰减
模型可塑性 |
[自动]
[ARXIV] | 3min | school
Data Science and Technology Towards AGI Part I: Tiered 02-11
AGI
数据管理
分层架构 |
[自动]
[ARXIV] | 3min | school
MEG-XL:长上下文预训练实现数据高效的脑电转文本 02-04
MEG-XL
脑机接口
脑电转文本 |
[自动]
[ARXIV] | 4min | school
MEG-XL:基于长上下文预训练的高效脑电转文本模型 02-03
MEG-XL
脑机接口
BCI |
[自动]
[ARXIV] | 5min | school
TEON:张量化正交化方法优化大语言模型预训练 02-03
TEON
优化器
预训练 |
[自动]
[ARXIV] | 5min | school
TEON:张量化正交化技术优化大语言模型预训练 02-02
TEON
优化器
Muon |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2026年AI展望:LLM、智能体、算力与Scaling Laws 02-02
LLM
智能体
Scaling Laws |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令数据扩展至预训练规模 02-02
LLM
指令微调
合成数据 |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令扩展至预训练规模 02-01
FineInstructions
合成数据
指令微调 |
2026年一月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 3min | school
FineInstructions:将合成指令数据扩展至预训练规模 01-31
LLM
指令微调
合成数据 |
[自动]
[ARXIV] | 4min | school
FineInstructions:将合成指令数据扩展至预训练规模 01-30
LLM
预训练
指令微调 |
无匹配条目