目录
模型微调
条目:44
2026年二月
34 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 5min | school
FlashOptim:面向内存高效训练的优化器 02-28
FlashOptim
大模型训练
显存优化 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Unsloth Dynamic 2.0 GGUFs 发布 02-28
Unsloth
GGUF
llama.cpp |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调解析:原理、应用场景与实现选项 02-28
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调原理:从评估学习到多轮智能体构建 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调原理、应用场景与实现选项解析 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[ARXIV] | 4min | school
利用大模型生成判断数据提升应用商店排序相关性 02-27
LLM
搜索相关性
数据标注 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Amazon Nova 强化微调:原理、应用场景与实现指南 02-27
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Amazon Nova 强化微调解析:原理、应用场景与实现指南 02-26
Amazon Nova
强化微调
RFT |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用vLLM在SageMaker AI与Bedrock上高效托管多LoRA模型 02-26
vLLM
LoRA
SageMaker |
[自动]
[BLOGS_PODCASTS] | 5min | mic
利用vLLM在SageMaker与Bedrock上高效部署多LoRA及MoE模型 02-26
vLLM
LoRA
MoE |
[自动]
[ARXIV] | 5min | school
为何Pass@k优化会降低Pass@1:大模型后训练中的提示干扰 02-25
LLM
后训练
代码生成 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
数十场中型发布会背后的共同主题:形成闭环 02-25
闭环
数据飞轮
合成数据 |
[自动]
[HACKER_NEWS] | 5min | newspaper
Hugging Face Skills:基于技能的模型微调框架 02-25
Hugging Face
模型微调
Skills |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年亚马逊SageMaker AI:增强可观测性与模型定制托管功能 02-24
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年Amazon SageMaker AI可观测性、模型定制与托管功能增强 02-23
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
2025年回顾:SageMaker AI提升可观测性并优化模型定制与托管 02-23
SageMaker
AWS
LLM |
[自动]
[BLOGS_PODCASTS] | 4min | mic
使用 Unsloth 和 Hugging Face 免费训练 AI 模型 02-19
Unsloth
Hugging Face
模型微调 |
[自动]
[HACKER_NEWS] | 4min | newspaper
LLM上下文学习机制与性能优化指南 02-18
LLM
上下文学习
ICL |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Qwen3.5-397B-A17B:最小的高效Open-Opus级模型 02-17
Qwen3.5
Qwen
MoE |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex与Claude支持定制化内核扩展 02-17
Codex
Claude
定制化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex 与 Claude 支持定制内核 02-16
Codex
Claude
定制内核 |
[自动]
[ARXIV] | 4min | school
面向语言模型的在线上下文蒸馏方法 02-13
LLM
模型蒸馏
上下文学习 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex与Claude支持定制化内核 02-13
Codex
Claude
定制化内核 |
[自动]
[ARXIV] | 6min | school
CM2:基于清单奖励强化学习的多轮多步智能体工具调用 02-13
强化学习
Agent
工具调用 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
Codex 与 Claude 支持构建自定义内核 02-13
Codex
Claude
自定义内核 |
[自动]
[HACKER_NEWS] | 6min | newspaper
仅更换测试框架,一下午提升15个大模型代码能力 02-13
LLM
代码生成
基准测试 |
[自动]
[ARXIV] | 5min | school
共享LoRA子空间实现近乎严格的持续学习 02-08
LoRA
持续学习
灾难性遗忘 |
[自动]
[ARXIV] | 5min | school
共享 LoRA 子空间实现近乎严格的持续学习 02-07
LoRA
持续学习
灾难性遗忘 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen3-Coder-Next:下一代代码模型架构与性能升级 02-04
Qwen
代码模型
架构升级 |
[自动]
[HACKER_NEWS] | 4min | newspaper
Qwen3-Coder-Next:下一代代码模型架构与性能解析 02-04
Qwen3
代码模型
LLM |
[自动]
[ARXIV] | 4min | school
无奖励对齐技术处理多目标冲突 02-03
RACO
对齐技术
多目标优化 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
NVIDIA Cosmos策略发布:提升机器人控制精度 02-03
NVIDIA
Cosmos
机器人 |
[自动]
[ARXIV] | 4min | school
智能体推理与工具使用的竞争:量化干扰与解调优 02-03
智能体
强化学习
工具使用 |
2026年一月
10 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
发现模型仓库中的隐藏价值 01-31
模型评估
Llama
多臂老虎机 |
[自动]
[ARXIV] | 4min | school
推理大模型从被动求解转向主动提问 01-30
推理模型
主动交互
思维链 |
[自动]
[ARXIV] | 4min | school
进化策略导致大语言模型出现灾难性遗忘 01-30
进化策略
灾难性遗忘
持续学习 |
[自动]
[ARXIV] | 4min | school
进化策略导致大语言模型出现灾难性遗忘 01-29
进化策略
灾难性遗忘
持续学习 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
OpenAI 如何防范 AI 代理点击链接时的数据外泄与提示注入 01-29
OpenAI
AI Agent
提示注入 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
让 Claude 编写 CUDA 内核并指导开源模型 01-29
Claude
CUDA
内核开发 |
[自动]
[ARXIV] | 5min | school
✨告别遗忘!Self-Distillation解锁持续学习新范式! 01-28
持续学习
Self-Distillation
灾难性遗忘 |
[自动]
[BLOGS_PODCASTS] | 2min | mic
GPT-OSS实战复盘:解锁Agentic RL训练的突破性路径!🚀 01-28
GPT-OSS
强化学习
RL训练 |
[自动]
[BLOGS_PODCASTS] | 3min | mic
Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective 01-27
Agentic RL
强化学习
GPT-OSS |
[自动]
[ARXIV] | 6min | school
🔥LLM序列标注新突破!揭秘高效策略,性能飙升! 01-27
LLM
序列标注
NLP |
无匹配条目