目录
安全对齐
条目:4
2026年三月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
Conformal Policy Control:基于保形预测的策略控制方法 03-04
保形预测
策略控制
RL |
2026年二月
2 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[HACKER_NEWS] | 3min | newspaper
警惕AI总结幻觉:多语言安全与大模型护栏机制 02-19
LLM
幻觉
护栏机制 |
[自动]
[ARXIV] | 3min | school
动态认知回退机制提升策略合规安全性 02-02
LLM
安全对齐
提示工程 |
2026年一月
1 篇
| 类型 | 阅读 | 条目 |
|---|---|---|
[自动]
[ARXIV] | 4min | school
MortalMATH:当推理目标遇上紧急语境,冲突何解?🧠🔥 01-27
LLM
模型评估
安全对齐 |
无匹配条目