安全对齐

条目：3

2026年二月 2 篇

类型	阅读	条目
[自动] [HACKER_NEWS]	4min	newspaper 警惕AI总结幻觉：多语言安全与大模型护栏机制 02-19 LLM 幻觉护栏机制
[自动] [ARXIV]	3min	school 动态认知回退机制提升策略合规安全性 02-02 LLM 安全对齐提示工程

2026年一月 1 篇

类型	阅读	条目
[自动] [ARXIV]	4min	school MortalMATH：当推理目标遇上紧急语境，冲突何解？🧠🔥 01-27 LLM 模型评估安全对齐