一款从开放重量级大型语言模型中移除审查的工具

Mar 06, 2026     Author:mvdwoord     HN Points:197     HN Comments:11
Share this

摘要: OBLITERATUS 是一个开源的、用于分析和移除大型语言模型拒绝行为的工具包。它通过 abliteration 技术识别并移除导致内容拒绝的内部表示,而无需重新训练或微调。OBLITERATUS 不仅是一个工具,还是一个分布式的研究实验,用户每次使用都会为研究提供匿名基准数据。该工具包提供了完整的流程,从探测模型的隐藏状态以定位拒绝方向,到通过多种提取策略(如 PCA、均值差异、稀疏自动编码器分解和白化 SVD)提取方向,再到实际干预——在推理时间零点或引导远离这些方向。OBLITERATUS 提供了多种使用方式,包括 HuggingFace Spaces、本地 Web UI、Google Colab、CLI、Python API 和 YAML 配置文件。它支持永久性和可逆性解放,并包含多个分析模块和策略来帮助用户理解模型的内部结构。

讨论: 该内容主要讨论了一个工具的评估。多位用户对该工具的README文件、功能、效果和适用性提出了批评。批评包括:README文件内容混乱,包含错误术语和不合理想法;工具在去除审查方面效果不佳,可能降低响应质量;对工具的工作原理和效果存在疑问;工具可能不适用于某些订阅或平台;以及建议寻找其他自动去审查的解决方案。

原文标题:A tool that removes censorship from open-weight LLMs
原文链接:https://github.com/elder-plinius/OBLITERATUS
讨论链接:https://news.ycombinator.com/item?id=47275291