一款从开放重量级大型语言模型中移除审查的工具

摘要： OBLITERATUS 是一个开源的、用于分析和移除大型语言模型拒绝行为的工具包。它通过 abliteration 技术识别并移除导致内容拒绝的内部表示，而无需重新训练或微调。OBLITERATUS 不仅是一个工具，还是一个分布式的研究实验，用户每次使用都会为研究提供匿名基准数据。该工具包提供了完整的流程，从探测模型的隐藏状态以定位拒绝方向，到通过多种提取策略（如 PCA、均值差异、稀疏自动编码器分解和白化 SVD）提取方向，再到实际干预——在推理时间零点或引导远离这些方向。OBLITERATUS 提供了多种使用方式，包括 HuggingFace Spaces、本地 Web UI、Google Colab、CLI、Python API 和 YAML 配置文件。它支持永久性和可逆性解放，并包含多个分析模块和策略来帮助用户理解模型的内部结构。

讨论： 该内容主要讨论了一个工具的评估。多位用户对该工具的README文件、功能、效果和适用性提出了批评。批评包括：README文件内容混乱，包含错误术语和不合理想法；工具在去除审查方面效果不佳，可能降低响应质量；对工具的工作原理和效果存在疑问；工具可能不适用于某些订阅或平台；以及建议寻找其他自动去审查的解决方案。

原文标题：A tool that removes censorship from open-weight LLMs
原文链接：https://github.com/elder-plinius/OBLITERATUS
讨论链接：https://news.ycombinator.com/item?id=47275291