扫描公众号文案、文件或网页中的违禁词与敏感表述,标注风险并提供合规替换建议,帮你安全过审、避免删文限流。
---
name: wechat-prohibited-word
description: 扫描公众号文案、文件或网页中的违禁词与敏感表述,标注风险并提供合规替换建议,帮你安全过审、避免删文限流。
dependency:
python:
- requests>=2.28.0
- python-docx==1.1.0
- beautifulsoup4==4.12.3
- playwright==1.58.0
system:
- playwright install chromium
---
# 公众号违禁词查询
## 简介
**公众号违禁词查询**是一款专为公众号内容创作者和运营人员设计的合规检测工具,基于官方违禁词库实时同步,覆盖广告法、医疗美容、金融风险等 10+ 类目。
通过简单的文案输入,你可以:
- 🔍 快速扫描文案中的违禁词与敏感表述,**加粗**标注风险位置
- 💡 获取每个违禁词的向上文语境的替换建议
- ✏️ 直接拿到一份替换后的合规文案,复制即可发布
- 📎 自动生成纯文本文件,方便存档和协作
适用于公众号运营、新媒体编辑、品牌市场团队、设计师等需要确保文案合规发布的场景。
本 Skill 基于 Python 脚本,通过 API 调用远端违禁词检测服务,支持文本、文件、网页、图片四种输入方式。
---
## 功能特性
### 核心功能
| 功能 | 说明 |
|------|------|
| **违禁词扫描** | 基于官方违禁词库,覆盖广告法极限词、医疗美容、金融风险、教育培训等 10+ 类目 |
| **风险标注** | 命中违禁词在原文中**加粗**显示,同时汇总违禁词类型与数量 |
| **智能替换** | 每个违禁词提供结合上下文的替换表达,附更换理由,不是机械同义词替换 |
| **优化文案生成** | 直接输出替换后的完整合规版本,替换处**加粗**标记,保持原文语气和风格 |
### 特色亮点
- **四种输入方式**:支持直接粘贴文案、上传 TXT/DOC/DOCX 文件、上传图片自动提取文字、粘贴网页链接
- **长文案分批检测**:超过 3000 字自动提醒,支持按自然断句处切割分批检测,结果自动合并
- **英文误匹配过滤**:内置英文单词识别,不会把 "Glasswing" 中的 "ass" 误判为违禁词
- **网络异常容错**:API 请求遇到 5xx、超时、连接失败时自动重试,无需手动干预
- **数据隐私保护**:文案通过加密连接发送至检测服务,不在本地存储
---
## 一键安装
### 前置条件
- **Python 3.7+** 运行环境
- **pip** 包管理器
- 已注册 [红狐Hub](https://redfox.hk/) 账号并获取 API Key
### 安装步骤
1. 将本 Skill 文件夹放入你的平台 Skill 目录
2. 安装 Python 依赖:
```bash
pip install requests python-docx beautifulsoup4 playwright
playwright install chromium
```
3. 配置 API Key(见下方)
### API Key 配置
#### 获取 API Key
1. 访问 [红狐Hub 官网](https://redfox.hk/) 了解服务详情
2. 前往 [注册页面](https://redfox.hk/login) 注册账号
3. **新注册用户将获赠免费积分**,可立即开始使用 API 服务
4. 注册登录后,在个人中心获取 API Key,格式为 `ak_xxxxxxxx`
#### 配置方式
| 配置方式 | 操作 | 说明 |
|----------|------|------|
| 环境变量(推荐) | `export REDFOX_API_KEY=ak_xxxxxxxx` | 在当前终端会话生效 |
| Shell 配置文件 | 将上述 export 语句写入 `~/.bashrc` 或 `~/.zshrc`,执行 `source ~/.bashrc` | 永久生效,脚本自动读取 |
> 脚本获取 Key 的优先级:环境变量 `REDFOX_API_KEY` → Shell 配置文件自动扫描 → 提示用户配置
---
## 使用指南
### 基础使用
#### 方式一:直接粘贴文案
最常用的方式,适合快速检测草稿:
> **用户**:帮我看下这篇公众号草稿有没有违禁词:这款美白神器真的太有效了,用了三天就白了一个度
>
> **助手**:自动检测并输出违禁词标注、替换建议表和优化后文案
#### 方式二:上传文件
支持 TXT、DOC、DOCX 格式,直接上传即可自动读取检测。
#### 方式三:上传图片
上传海报截图或推文截图,系统自动提取图中文字进行检测(仅提取文字内容,不分析图片视觉风格)。
#### 方式四:粘贴网页链接
提供文章 URL,系统自动抓取页面正文内容进行检测。
**注意事项**:
- 平台固定为公众号,无需手动指定
- 单次建议不超过 3000 字,超过会询问你是否分批检测
- 超过 10000 字的内容暂不支持,建议手动分批
- PDF 文件不支持,请转为图片或文本文件后上传
### 命令速查
| 命令 | 用途 |
|------|------|
| `python scripts/check_sensitive_words.py --content="文案"` | 检测文本内容 |
| `python scripts/check_sensitive_words.py --file=/path/file.txt` | 检测文件内容 |
| `python scripts/check_sensitive_words.py --url=https://...` | 检测网页内容 |
| `python scripts/check_sensitive_words.py --file=/path/file.txt --extract-only` | 仅提取文本,不检测 |
---
## 使用场景
### 场景一:公众号推文发布前自查
**角色**:公众号运营
**需求**:推文发出前确认没有极限词、禁用宣传用语,避免被平台删改或封号
**使用方式**:
1. 写完推文后直接粘贴到对话中
2. 查看违禁词标注结果
3. 复制优化文案替换原文发布
**预期效果**:提前排除合规风险,降低删文概率
---
### 场景二:多篇短文案批量预审
**角色**:新媒体编辑
**需求**:日常产出多篇短文,需要在发布前统一过一遍合规检查
**使用方式**:
1. 将多篇文案合并为一个 TXT 文件上传
2. 系统自动分批检测全部内容
3. 下载合并后的优化文案文件
**预期效果**:一次完成多篇检测,提升审稿效率
---
### 场景三:活动落地页文案抽查
**角色**:品牌/市场团队
**需求**:H5 页面、活动落地页上线前确认文案无违规风险
**使用方式**:
1. 提供页面 URL
2. 系统自动抓取正文并检测
3. 按替换建议修正违规表述
**预期效果**:避免活动页面因违规词被举报或下架
---
### 场景四:海报/推文图文字合规检查
**角色**:设计师
**需求**:海报中的营销文案需要确保不触犯广告法
**使用方式**:
1. 上传海报截图
2. 系统提取图中文字进行检测
3. 确认替换方案后修改设计稿
**预期效果**:在设计阶段即排除文字风险,减少返工
---
## 项目架构
### 目录结构
```
wechat-prohibited-word/
├── SKILL.md # Skill 说明文档(本文件)
├── scripts/
│ └── check_sensitive_words.py # 核心检测脚本
└── references/
└── core_workflow.md # Agent 执行规程(输出模板、格式铁律等)
```
### 技术栈
| 组件 | 技术 | 说明 |
|------|------|------|
| 运行环境 | Python 3.7+ | 脚本执行环境 |
| HTTP 请求 | requests | 标准 HTTP 库,调用检测 API |
| 文档解析 | python-docx | Word 文档 (.doc/.docx) 文本提取 |
| 网页解析 | beautifulsoup4 + playwright | 静态 HTML 解析 + JS 动态页面渲染 |
| API 服务 | 红狐Hub | 官方违禁词库,POST+JSON 方式调用 |
### 数据流转
```
用户输入(文本/文件/网页/图片)
→ 脚本提取文本内容
→ HTTPS POST 发送至红狐Hub API
→ API 匹配违禁词库,返回标注结果
→ 脚本过滤英文误匹配,格式化输出 JSON
→ Agent 按模板呈现三板块结果 + 写入优化文案文件
```
---
## 常见问答
### 安装配置
**Q: 安装依赖时报错怎么办?**
A: 请确认 Python 版本≥3.7,并依次执行:
```bash
pip install --upgrade pip
pip install requests python-docx beautifulsoup4 playwright
playwright install chromium
```
**Q: 提示 "未配置 REDFOX_API_KEY" 怎么办?**
A: 请按以下步骤处理:
1. 访问 [redfox.hk](https://redfox.hk/) 注册账号
2. 在个人中心复制 API Key(格式 `ak_xxxxxxxx`)
3. 执行 `export REDFOX_API_KEY=ak_xxxxxxxx` 或写入 `~/.bashrc`
---
### 功能使用
**Q: 支持检测哪些类型的违禁词?**
A: 覆盖广告法极限词("最好""第一"等)、医疗美容禁宣用语、金融收益承诺、教育培训夸大宣传、虚假广告用语、诱导分享话术等 10+ 类目。
**Q: 长文案怎么处理?**
A: 3000 字以内直接检测;超过 3000 字会自动询问是否分批检测,在自然断句处切割保证语义完整;超过 10000 字建议手动分批。
**Q: 英文内容会被误判吗?**
A: 不会。脚本内置英文误匹配过滤,正常英文单词中的子串不会被标记为违禁词。
---
### 故障排除
**Q: 检测接口超时或报错?**
A: 脚本内置自动重试机制(最多 2 次),若仍然失败请稍后重试。持续异常请联系服务提供商。
**Q: 网页内容提取失败?**
A: 部分需要登录或有反爬机制的页面无法提取。建议直接复制页面文字后粘贴检测。
**Q: 上传的文件无法识别?**
A: 支持的文本文件格式:TXT、DOC、DOCX、CSV、MD、LOG、JSON、XML、HTML。PDF 不支持,请转为图片或文本文件。
---
### 获取帮助
如有其他问题,可通过以下方式获取支持:
- 🌐 访问 [红狐Hub](https://redfox.hk/) 查看文档
- 📧 邮件联系服务提供商
---
> **Agent 执行规程**:进行检测、格式化输出前,**必须先读取并严格遵循** [`references/core_workflow.md`](references/core_workflow.md) **全文**。该文档包含输出模板、格式铁律、分批询问话术、异常处理表等完整执行细节。
Creator's repository · redfox-data/redfox-community