---
name: buzzing-news-scraper
description: Buzzing.cc 新闻抓取与总结 - 从 Buzzing.cc 获取国外新闻头条并生成中文摘要
category: mlops
---

# Buzzing.cc 新闻抓取与总结

从 Buzzing.cc 网站获取国外新闻头条，生成中文摘要并推送给用户。

## 使用场景

- 用户要求获取 Buzzing.cc 的最新新闻
- 需要总结国外媒体的热点新闻
- 定时推送国外新闻摘要

## 完整流程

### 1. 访问 Buzzing.cc 新闻页面

```python
browser_navigate("https://news.buzzing.cc/")
```

### 2. 提取新闻列表

使用 browser_snapshot 获取页面内容，解析前 N 条新闻的：
- 标题（已翻译成中文）
- 来源媒体
- 发布时间
- 原文链接

### 3. 抓取新闻详情

**注意：** Buzzing.cc 使用 Cloudflare 防护，直接访问摘要页面会触发人机验证。

**方案 A：直接抓取原文（推荐）**
```python
# 从标题中提取原文 URL，直接抓取原始新闻来源
browser_navigate("https://www.theguardian.com/...")
# 或使用 jina.ai
terminal('curl -s "https://r.jina.ai/http://原始新闻 URL"')
```

**方案 B：使用 Buzzing 摘要页面（可能失败）**
```python
browser_navigate("https://i.buzzing.cc/news/posts/2026/16/{news_id}/")
# ⚠️ 可能遇到 Cloudflare 人机验证
```

**方案 C：仅使用标题生成摘要**
```python
# 当无法获取全文时，基于标题生成简要总结
```

### 4. 生成中文总结

对每条新闻生成：
- 📰 标题
- 🏢 来源媒体
- 🕐 发布时间
- 📝 要点摘要（50-100 字）
- 🔗 原文链接

### 5. 格式化输出

**推荐格式：分类汇总 + 统计**

```markdown
## 📰 Buzzing.cc 今日新闻摘要 (2026 年 4 月 15 日)

**共抓取 50+ 条头条新闻**，来源包括 BBC、Reuters、AP News 等国际权威媒体

---

### 🔥 热点头条 (今日更新)
| # | 标题 | 来源 | 时间 |
|---|------|------|------|
| 1 | 新闻标题 | BBC | 12:21 |

### 🌍 中东局势
| # | 标题 | 来源 |
|---|------|------|
| 1 | 新闻标题 | Axios |

### 📊 新闻分类统计
| 类别 | 数量 | 占比 |
|------|------|------|
| 🌍 中东局势 | 11 | 22% |
| 🇪🇺 欧洲政治 | 12 | 24% |

### 🎯 今日重点总结
1. **主题 1**：简要说明
2. **主题 2**：简要说明
```

**分类建议：** 中东局势、欧洲政治、乌克兰战争、亚洲新闻、美国新闻、突发事件等

## pitfalls

1. **Cloudflare 防护** - Buzzing.cc 使用 Cloudflare 保护，browser_navigate 可能触发人机验证页面（"Just a moment..."）

2. **jina.ai 封锁** - Google News RSS 链接和部分新闻网站（如 timesofisrael.com）被 jina.ai 封锁，提示"DDoS attack suspected: Too many domains"

3. **链接过期** - Guardian 等新闻网站的链接可能很快过期，返回 404 Page Not Found

4. **摘要页面限制** - Buzzing.cc 的 i.buzzing.cc 子域名有人机验证，无法直接抓取

5. **工作时间** - 新闻发布时间是 UTC 时间，需要转换到用户时区（Asia/Shanghai = UTC+8）

## 推荐方案

**优先级顺序：**

1. **直接访问原始新闻来源** - 从标题识别来源媒体，直接访问原文
2. **使用 browser 工具** - 比 jina.ai 更可靠，可处理部分防护
3. **基于标题生成摘要** - 当无法获取全文时，诚实告知用户限制

## 验证步骤

1. 确认能成功访问 news.buzzing.cc 首页
2. 提取前 10 条新闻的标题和来源
3. 尝试抓取 1-2 条新闻的全文（测试可行性）
4. 如无法获取全文，明确告知用户原因
5. 生成基于标题的摘要，附上原文链接

## 替代方案

如 Buzzing.cc 无法抓取，可考虑：
- Hacker News (hn.buzzing.cc) - 技术新闻，防护较少
- Reddit 热门 (reddit.buzzing.cc) - 社交媒体讨论
- 直接访问新闻机构官网 - 如 Reuters, BBC, Guardian 等
