Showing
3 changed files
with
16 additions
and
19 deletions
| 1 | -> [!warning] | ||
| 2 | -> 好像最近项目中用来请求每日热点新闻的api接口被ban了,可以自己部署一下[newsnow](https://github.com/ourongxing/newsnow),很快的可以一键部署,然后替换掉这个URL即可,最近一个月我也会commit一版更通用的解决方案。 | ||
| 3 | -> ```python | ||
| 4 | -> #新闻API基础URL | ||
| 5 | -> BASE URL = "https://newsnow.busiyi.world" | ||
| 6 | -> ``` | ||
| 7 | - | ||
| 8 | # MindSpider - 专为舆情分析设计的AI爬虫 | 1 | # MindSpider - 专为舆情分析设计的AI爬虫 |
| 9 | 2 | ||
| 10 | > 免责声明: | 3 | > 免责声明: |
| @@ -193,7 +186,7 @@ flowchart TB | @@ -193,7 +186,7 @@ flowchart TB | ||
| 193 | - 记录任务状态、进度、结果等 | 186 | - 记录任务状态、进度、结果等 |
| 194 | 187 | ||
| 195 | 5. **平台内容表**(继承自MediaCrawler) | 188 | 5. **平台内容表**(继承自MediaCrawler) |
| 196 | - - xhs_note - 小红书笔记 | 189 | + - xhs_note - 小红书笔记(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754) |
| 197 | - douyin_aweme - 抖音视频 | 190 | - douyin_aweme - 抖音视频 |
| 198 | - kuaishou_video - 快手视频 | 191 | - kuaishou_video - 快手视频 |
| 199 | - bilibili_video - B站视频 | 192 | - bilibili_video - B站视频 |
| @@ -206,10 +199,11 @@ flowchart TB | @@ -206,10 +199,11 @@ flowchart TB | ||
| 206 | ### 环境要求 | 199 | ### 环境要求 |
| 207 | 200 | ||
| 208 | - Python 3.9 或更高版本 | 201 | - Python 3.9 或更高版本 |
| 209 | -- MySQL 5.7 或更高版本 | 202 | +- MySQL 5.7 或更高版本,或 PostgreSQL |
| 210 | - Conda环境:pytorch_python11(推荐) | 203 | - Conda环境:pytorch_python11(推荐) |
| 211 | - 操作系统:Windows/Linux/macOS | 204 | - 操作系统:Windows/Linux/macOS |
| 212 | 205 | ||
| 206 | + | ||
| 213 | ### 1. 克隆项目 | 207 | ### 1. 克隆项目 |
| 214 | 208 | ||
| 215 | ```bash | 209 | ```bash |
| @@ -275,7 +269,7 @@ DB_PASSWORD = "your_password" | @@ -275,7 +269,7 @@ DB_PASSWORD = "your_password" | ||
| 275 | DB_NAME = "mindspider" | 269 | DB_NAME = "mindspider" |
| 276 | DB_CHARSET = "utf8mb4" | 270 | DB_CHARSET = "utf8mb4" |
| 277 | 271 | ||
| 278 | -# DeepSeek API密钥 | 272 | +# MINDSPIDER API密钥 |
| 279 | MINDSPIDER_BASE_URL=your_api_base_url | 273 | MINDSPIDER_BASE_URL=your_api_base_url |
| 280 | MINDSPIDER_API_KEY=sk-your-key | 274 | MINDSPIDER_API_KEY=sk-your-key |
| 281 | MINDSPIDER_MODEL_NAME=deepseek-chat | 275 | MINDSPIDER_MODEL_NAME=deepseek-chat |
| @@ -286,9 +280,6 @@ MINDSPIDER_MODEL_NAME=deepseek-chat | @@ -286,9 +280,6 @@ MINDSPIDER_MODEL_NAME=deepseek-chat | ||
| 286 | ```bash | 280 | ```bash |
| 287 | # 检查系统状态 | 281 | # 检查系统状态 |
| 288 | python main.py --status | 282 | python main.py --status |
| 289 | - | ||
| 290 | -# 初始化数据库表 | ||
| 291 | -python main.py --setup | ||
| 292 | ``` | 283 | ``` |
| 293 | 284 | ||
| 294 | ## 使用指南 | 285 | ## 使用指南 |
| @@ -325,7 +316,7 @@ python main.py --broad-topic --date 2024-01-15 | @@ -325,7 +316,7 @@ python main.py --broad-topic --date 2024-01-15 | ||
| 325 | 316 | ||
| 326 | **首次使用每个平台都需要登录,这是最关键的步骤:** | 317 | **首次使用每个平台都需要登录,这是最关键的步骤:** |
| 327 | 318 | ||
| 328 | -1. **小红书登录** | 319 | +1. **小红书登录**(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754) |
| 329 | ```bash | 320 | ```bash |
| 330 | # 测试小红书爬取(会弹出二维码) | 321 | # 测试小红书爬取(会弹出二维码) |
| 331 | python main.py --deep-sentiment --platforms xhs --test | 322 | python main.py --deep-sentiment --platforms xhs --test |
| @@ -369,6 +360,10 @@ python main.py --deep-sentiment --platforms zhihu --test | @@ -369,6 +360,10 @@ python main.py --deep-sentiment --platforms zhihu --test | ||
| 369 | 3. **手动处理验证**:有些平台可能需要手动滑动验证码 | 360 | 3. **手动处理验证**:有些平台可能需要手动滑动验证码 |
| 370 | 4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录 | 361 | 4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录 |
| 371 | 362 | ||
| 363 | +### 其他问题 | ||
| 364 | + | ||
| 365 | +https://github.com/666ghj/BettaFish/issues/185 | ||
| 366 | + | ||
| 372 | ### 爬取参数调整 | 367 | ### 爬取参数调整 |
| 373 | 368 | ||
| 374 | 在实际使用前建议调整爬取参数: | 369 | 在实际使用前建议调整爬取参数: |
| @@ -394,8 +389,8 @@ python main.py --deep-sentiment --date 2024-01-15 | @@ -394,8 +389,8 @@ python main.py --deep-sentiment --date 2024-01-15 | ||
| 394 | 389 | ||
| 395 | #### 2. 指定平台爬取 | 390 | #### 2. 指定平台爬取 |
| 396 | ```bash | 391 | ```bash |
| 397 | -# 只爬取小红书和抖音 | ||
| 398 | -python main.py --deep-sentiment --platforms xhs dy --test | 392 | +# 只爬取B站和抖音 |
| 393 | +python main.py --deep-sentiment --platforms bili dy --test | ||
| 399 | 394 | ||
| 400 | # 爬取所有平台的特定数量内容 | 395 | # 爬取所有平台的特定数量内容 |
| 401 | python main.py --deep-sentiment --max-keywords 30 --max-notes 20 | 396 | python main.py --deep-sentiment --max-keywords 30 --max-notes 20 |
| @@ -405,7 +400,7 @@ python main.py --deep-sentiment --max-keywords 30 --max-notes 20 | @@ -405,7 +400,7 @@ python main.py --deep-sentiment --max-keywords 30 --max-notes 20 | ||
| 405 | 400 | ||
| 406 | ```bash | 401 | ```bash |
| 407 | --status # 检查项目状态 | 402 | --status # 检查项目状态 |
| 408 | ---setup # 初始化项目 | 403 | +--setup # 初始化项目(废弃,已自动初始化) |
| 409 | --broad-topic # 话题提取 | 404 | --broad-topic # 话题提取 |
| 410 | --deep-sentiment # 爬虫模块 | 405 | --deep-sentiment # 爬虫模块 |
| 411 | --complete # 完整流程 | 406 | --complete # 完整流程 |
| @@ -337,7 +337,7 @@ Recommended LLM API Provider: [Reasoning Era](https://aihubmix.com/?aff=8Ds9) | @@ -337,7 +337,7 @@ Recommended LLM API Provider: [Reasoning Era](https://aihubmix.com/?aff=8Ds9) | ||
| 337 | ```bash | 337 | ```bash |
| 338 | # Local MySQL database initialization | 338 | # Local MySQL database initialization |
| 339 | cd MindSpider | 339 | cd MindSpider |
| 340 | -# Project initialization | 340 | +# Project initialization, deprecated, initialization is now automatic. |
| 341 | python main.py --setup | 341 | python main.py --setup |
| 342 | 342 | ||
| 343 | ``` | 343 | ``` |
| @@ -667,6 +667,7 @@ This project is licensed under the [GPL-2.0 License](LICENSE). Please see the LI | @@ -667,6 +667,7 @@ This project is licensed under the [GPL-2.0 License](LICENSE). Please see the LI | ||
| 667 | ### Get Help | 667 | ### Get Help |
| 668 | 668 | ||
| 669 | - **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) | 669 | - **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) |
| 670 | +- **FAQ**: [Frequently Asked Questions](https://github.com/666ghj/BettaFish/issues/185) | ||
| 670 | - **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) | 671 | - **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) |
| 671 | - **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) | 672 | - **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) |
| 672 | 673 |
| @@ -337,7 +337,7 @@ INSIGHT_ENGINE_MODEL_NAME= | @@ -337,7 +337,7 @@ INSIGHT_ENGINE_MODEL_NAME= | ||
| 337 | ```bash | 337 | ```bash |
| 338 | # 本地MySQL数据库初始化 | 338 | # 本地MySQL数据库初始化 |
| 339 | cd MindSpider | 339 | cd MindSpider |
| 340 | -# 项目初始化 | 340 | +# 项目初始化(废弃,已自动初始化) |
| 341 | python main.py --setup | 341 | python main.py --setup |
| 342 | 342 | ||
| 343 | ``` | 343 | ``` |
| @@ -665,6 +665,7 @@ class DeepSearchAgent: | @@ -665,6 +665,7 @@ class DeepSearchAgent: | ||
| 665 | ### 获取帮助 | 665 | ### 获取帮助 |
| 666 | 666 | ||
| 667 | - **项目主页**:[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) | 667 | - **项目主页**:[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) |
| 668 | +- **常见问题解答**:[FAQ](https://github.com/666ghj/BettaFish/issues/185) | ||
| 668 | - **问题反馈**:[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) | 669 | - **问题反馈**:[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) |
| 669 | - **功能建议**:[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) | 670 | - **功能建议**:[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) |
| 670 | 671 |
-
Please register or login to post a comment