Doiiars
Committed by BaiFu

更新readme

1 -> [!warning]  
2 -> 好像最近项目中用来请求每日热点新闻的api接口被ban了,可以自己部署一下[newsnow](https://github.com/ourongxing/newsnow),很快的可以一键部署,然后替换掉这个URL即可,最近一个月我也会commit一版更通用的解决方案。  
3 -> ```python  
4 -> #新闻API基础URL  
5 -> BASE URL = "https://newsnow.busiyi.world"  
6 -> ```  
7 -  
8 # MindSpider - 专为舆情分析设计的AI爬虫 1 # MindSpider - 专为舆情分析设计的AI爬虫
9 2
10 > 免责声明: 3 > 免责声明:
@@ -193,7 +186,7 @@ flowchart TB @@ -193,7 +186,7 @@ flowchart TB
193 - 记录任务状态、进度、结果等 186 - 记录任务状态、进度、结果等
194 187
195 5. **平台内容表**(继承自MediaCrawler) 188 5. **平台内容表**(继承自MediaCrawler)
196 - - xhs_note - 小红书笔记 189 + - xhs_note - 小红书笔记(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754)
197 - douyin_aweme - 抖音视频 190 - douyin_aweme - 抖音视频
198 - kuaishou_video - 快手视频 191 - kuaishou_video - 快手视频
199 - bilibili_video - B站视频 192 - bilibili_video - B站视频
@@ -206,10 +199,11 @@ flowchart TB @@ -206,10 +199,11 @@ flowchart TB
206 ### 环境要求 199 ### 环境要求
207 200
208 - Python 3.9 或更高版本 201 - Python 3.9 或更高版本
209 -- MySQL 5.7 或更高版本 202 +- MySQL 5.7 或更高版本,或 PostgreSQL
210 - Conda环境:pytorch_python11(推荐) 203 - Conda环境:pytorch_python11(推荐)
211 - 操作系统:Windows/Linux/macOS 204 - 操作系统:Windows/Linux/macOS
212 205
  206 +
213 ### 1. 克隆项目 207 ### 1. 克隆项目
214 208
215 ```bash 209 ```bash
@@ -275,7 +269,7 @@ DB_PASSWORD = "your_password" @@ -275,7 +269,7 @@ DB_PASSWORD = "your_password"
275 DB_NAME = "mindspider" 269 DB_NAME = "mindspider"
276 DB_CHARSET = "utf8mb4" 270 DB_CHARSET = "utf8mb4"
277 271
278 -# DeepSeek API密钥 272 +# MINDSPIDER API密钥
279 MINDSPIDER_BASE_URL=your_api_base_url 273 MINDSPIDER_BASE_URL=your_api_base_url
280 MINDSPIDER_API_KEY=sk-your-key 274 MINDSPIDER_API_KEY=sk-your-key
281 MINDSPIDER_MODEL_NAME=deepseek-chat 275 MINDSPIDER_MODEL_NAME=deepseek-chat
@@ -286,9 +280,6 @@ MINDSPIDER_MODEL_NAME=deepseek-chat @@ -286,9 +280,6 @@ MINDSPIDER_MODEL_NAME=deepseek-chat
286 ```bash 280 ```bash
287 # 检查系统状态 281 # 检查系统状态
288 python main.py --status 282 python main.py --status
289 -  
290 -# 初始化数据库表  
291 -python main.py --setup  
292 ``` 283 ```
293 284
294 ## 使用指南 285 ## 使用指南
@@ -325,7 +316,7 @@ python main.py --broad-topic --date 2024-01-15 @@ -325,7 +316,7 @@ python main.py --broad-topic --date 2024-01-15
325 316
326 **首次使用每个平台都需要登录,这是最关键的步骤:** 317 **首次使用每个平台都需要登录,这是最关键的步骤:**
327 318
328 -1. **小红书登录** 319 +1. **小红书登录**(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754)
329 ```bash 320 ```bash
330 # 测试小红书爬取(会弹出二维码) 321 # 测试小红书爬取(会弹出二维码)
331 python main.py --deep-sentiment --platforms xhs --test 322 python main.py --deep-sentiment --platforms xhs --test
@@ -369,6 +360,10 @@ python main.py --deep-sentiment --platforms zhihu --test @@ -369,6 +360,10 @@ python main.py --deep-sentiment --platforms zhihu --test
369 3. **手动处理验证**:有些平台可能需要手动滑动验证码 360 3. **手动处理验证**:有些平台可能需要手动滑动验证码
370 4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录 361 4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录
371 362
  363 +### 其他问题
  364 +
  365 +https://github.com/666ghj/BettaFish/issues/185
  366 +
372 ### 爬取参数调整 367 ### 爬取参数调整
373 368
374 在实际使用前建议调整爬取参数: 369 在实际使用前建议调整爬取参数:
@@ -394,8 +389,8 @@ python main.py --deep-sentiment --date 2024-01-15 @@ -394,8 +389,8 @@ python main.py --deep-sentiment --date 2024-01-15
394 389
395 #### 2. 指定平台爬取 390 #### 2. 指定平台爬取
396 ```bash 391 ```bash
397 -# 只爬取小红书和抖音  
398 -python main.py --deep-sentiment --platforms xhs dy --test 392 +# 只爬取B站和抖音
  393 +python main.py --deep-sentiment --platforms bili dy --test
399 394
400 # 爬取所有平台的特定数量内容 395 # 爬取所有平台的特定数量内容
401 python main.py --deep-sentiment --max-keywords 30 --max-notes 20 396 python main.py --deep-sentiment --max-keywords 30 --max-notes 20
@@ -405,7 +400,7 @@ python main.py --deep-sentiment --max-keywords 30 --max-notes 20 @@ -405,7 +400,7 @@ python main.py --deep-sentiment --max-keywords 30 --max-notes 20
405 400
406 ```bash 401 ```bash
407 --status # 检查项目状态 402 --status # 检查项目状态
408 ---setup # 初始化项目 403 +--setup # 初始化项目(废弃,已自动初始化)
409 --broad-topic # 话题提取 404 --broad-topic # 话题提取
410 --deep-sentiment # 爬虫模块 405 --deep-sentiment # 爬虫模块
411 --complete # 完整流程 406 --complete # 完整流程
@@ -337,7 +337,7 @@ Recommended LLM API Provider: [Reasoning Era](https://aihubmix.com/?aff=8Ds9) @@ -337,7 +337,7 @@ Recommended LLM API Provider: [Reasoning Era](https://aihubmix.com/?aff=8Ds9)
337 ```bash 337 ```bash
338 # Local MySQL database initialization 338 # Local MySQL database initialization
339 cd MindSpider 339 cd MindSpider
340 -# Project initialization 340 +# Project initialization, deprecated, initialization is now automatic.
341 python main.py --setup 341 python main.py --setup
342 342
343 ``` 343 ```
@@ -667,6 +667,7 @@ This project is licensed under the [GPL-2.0 License](LICENSE). Please see the LI @@ -667,6 +667,7 @@ This project is licensed under the [GPL-2.0 License](LICENSE). Please see the LI
667 ### Get Help 667 ### Get Help
668 668
669 - **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) 669 - **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
  670 +- **FAQ**: [Frequently Asked Questions](https://github.com/666ghj/BettaFish/issues/185)
670 - **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) 671 - **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
671 - **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) 672 - **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
672 673
@@ -337,7 +337,7 @@ INSIGHT_ENGINE_MODEL_NAME= @@ -337,7 +337,7 @@ INSIGHT_ENGINE_MODEL_NAME=
337 ```bash 337 ```bash
338 # 本地MySQL数据库初始化 338 # 本地MySQL数据库初始化
339 cd MindSpider 339 cd MindSpider
340 -# 项目初始化 340 +# 项目初始化(废弃,已自动初始化)
341 python main.py --setup 341 python main.py --setup
342 342
343 ``` 343 ```
@@ -665,6 +665,7 @@ class DeepSearchAgent: @@ -665,6 +665,7 @@ class DeepSearchAgent:
665 ### 获取帮助 665 ### 获取帮助
666 666
667 - **项目主页**[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem) 667 - **项目主页**[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
  668 +- **常见问题解答**[FAQ](https://github.com/666ghj/BettaFish/issues/185)
668 - **问题反馈**[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues) 669 - **问题反馈**[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
669 - **功能建议**[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions) 670 - **功能建议**[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
670 671