index.md 3.09 KB

Raw Blame History Permalink



MediaCrawler使用方法


创建并激活 python 虚拟环境


如果是爬取抖音和知乎，需要提前安装nodejs环境，版本大于等于：16即可 


   # 进入项目根目录
   cd MediaCrawler


# 创建虚拟环境
   # 我的python版本是：3.9.6，requirements.txt中的库是基于这个版本的，如果是其他python版本，可能requirements.txt中的库不兼容，自行解决一下。
   python -m venv venv

# macos & linux 激活虚拟环境
   source venv/bin/activate

# windows 激活虚拟环境
   venv\Scripts\activate


## 安装依赖库

   ```shell
   pip install -r requirements.txt


安装 playwright浏览器驱动

   playwright install


运行爬虫程序

   ### 项目默认是没有开启评论爬取模式，如需评论请在config/base_config.py中的 ENABLE_GET_COMMENTS 变量修改
   ### 一些其他支持项，也可以在config/base_config.py查看功能，写的有中文注释

   # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
   python main.py --platform xhs --lt qrcode --type search

   # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
   python main.py --platform xhs --lt qrcode --type detail

   # 使用SQLite数据库存储数据（推荐个人用户使用）
   python main.py --platform xhs --lt qrcode --type search --save_data_option sqlite

   # 使用MySQL数据库存储数据
   python main.py --platform xhs --lt qrcode --type search --save_data_option db

   # 打开对应APP扫二维码登录

   # 其他平台爬虫使用示例，执行下面的命令查看
   python main.py --help    


💾 数据存储

支持多种数据存储方式：


CSV 文件: 支持保存至 CSV (位于 data/ 目录下)

JSON 文件: 支持保存至 JSON (位于 data/ 目录下)

数据库存储


使用 --init_db 参数进行数据库初始化 (使用 --init_db 时，无需其他可选参数)

SQLite 数据库: 轻量级数据库，无需服务器，适合个人使用 (推荐)
初始化: --init_db sqlite

数据存储: --save_data_option sqlite


MySQL 数据库: 支持保存至关系型数据库 MySQL (需提前创建数据库)
初始化: --init_db mysql

数据存储: --save_data_option db (db 参数为兼容历史更新保留)


免责声明


免责声明：

大家请以学习为目的使用本仓库，爬虫违法违规的案件：https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China  


本项目的所有内容仅供学习和参考之用，禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究，不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任，本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。