1. 同步MediaCrawler为最新版本

2. 修复数据库not null错误 3. 支持PG数据库 4. 规范环境变量及配置使用 5. 规范为uv安装 6. 使用loggru

1. 同步MediaCrawler为最新版本
2. 修复数据库not null错误 3. 支持PG数据库 4. 规范环境变量及配置使用 5. 规范为uv安装 6. 使用loggru
Doiiars
Commit 96c7d2d3b730a0f0742d0fb832169b8580c112c2 96c7d2d3 1 parent 3ad80777
Showing 11 changed files with 740 additions and 577 deletions
MindSpider/BroadTopicExtraction/database_manager.py
MindSpider/BroadTopicExtraction/main.py
MindSpider/BroadTopicExtraction/topic_extractor.py
MindSpider/DeepSentimentCrawling/keyword_manager.py
MindSpider/DeepSentimentCrawling/platform_crawler.py
MindSpider/README.md
MindSpider/config.py
MindSpider/main.py
MindSpider/requirements.txt
MindSpider/schema/db_manager.py
MindSpider/schema/init_database.py
--- a/MindSpider/BroadTopicExtraction/database_manager.py
View file @96c7d2d
+++ b/MindSpider/BroadTopicExtraction/database_manager.py
View file @96c7d2d
@@ -7,11 +7,12 @@ BroadTopicExtraction模块 - 数据库管理器
 
 import sys
 import json
- from datetime import datetime, date
+ from datetime import datetime, date, timedelta
 from pathlib import Path
 from typing import List, Dict, Optional
- import pymysql
- from pymysql.cursors import DictCursor
+ from sqlalchemy import create_engine, text
+ from sqlalchemy.engine import Engine
+ from loguru import logger
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -22,37 +23,44 @@ try:
 except ImportError:
     raise ImportError("无法导入config.py配置文件")
 
+ from config import settings
+ 
 class DatabaseManager:
     """数据库管理器"""
     
     def __init__(self):
         """初始化数据库管理器"""
-         self.connection = None
+         self.engine: Engine = None
         self.connect()
     
     def connect(self):
         """连接数据库"""
         try:
-             self.connection = pymysql.connect(
-                 host=config.DB_HOST,
-                 port=config.DB_PORT,
-                 user=config.DB_USER,
-                 password=config.DB_PASSWORD,
-                 database=config.DB_NAME,
-                 charset=config.DB_CHARSET,
-                 autocommit=True,
-                 cursorclass=DictCursor
-             )
-             print(f"成功连接到数据库: {config.DB_NAME}")
+             dialect = (settings.DB_DIALECT or "mysql").lower()
+             if dialect in ("postgresql", "postgres"):
+                 url = f"postgresql+psycopg://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}"
+             else:
+                 url = f"mysql+pymysql://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}?charset={settings.DB_CHARSET}"
+             self.engine = create_engine(url, future=True)
+             logger.info(f"成功连接到数据库: {settings.DB_NAME}")
+         except ModuleNotFoundError as e:
+             missing: str = str(e)
+             if "psycopg" in missing:
+                 logger.error("数据库连接失败: 未安装PostgreSQL驱动 psycopg。请安装: psycopg[binary]。参考指令：uv pip install psycopg[binary]")
+             elif "pymysql" in missing:
+                 logger.error("数据库连接失败: 未安装MySQL驱动 pymysql。请安装: pymysql。参考指令：uv pip install pymysql")
+             else:
+                 logger.error(f"数据库连接失败(缺少驱动): {e}")
+             raise
         except Exception as e:
-             print(f"数据库连接失败: {e}")
+             logger.error(f"数据库连接失败: {e}")
             raise
     
     def close(self):
         """关闭数据库连接"""
-         if self.connection:
-             self.connection.close()
-             print("数据库连接已关闭")
+         if self.engine:
+             self.engine.dispose()
+             logger.info("数据库连接已关闭")
     
     def __enter__(self):
         return self
@@ -79,48 +87,49 @@ class DatabaseManager:
         current_timestamp = int(datetime.now().timestamp())
         
         try:
-             cursor = self.connection.cursor()
-             
-             # 先删除当天所有的新闻记录（覆盖模式）
-             delete_query = "DELETE FROM daily_news WHERE crawl_date = %s"
-             deleted_count = cursor.execute(delete_query, (crawl_date,))
-             if deleted_count > 0:
-                 print(f"覆盖模式：删除了当天已有的 {deleted_count} 条新闻记录")
-             
-             # 批量插入新记录
             saved_count = 0
+             # 先独立事务执行删除，防止后续插入失败导致无法清理
+             with self.engine.begin() as conn:
+                 deleted = conn.execute(text("DELETE FROM daily_news WHERE crawl_date = :d"), {"d": crawl_date}).rowcount
+                 if deleted and deleted > 0:
+                     logger.info(f"覆盖模式：删除了当天已有的 {deleted} 条新闻记录")
+ 
+             # 逐条插入，单条失败不影响后续（每条独立事务）
             for news_item in news_data:
                 try:
-                     # 简化的新闻ID生成
                     news_id = f"{news_item.get('source', 'unknown')}_{news_item.get('id', news_item.get('rank', 0))}"
-                     
-                     # 插入新记录
-                     insert_query = """
-                         INSERT INTO daily_news (
-                             news_id, source_platform, title, url, crawl_date, 
-                             rank_position, add_ts
-                         ) VALUES (%s, %s, %s, %s, %s, %s, %s)
-                     """
-                     cursor.execute(insert_query, (
-                         news_id,
-                         news_item.get('source', 'unknown'),
-                         news_item.get('title', ''),
-                         news_item.get('url', ''),
-                         crawl_date,
-                         news_item.get('rank', None),
-                         current_timestamp
-                     ))
+                     title_val = (news_item.get("title", "") or "")
+                     if len(title_val) > 500:
+                         title_val = title_val[:500]
+                     with self.engine.begin() as conn:
+                         conn.execute(
+                             text(
+                                 """
+                                 INSERT INTO daily_news (
+                                     news_id, source_platform, title, url, crawl_date,
+                                     rank_position, add_ts, last_modify_ts
+                                 ) VALUES (:news_id, :source_platform, :title, :url, :crawl_date, :rank_position, :add_ts, :last_modify_ts)
+                                 """
+                             ),
+                             {
+                                 "news_id": news_id,
+                                 "source_platform": news_item.get("source", "unknown"),
+                                 "title": title_val,
+                                 "url": news_item.get("url", ""),
+                                 "crawl_date": crawl_date,
+                                 "rank_position": news_item.get("rank", None),
+                                 "add_ts": current_timestamp,
+                                 "last_modify_ts": current_timestamp,
+                             },
+                         )
                     saved_count += 1
-                     
                 except Exception as e:
-                     print(f"保存单条新闻失败: {e}")
+                     logger.warning(f"保存单条新闻失败: {e}")
                     continue
-             
-             print(f"成功保存 {saved_count} 条新闻记录")
+             logger.info(f"成功保存 {saved_count} 条新闻记录")
             return saved_count
-             
         except Exception as e:
-             print(f"保存新闻数据失败: {e}")
+             logger.exception(f"保存新闻数据失败: {e}")
             return 0
     
     def get_daily_news(self, crawl_date: date = None) -> List[Dict]:
@@ -136,15 +145,13 @@ class DatabaseManager:
         if not crawl_date:
             crawl_date = date.today()
         
-         query = """
-             SELECT * FROM daily_news 
-             WHERE crawl_date = %s 
-             ORDER BY rank_position ASC
-         """
-         
-         cursor = self.connection.cursor()
-         cursor.execute(query, (crawl_date,))
-         return cursor.fetchall()
+         query = (
+             "SELECT * FROM daily_news WHERE crawl_date = :d ORDER BY rank_position ASC"
+         )
+         with self.engine.connect() as conn:
+             result = conn.execute(text(query), {"d": crawl_date})
+             rows = result.mappings().all()
+         return rows
     
     # ==================== 话题数据操作 ====================
     
@@ -166,37 +173,31 @@ class DatabaseManager:
         current_timestamp = int(datetime.now().timestamp())
         
         try:
-             cursor = self.connection.cursor()
-             
-             # 检查今天是否已有记录
-             check_query = "SELECT id FROM daily_topics WHERE extract_date = %s"
-             cursor.execute(check_query, (extract_date,))
-             existing = cursor.fetchone()
-             
             keywords_json = json.dumps(keywords, ensure_ascii=False)
-             
-             if existing:
-                 # 更新现有记录
-                 update_query = """
-                     UPDATE daily_topics 
-                     SET keywords = %s, summary = %s, add_ts = %s
-                     WHERE extract_date = %s
-                 """
-                 cursor.execute(update_query, (keywords_json, summary, current_timestamp, extract_date))
-                 print(f"更新了 {extract_date} 的话题分析")
-             else:
-                 # 插入新记录
-                 insert_query = """
-                     INSERT INTO daily_topics (extract_date, keywords, summary, add_ts)
-                     VALUES (%s, %s, %s, %s)
-                 """
-                 cursor.execute(insert_query, (extract_date, keywords_json, summary, current_timestamp))
-                 print(f"保存了 {extract_date} 的话题分析")
-             
+             with self.engine.begin() as conn:
+                 check = conn.execute(
+                     text("SELECT id FROM daily_topics WHERE extract_date = :d AND topic_id = :tid"),
+                     {"d": extract_date, "tid": "summary"},
+                 ).first()
+                 if check:
+                     conn.execute(
+                         text(
+                             "UPDATE daily_topics SET keywords = :k, topic_description = :s, add_ts = :ts, last_modify_ts = :lmt, topic_name = :tn WHERE extract_date = :d AND topic_id = :tid"
+                         ),
+                         {"k": keywords_json, "s": summary, "ts": current_timestamp, "lmt": current_timestamp, "d": extract_date, "tid": "summary", "tn": "每日新闻分析"},
+                     )
+                     logger.info(f"更新了 {extract_date} 的话题分析")
+                 else:
+                     conn.execute(
+                         text(
+                             "INSERT INTO daily_topics (extract_date, topic_id, topic_name, keywords, topic_description, add_ts, last_modify_ts) VALUES (:d, :tid, :tn, :k, :s, :ts, :lmt)"
+                         ),
+                         {"d": extract_date, "tid": "summary", "tn": "每日新闻分析", "k": keywords_json, "s": summary, "ts": current_timestamp, "lmt": current_timestamp},
+                     )
+                     logger.info(f"保存了 {extract_date} 的话题分析")
             return True
-             
         except Exception as e:
-             print(f"保存话题分析失败: {e}")
+             logger.exception(f"保存话题分析失败: {e}")
             return False
     
     def get_daily_topics(self, extract_date: date = None) -> Optional[Dict]:
@@ -213,20 +214,15 @@ class DatabaseManager:
             extract_date = date.today()
         
         try:
-             cursor = self.connection.cursor()
-             query = "SELECT * FROM daily_topics WHERE extract_date = %s"
-             cursor.execute(query, (extract_date,))
-             result = cursor.fetchone()
-             
-             if result:
-                 # 解析关键词JSON
-                 result['keywords'] = json.loads(result['keywords'])
-                 return result
-             else:
+             with self.engine.connect() as conn:
+                 result = conn.execute(text("SELECT * FROM daily_topics WHERE extract_date = :d"), {"d": extract_date}).mappings().first()
+                 if result:
+                     result = dict(result)  # 转为可变dict以支持item赋值
+                     result["keywords"] = json.loads(result["keywords"]) if result.get("keywords") else []
+                     return result
                 return None
-                 
         except Exception as e:
-             print(f"获取话题分析失败: {e}")
+             logger.exception(f"获取话题分析失败: {e}")
             return None
     
     def get_recent_topics(self, days: int = 7) -> List[Dict]:
@@ -240,23 +236,23 @@ class DatabaseManager:
             话题分析列表
         """
         try:
-             cursor = self.connection.cursor()
-             query = """
-                 SELECT * FROM daily_topics 
-                 WHERE extract_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-                 ORDER BY extract_date DESC
-             """
-             cursor.execute(query, (days,))
-             results = cursor.fetchall()
-             
-             # 解析每个结果的关键词JSON
-             for result in results:
-                 result['keywords'] = json.loads(result['keywords'])
-             
-             return results
-             
+             start_date = date.today() - timedelta(days=days)
+             with self.engine.connect() as conn:
+                 results = conn.execute(
+                     text(
+                         """
+                         SELECT * FROM daily_topics 
+                         WHERE extract_date >= :start_date
+                         ORDER BY extract_date DESC
+                         """
+                     ),
+                     {"start_date": start_date},
+                 ).mappings().all()
+                 for r in results:
+                     r["keywords"] = json.loads(r["keywords"]) if r.get("keywords") else []
+                 return results
         except Exception as e:
-             print(f"获取最近话题分析失败: {e}")
+             logger.exception(f"获取最近话题分析失败: {e}")
             return []
     
     # ==================== 统计查询 ====================
@@ -264,56 +260,48 @@ class DatabaseManager:
     def get_summary_stats(self, days: int = 7) -> Dict:
         """获取统计摘要"""
         try:
-             cursor = self.connection.cursor()
-             
-             # 新闻统计
-             news_query = """
-                 SELECT 
-                     crawl_date,
-                     COUNT(*) as news_count,
-                     COUNT(DISTINCT source_platform) as platforms_count
-                 FROM daily_news 
-                 WHERE crawl_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-                 GROUP BY crawl_date
-                 ORDER BY crawl_date DESC
-             """
-             cursor.execute(news_query, (days,))
-             news_stats = cursor.fetchall()
-             
-             # 话题统计
-             topics_query = """
-                 SELECT 
-                     extract_date,
-                     keywords,
-                     CHAR_LENGTH(summary) as summary_length
-                 FROM daily_topics 
-                 WHERE extract_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-                 ORDER BY extract_date DESC
-             """
-             cursor.execute(topics_query, (days,))
-             topics_stats = cursor.fetchall()
-             
-             return {
-                 'news_stats': news_stats,
-                 'topics_stats': topics_stats
-             }
-             
+             start_date = date.today() - timedelta(days=days)
+             with self.engine.connect() as conn:
+                 news_stats = conn.execute(
+                     text(
+                         """
+                         SELECT crawl_date, COUNT(*) as news_count, COUNT(DISTINCT source_platform) as platforms_count
+                         FROM daily_news 
+                         WHERE crawl_date >= :start_date
+                         GROUP BY crawl_date
+                         ORDER BY crawl_date DESC
+                         """
+                     ),
+                     {"start_date": start_date},
+                 ).all()
+                 topics_stats = conn.execute(
+                     text(
+                         """
+                         SELECT extract_date, keywords, CHAR_LENGTH(topic_description) as summary_length
+                         FROM daily_topics 
+                         WHERE extract_date >= :start_date
+                         ORDER BY extract_date DESC
+                         """
+                     ),
+                     {"start_date": start_date},
+                 ).all()
+                 return {"news_stats": news_stats, "topics_stats": topics_stats}
         except Exception as e:
-             print(f"获取统计摘要失败: {e}")
-             return {'news_stats': [], 'topics_stats': []}
+             logger.exception(f"获取统计摘要失败: {e}")
+             return {"news_stats": [], "topics_stats": []}
 
 if __name__ == "__main__":
     # 测试数据库管理器
     with DatabaseManager() as db:
         # 测试获取新闻
         news = db.get_daily_news()
-         print(f"今日新闻数量: {len(news)}")
+         logger.info(f"今日新闻数量: {len(news)}")
         
         # 测试获取话题
         topics = db.get_daily_topics()
         if topics:
-             print(f"今日话题关键词: {topics['keywords']}")
+             logger.info(f"今日话题关键词: {topics['keywords']}")
         else:
-             print("今日暂无话题分析")
+             logger.info("今日暂无话题分析")
         
-         print("简化数据库管理器测试完成！")
+         logger.info("简化数据库管理器测试完成！")
--- a/MindSpider/BroadTopicExtraction/main.py
View file @96c7d2d
+++ b/MindSpider/BroadTopicExtraction/main.py
View file @96c7d2d
@@ -11,6 +11,7 @@ import argparse
 from datetime import datetime, date
 from pathlib import Path
 from typing import List, Dict, Optional
+ from loguru import logger
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -21,8 +22,8 @@ try:
     from BroadTopicExtraction.topic_extractor import TopicExtractor
     from BroadTopicExtraction.database_manager import DatabaseManager
 except ImportError as e:
-     print(f"导入模块失败: {e}")
-     print("请确保在项目根目录运行，并且已安装所有依赖")
+     logger.exception(f"导入模块失败: {e}")
+     logger.error("请确保在项目根目录运行，并且已安装所有依赖")
     sys.exit(1)
 
 class BroadTopicExtraction:
@@ -34,7 +35,7 @@ class BroadTopicExtraction:
         self.topic_extractor = TopicExtractor()
         self.db_manager = DatabaseManager()
         
-         print("BroadTopicExtraction 初始化完成")
+         logger.info("BroadTopicExtraction 初始化完成")
     
     def close(self):
         """关闭资源"""
@@ -68,21 +69,22 @@ class BroadTopicExtraction:
         Returns:
             包含完整提取结果的字典
         """
-         print("\n" + "=" * 80)
-         print("MindSpider AI爬虫 - 每日话题提取")
-         print("=" * 80)
-         print(f"执行时间: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
-         print(f"目标日期: {date.today()}")
+         extraction_result_message = ""
+         extraction_result_message += "\nMindSpider AI爬虫 - 每日话题提取\n"
+         extraction_result_message += f"执行时间: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n"
+         extraction_result_message += f"目标日期: {date.today()}\n"
         
         if news_sources:
-             print(f"指定平台: {len(news_sources)} 个")
+             extraction_result_message += f"指定平台: {len(news_sources)} 个\n"
             for source in news_sources:
                 source_name = SOURCE_NAMES.get(source, source)
-                 print(f"  - {source_name}")
+                 extraction_result_message += f"  - {source_name}\n"
         else:
-             print(f"爬取平台: 全部 {len(SOURCE_NAMES)} 个平台")
+             extraction_result_message += f"爬取平台: 全部 {len(SOURCE_NAMES)} 个平台\n"
         
-         print(f"关键词数: 最多 {max_keywords} 个")
+         extraction_result_message += f"关键词数: 最多 {max_keywords} 个\n"
+         
+         logger.info(extraction_result_message)
         
         extraction_result = {
             'success': False,
@@ -96,7 +98,7 @@ class BroadTopicExtraction:
         
         try:
             # 步骤1: 收集新闻
-             print("\n【步骤1】收集热点新闻...")
+             logger.info("【步骤1】收集热点新闻...")
             news_result = await self.news_collector.collect_and_save_news(
                 sources=news_sources
             )
@@ -112,7 +114,7 @@ class BroadTopicExtraction:
                 raise Exception("新闻收集失败或没有获取到新闻")
             
             # 步骤2: 提取关键词和生成总结
-             print("\n【步骤2】提取关键词和生成总结...")
+             logger.info("【步骤2】提取关键词和生成总结...")
             keywords, summary = self.topic_extractor.extract_keywords_and_summary(
                 news_result['news_list'], 
                 max_keywords=max_keywords
@@ -126,10 +128,10 @@ class BroadTopicExtraction:
             }
             
             if not keywords:
-                 print("警告: 没有提取到有效关键词")
+                 logger.warning("警告: 没有提取到有效关键词")
             
             # 步骤3: 保存到数据库
-             print("\n【步骤3】保存分析结果到数据库...")
+             logger.info("【步骤3】保存分析结果到数据库...")
             save_success = self.db_manager.save_daily_topics(
                 keywords, summary, date.today()
             )
@@ -141,56 +143,47 @@ class BroadTopicExtraction:
             extraction_result['success'] = True
             extraction_result['end_time'] = datetime.now().isoformat()
             
-             print("\n" + "=" * 80)
-             print("每日话题提取流程完成!")
-             print("=" * 80)
+             logger.info("每日话题提取流程完成!")
             
             return extraction_result
             
         except Exception as e:
-             print(f"\n话题提取流程失败: {e}")
+             logger.exception(f"话题提取流程失败: {e}")
             extraction_result['error'] = str(e)
             extraction_result['end_time'] = datetime.now().isoformat()
             return extraction_result
     
     def print_extraction_results(self, extraction_result: Dict):
         """打印提取结果"""
-         print("\n" + "=" * 80)
-         print("话题提取结果报告")
-         print("=" * 80)
-         
-         if not extraction_result['success']:
-             print(f"❌ 提取失败: {extraction_result.get('error', '未知错误')}")
-             return
+         extraction_result_message = ""
         
         # 新闻收集结果
         news_data = extraction_result.get('news_collection', {})
-         print(f"📰 新闻收集: {news_data.get('total_news', 0)} 条新闻")
-         print(f"   成功源数: {news_data.get('successful_sources', 0)}/{news_data.get('total_sources', 0)}")
+         extraction_result_message += f"\n📰 新闻收集: {news_data.get('total_news', 0)} 条新闻\n"
+         extraction_result_message += f"   成功源数: {news_data.get('successful_sources', 0)}/{news_data.get('total_sources', 0)}\n"
         
         # 话题提取结果
         topic_data = extraction_result.get('topic_extraction', {})
         keywords = topic_data.get('keywords', [])
         summary = topic_data.get('summary', '')
         
-         print(f"\n🔑 提取关键词: {len(keywords)} 个")
+         extraction_result_message += f"\n🔑 提取关键词: {len(keywords)} 个\n"
         if keywords:
             # 每行显示5个关键词
             for i in range(0, len(keywords), 5):
                 keyword_group = keywords[i:i+5]
-                 print(f"   {', '.join(keyword_group)}")
+                 extraction_result_message += f"   {', '.join(keyword_group)}\n"
         
-         print(f"\n📝 新闻总结:")
-         print(f"   {summary}")
+         extraction_result_message += f"\n📝 新闻总结:\n   {summary}\n"
         
         # 数据库保存结果
         db_data = extraction_result.get('database_save', {})
         if db_data.get('success'):
-             print(f"\n💾 数据库保存: 成功")
+             extraction_result_message += f"\n💾 数据库保存: 成功\n"
         else:
-             print(f"\n💾 数据库保存: 失败")
+             extraction_result_message += f"\n💾 数据库保存: 失败\n"
         
-         print("\n" + "=" * 80)
+         logger.info(extraction_result_message)
     
     def get_keywords_for_crawling(self, extract_date: date = None) -> List[str]:
         """
@@ -207,7 +200,7 @@ class BroadTopicExtraction:
             topics_data = self.db_manager.get_daily_topics(extract_date)
             
             if not topics_data:
-                 print(f"没有找到 {extract_date or date.today()} 的话题数据")
+                 logger.info(f"没有找到 {extract_date or date.today()} 的话题数据")
                 return []
             
             keywords = topics_data['keywords']
@@ -215,11 +208,11 @@ class BroadTopicExtraction:
             # 生成搜索关键词
             search_keywords = self.topic_extractor.get_search_keywords(keywords)
             
-             print(f"准备了 {len(search_keywords)} 个关键词用于爬取")
+             logger.info(f"准备了 {len(search_keywords)} 个关键词用于爬取")
             return search_keywords
             
         except Exception as e:
-             print(f"获取爬取关键词失败: {e}")
+             logger.error(f"获取爬取关键词失败: {e}")
             return []
     
     def get_daily_analysis(self, target_date: date = None) -> Optional[Dict]:
@@ -227,7 +220,7 @@ class BroadTopicExtraction:
         try:
             return self.db_manager.get_daily_topics(target_date)
         except Exception as e:
-             print(f"获取每日分析失败: {e}")
+             logger.error(f"获取每日分析失败: {e}")
             return None
     
     def get_recent_analysis(self, days: int = 7) -> List[Dict]:
@@ -235,7 +228,7 @@ class BroadTopicExtraction:
         try:
             return self.db_manager.get_recent_topics(days)
         except Exception as e:
-             print(f"获取最近分析失败: {e}")
+             logger.error(f"获取最近分析失败: {e}")
             return []
 
 # ==================== 命令行工具 ====================
@@ -260,17 +253,17 @@ async def run_extraction_command(sources=None, keywords_count=100, show_details=
                     news_data = result.get('news_collection', {})
                     topic_data = result.get('topic_extraction', {})
                     
-                     print(f"✅ 话题提取成功完成!")
-                     print(f"   收集新闻: {news_data.get('total_news', 0)} 条")
-                     print(f"   提取关键词: {len(topic_data.get('keywords', []))} 个")
-                     print(f"   生成总结: {len(topic_data.get('summary', ''))} 字符")
+                     logger.info(f"✅ 话题提取成功完成!")
+                     logger.info(f"   收集新闻: {news_data.get('total_news', 0)} 条")
+                     logger.info(f"   提取关键词: {len(topic_data.get('keywords', []))} 个")
+                     logger.info(f"   生成总结: {len(topic_data.get('summary', ''))} 字符")
                 
                 # 获取爬取关键词
                 crawling_keywords = extractor.get_keywords_for_crawling()
                 
                 if crawling_keywords:
-                     print(f"\n🔑 为DeepSentimentCrawling准备的搜索关键词:")
-                     print(f"   {', '.join(crawling_keywords)}")
+                     logger.info(f"\n🔑 为DeepSentimentCrawling准备的搜索关键词:")
+                     logger.info(f"   {', '.join(crawling_keywords)}")
                     
                     # 保存关键词到文件
                     keywords_file = project_root / "data" / "daily_keywords.txt"
@@ -279,16 +272,16 @@ async def run_extraction_command(sources=None, keywords_count=100, show_details=
                     with open(keywords_file, 'w', encoding='utf-8') as f:
                         f.write('\n'.join(crawling_keywords))
                     
-                     print(f"   关键词已保存到: {keywords_file}")
+                     logger.info(f"   关键词已保存到: {keywords_file}")
                 
                 return True
                 
             else:
-                 print(f"❌ 话题提取失败: {result.get('error', '未知错误')}")
+                 logger.error(f"❌ 话题提取失败: {result.get('error', '未知错误')}")
                 return False
                 
     except Exception as e:
-         print(f"❌ 执行过程中发生错误: {e}")
+         logger.error(f"❌ 执行过程中发生错误: {e}")
         return False
 
 def main():
@@ -304,14 +297,14 @@ def main():
     
     # 显示支持的新闻源
     if args.list_sources:
-         print("支持的新闻源平台:")
+         logger.info("支持的新闻源平台:")
         for source, name in SOURCE_NAMES.items():
-             print(f"  {source:<25} {name}")
+             logger.info(f"  {source:<25} {name}")
         return
     
     # 验证参数
     if args.keywords < 1 or args.keywords > 200:
-         print("关键词数量应在1-200之间")
+         logger.error("关键词数量应在1-200之间")
         sys.exit(1)
     
     # 运行提取
@@ -325,7 +318,7 @@ def main():
         sys.exit(0 if success else 1)
         
     except KeyboardInterrupt:
-         print("\n用户中断操作")
+         logger.info("用户中断操作")
         sys.exit(1)
 
 if __name__ == "__main__":
--- a/MindSpider/BroadTopicExtraction/topic_extractor.py
View file @96c7d2d
+++ b/MindSpider/BroadTopicExtraction/topic_extractor.py
View file @96c7d2d
@@ -18,19 +18,20 @@ sys.path.append(str(project_root))
 
 try:
     import config
+     from config import settings
 except ImportError:
-     raise ImportError("无法导入config.py配置文件")
+     raise ImportError("无法导入settings.py配置文件")
 
 class TopicExtractor:
     """话题提取器"""
-     
+ 
     def __init__(self):
         """初始化话题提取器"""
         self.client = OpenAI(
-             api_key=config.DEEPSEEK_API_KEY,
-             base_url="https://api.deepseek.com"
+             api_key=settings.MINDSPIDER_API_KEY,
+             base_url=settings.MINDSPIDER_BASE_URL
         )
-         self.model = "deepseek-chat"
+         self.model = settings.MINDSPIDER_MODEL_NAME
     
     def extract_keywords_and_summary(self, news_list: List[Dict], max_keywords: int = 100) -> Tuple[List[str], str]:
         """
--- a/MindSpider/DeepSentimentCrawling/keyword_manager.py
View file @96c7d2d
+++ b/MindSpider/DeepSentimentCrawling/keyword_manager.py
View file @96c7d2d
@@ -11,8 +11,8 @@ from datetime import date, timedelta, datetime
 from pathlib import Path
 from typing import List, Dict, Optional
 import random
- import pymysql
- from pymysql.cursors import DictCursor
+ from sqlalchemy import create_engine, text
+ from sqlalchemy.engine import Engine
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -23,30 +23,38 @@ try:
 except ImportError:
     raise ImportError("无法导入config.py配置文件")
 
+ from config import settings
+ from loguru import logger
+ 
 class KeywordManager:
     """关键词管理器"""
     
     def __init__(self):
         """初始化关键词管理器"""
-         self.connection = None
+         self.engine: Engine = None
         self.connect()
     
     def connect(self):
         """连接数据库"""
         try:
-             self.connection = pymysql.connect(
-                 host=config.DB_HOST,
-                 port=config.DB_PORT,
-                 user=config.DB_USER,
-                 password=config.DB_PASSWORD,
-                 database=config.DB_NAME,
-                 charset=config.DB_CHARSET,
-                 autocommit=True,
-                 cursorclass=DictCursor
-             )
-             print(f"关键词管理器成功连接到数据库: {config.DB_NAME}")
+             dialect = (settings.DB_DIALECT or "mysql").lower()
+             if dialect in ("postgresql", "postgres"):
+                 url = f"postgresql+psycopg://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}"
+             else:
+                 url = f"mysql+pymysql://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}?charset={settings.DB_CHARSET}"
+             self.engine = create_engine(url, future=True)
+             logger.info(f"关键词管理器成功连接到数据库: {settings.DB_NAME}")
+         except ModuleNotFoundError as e:
+             missing: str = str(e)
+             if "psycopg" in missing:
+                 logger.error("数据库连接失败: 未安装PostgreSQL驱动 psycopg。请安装: psycopg[binary]。参考指令：uv pip install psycopg[binary]")
+             elif "pymysql" in missing:
+                 logger.error("数据库连接失败: 未安装MySQL驱动 pymysql。请安装: pymysql。参考指令：uv pip install pymysql")
+             else:
+                 logger.error(f"数据库连接失败(缺少驱动): {e}")
+             raise
         except Exception as e:
-             print(f"关键词管理器数据库连接失败: {e}")
+             logger.exception(f"关键词管理器数据库连接失败: {e}")
             raise
     
     def get_latest_keywords(self, target_date: date = None, max_keywords: int = 100) -> List[str]:
@@ -63,24 +71,24 @@ class KeywordManager:
         if not target_date:
             target_date = date.today()
         
-         print(f"正在获取 {target_date} 的关键词...")
+         logger.info(f"正在获取 {target_date} 的关键词...")
         
         # 首先尝试获取指定日期的关键词
         topics_data = self.get_daily_topics(target_date)
         
         if topics_data and topics_data.get('keywords'):
             keywords = topics_data['keywords']
-             print(f"成功获取 {target_date} 的 {len(keywords)} 个关键词")
+             logger.info(f"成功获取 {target_date} 的 {len(keywords)} 个关键词")
             
             # 如果关键词太多，随机选择指定数量
             if len(keywords) > max_keywords:
                 keywords = random.sample(keywords, max_keywords)
-                 print(f"随机选择了 {max_keywords} 个关键词")
+                 logger.info(f"随机选择了 {max_keywords} 个关键词")
             
             return keywords
         
         # 如果没有当天的关键词，尝试获取最近几天的
-         print(f"{target_date} 没有关键词数据，尝试获取最近的关键词...")
+         logger.info(f"{target_date} 没有关键词数据，尝试获取最近的关键词...")
         recent_topics = self.get_recent_topics(days=7)
         
         if recent_topics:
@@ -95,11 +103,11 @@ class KeywordManager:
             if len(unique_keywords) > max_keywords:
                 unique_keywords = random.sample(unique_keywords, max_keywords)
             
-             print(f"从最近7天的数据中获取到 {len(unique_keywords)} 个关键词")
+             logger.info(f"从最近7天的数据中获取到 {len(unique_keywords)} 个关键词")
             return unique_keywords
         
         # 如果都没有，返回默认关键词
-         print("没有找到任何关键词数据，使用默认关键词")
+         logger.info("没有找到任何关键词数据，使用默认关键词")
         return self._get_default_keywords()
     
     def get_daily_topics(self, extract_date: date = None) -> Optional[Dict]:
@@ -116,20 +124,22 @@ class KeywordManager:
             extract_date = date.today()
         
         try:
-             cursor = self.connection.cursor()
-             query = "SELECT * FROM daily_topics WHERE extract_date = %s"
-             cursor.execute(query, (extract_date,))
-             result = cursor.fetchone()
+             with self.engine.connect() as conn:
+                 result = conn.execute(
+                     text("SELECT * FROM daily_topics WHERE extract_date = :d"),
+                     {"d": extract_date},
+                 ).mappings().first()
             
             if result:
-                 # 解析关键词JSON
-                 result['keywords'] = json.loads(result['keywords'])
+                 # 转为可变dict再赋值
+                 result = dict(result)
+                 result['keywords'] = json.loads(result['keywords']) if result.get('keywords') else []
                 return result
             else:
                 return None
                 
         except Exception as e:
-             print(f"获取话题分析失败: {e}")
+             logger.exception(f"获取话题分析失败: {e}")
             return None
     
     def get_recent_topics(self, days: int = 7) -> List[Dict]:
@@ -143,23 +153,28 @@ class KeywordManager:
             话题分析列表
         """
         try:
-             cursor = self.connection.cursor()
-             query = """
-                 SELECT * FROM daily_topics 
-                 WHERE extract_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-                 ORDER BY extract_date DESC
-             """
-             cursor.execute(query, (days,))
-             results = cursor.fetchall()
+             start_date = date.today() - timedelta(days=days)
+             with self.engine.connect() as conn:
+                 results = conn.execute(
+                     text(
+                         """
+                         SELECT * FROM daily_topics 
+                         WHERE extract_date >= :start_date
+                         ORDER BY extract_date DESC
+                         """
+                     ),
+                     {"start_date": start_date},
+                 ).mappings().all()
             
-             # 解析每个结果的关键词JSON
+             # 转为可变dict列表再处理
+             results = [dict(r) for r in results]
             for result in results:
-                 result['keywords'] = json.loads(result['keywords'])
+                 result['keywords'] = json.loads(result['keywords']) if result.get('keywords') else []
             
             return results
             
         except Exception as e:
-             print(f"获取最近话题分析失败: {e}")
+             logger.exception(f"获取最近话题分析失败: {e}")
             return []
     
     def _get_default_keywords(self) -> List[str]:
@@ -190,8 +205,8 @@ class KeywordManager:
         keywords = self.get_latest_keywords(target_date, max_keywords)
         
         if keywords:
-             print(f"为 {len(platforms)} 个平台准备了相同的 {len(keywords)} 个关键词")
-             print(f"每个关键词将在所有平台上进行爬取")
+             logger.info(f"为 {len(platforms)} 个平台准备了相同的 {len(keywords)} 个关键词")
+             logger.info(f"每个关键词将在所有平台上进行爬取")
         
         return keywords
     
@@ -210,7 +225,7 @@ class KeywordManager:
         """
         keywords = self.get_latest_keywords(target_date, max_keywords)
         
-         print(f"为平台 {platform} 准备了 {len(keywords)} 个关键词（与其他平台相同）")
+         logger.info(f"为平台 {platform} 准备了 {len(keywords)} 个关键词（与其他平台相同）")
         return keywords
     
     def _filter_keywords_by_platform(self, keywords: List[str], platform: str) -> List[str]:
@@ -290,9 +305,9 @@ class KeywordManager:
     
     def close(self):
         """关闭数据库连接"""
-         if self.connection:
-             self.connection.close()
-             print("关键词管理器数据库连接已关闭")
+         if self.engine:
+             self.engine.dispose()
+             logger.info("关键词管理器数据库连接已关闭")
     
     def __enter__(self):
         return self
@@ -305,16 +320,16 @@ if __name__ == "__main__":
     with KeywordManager() as km:
         # 测试获取关键词
         keywords = km.get_latest_keywords(max_keywords=20)
-         print(f"获取到的关键词: {keywords}")
+         logger.info(f"获取到的关键词: {keywords}")
         
         # 测试平台分配
         platforms = ['xhs', 'dy', 'bili']
         distribution = km.distribute_keywords_by_platform(keywords, platforms)
         for platform, kws in distribution.items():
-             print(f"{platform}: {kws}")
+             logger.info(f"{platform}: {kws}")
         
         # 测试爬取摘要
         summary = km.get_crawling_summary()
-         print(f"爬取摘要: {summary}")
+         logger.info(f"爬取摘要: {summary}")
         
-         print("关键词管理器测试完成！")
+         logger.info("关键词管理器测试完成！")
--- a/MindSpider/DeepSentimentCrawling/platform_crawler.py
View file @96c7d2d
+++ b/MindSpider/DeepSentimentCrawling/platform_crawler.py
View file @96c7d2d
@@ -13,6 +13,7 @@ from datetime import datetime
 from pathlib import Path
 from typing import List, Dict, Optional
 import json
+ from loguru import logger
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -36,11 +37,15 @@ class PlatformCrawler:
         if not self.mediacrawler_path.exists():
             raise FileNotFoundError(f"MediaCrawler目录不存在: {self.mediacrawler_path}")
         
-         print(f"初始化平台爬虫管理器，MediaCrawler路径: {self.mediacrawler_path}")
+         logger.info(f"初始化平台爬虫管理器，MediaCrawler路径: {self.mediacrawler_path}")
     
     def configure_mediacrawler_db(self):
-         """配置MediaCrawler使用我们的MySQL数据库"""
+         """配置MediaCrawler使用我们的数据库（MySQL或PostgreSQL）"""
         try:
+             # 判断数据库类型
+             db_dialect = (config.settings.DB_DIALECT or "mysql").lower()
+             is_postgresql = db_dialect in ("postgresql", "postgres")
+             
             # 修改MediaCrawler的数据库配置
             db_config_path = self.mediacrawler_path / "config" / "db_config.py"
             
@@ -48,7 +53,14 @@ class PlatformCrawler:
             with open(db_config_path, 'r', encoding='utf-8') as f:
                 content = f.read()
             
-             # 替换数据库配置
+             # PostgreSQL配置值：如果使用PostgreSQL则使用MindSpider配置，否则使用默认值或环境变量
+             pg_password = config.settings.DB_PASSWORD if is_postgresql else "bettafish"
+             pg_user = config.settings.DB_USER if is_postgresql else "bettafish"
+             pg_host = config.settings.DB_HOST if is_postgresql else "127.0.0.1"
+             pg_port = config.settings.DB_PORT if is_postgresql else 5432
+             pg_db_name = config.settings.DB_NAME if is_postgresql else "bettafish"
+             
+             # 替换数据库配置 - 使用MindSpider的数据库配置
             new_config = f'''# 声明：本代码仅供学习和研究目的使用。使用者应遵守以下原则：  
 # 1. 不得用于任何商业用途。  
 # 2. 使用时应遵守目标平台的使用条款和robots.txt规则。  
@@ -63,11 +75,19 @@ class PlatformCrawler:
 import os
 
 # mysql config - 使用MindSpider的数据库配置
- MYSQL_DB_PWD = "{config.DB_PASSWORD}"
- MYSQL_DB_USER = "{config.DB_USER}"
- MYSQL_DB_HOST = "{config.DB_HOST}"
- MYSQL_DB_PORT = {config.DB_PORT}
- MYSQL_DB_NAME = "{config.DB_NAME}"
+ MYSQL_DB_PWD = "{config.settings.DB_PASSWORD}"
+ MYSQL_DB_USER = "{config.settings.DB_USER}"
+ MYSQL_DB_HOST = "{config.settings.DB_HOST}"
+ MYSQL_DB_PORT = {config.settings.DB_PORT}
+ MYSQL_DB_NAME = "{config.settings.DB_NAME}"
+ 
+ mysql_db_config = {{
+     "user": MYSQL_DB_USER,
+     "password": MYSQL_DB_PWD,
+     "host": MYSQL_DB_HOST,
+     "port": MYSQL_DB_PORT,
+     "db_name": MYSQL_DB_NAME,
+ }}
 
 
 # redis config
@@ -81,17 +101,39 @@ CACHE_TYPE_REDIS = "redis"
 CACHE_TYPE_MEMORY = "memory"
 
 # sqlite config
- SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schema", "sqlite_tables.db")'''
+ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "database", "sqlite_tables.db")
+ 
+ sqlite_db_config = {{
+     "db_path": SQLITE_DB_PATH
+ }}
+ 
+ # postgresql config - 使用MindSpider的数据库配置（如果DB_DIALECT是postgresql）或环境变量
+ POSTGRESQL_DB_PWD = os.getenv("POSTGRESQL_DB_PWD", "{pg_password}")
+ POSTGRESQL_DB_USER = os.getenv("POSTGRESQL_DB_USER", "{pg_user}")
+ POSTGRESQL_DB_HOST = os.getenv("POSTGRESQL_DB_HOST", "{pg_host}")
+ POSTGRESQL_DB_PORT = os.getenv("POSTGRESQL_DB_PORT", "{pg_port}")
+ POSTGRESQL_DB_NAME = os.getenv("POSTGRESQL_DB_NAME", "{pg_db_name}")
+ 
+ postgresql_db_config = {{
+     "user": POSTGRESQL_DB_USER,
+     "password": POSTGRESQL_DB_PWD,
+     "host": POSTGRESQL_DB_HOST,
+     "port": POSTGRESQL_DB_PORT,
+     "db_name": POSTGRESQL_DB_NAME,
+ }}
+ 
+ '''
             
             # 写入新配置
             with open(db_config_path, 'w', encoding='utf-8') as f:
                 f.write(new_config)
             
-             print("已配置MediaCrawler使用MindSpider数据库")
+             db_type = "PostgreSQL" if is_postgresql else "MySQL"
+             logger.info(f"已配置MediaCrawler使用MindSpider {db_type}数据库")
             return True
             
         except Exception as e:
-             print(f"配置MediaCrawler数据库失败: {e}")
+             logger.exception(f"配置MediaCrawler数据库失败: {e}")
             return False
     
     def create_base_config(self, platform: str, keywords: List[str], 
@@ -109,6 +151,11 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
             是否配置成功
         """
         try:
+             # 判断数据库类型，确定 SAVE_DATA_OPTION
+             db_dialect = (config.settings.DB_DIALECT or "mysql").lower()
+             is_postgresql = db_dialect in ("postgresql", "postgres")
+             save_data_option = "postgresql" if is_postgresql else "db"
+             
             base_config_path = self.mediacrawler_path / "config" / "base_config.py"
             
             # 将关键词列表转换为逗号分隔的字符串
@@ -130,7 +177,7 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
                 elif line.startswith('CRAWLER_TYPE = '):
                     new_lines.append(f'CRAWLER_TYPE = "{crawler_type}"  # 爬取类型，search(关键词搜索) | detail(帖子详情)| creator(创作者主页数据)')
                 elif line.startswith('SAVE_DATA_OPTION = '):
-                     new_lines.append('SAVE_DATA_OPTION = "db"  # csv or db or json or sqlite')
+                     new_lines.append(f'SAVE_DATA_OPTION = "{save_data_option}"  # csv or db or json or sqlite or postgresql')
                 elif line.startswith('CRAWLER_MAX_NOTES_COUNT = '):
                     new_lines.append(f'CRAWLER_MAX_NOTES_COUNT = {max_notes}')
                 elif line.startswith('ENABLE_GET_COMMENTS = '):
@@ -146,11 +193,11 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
             with open(base_config_path, 'w', encoding='utf-8') as f:
                 f.write('\n'.join(new_lines))
             
-             print(f"已配置 {platform} 平台，关键词数量: {len(keywords)}")
+             logger.info(f"已配置 {platform} 平台，爬取类型: {crawler_type}，关键词数量: {len(keywords)}，最大爬取数量: {max_notes}，保存数据方式: {save_data_option}")
             return True
             
         except Exception as e:
-             print(f"创建基础配置失败: {e}")
+             logger.exception(f"创建基础配置失败: {e}")
             return False
     
     def run_crawler(self, platform: str, keywords: List[str], 
@@ -173,8 +220,9 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
         if not keywords:
             raise ValueError("关键词列表不能为空")
         
-         print(f"\n开始爬取平台: {platform}")
-         print(f"关键词: {keywords[:5]}{'...' if len(keywords) > 5 else ''} (共{len(keywords)}个)")
+         start_message = f"\n开始爬取平台: {platform}"
+         start_message += f"\n关键词: {keywords[:5]}{'...' if len(keywords) > 5 else ''} (共{len(keywords)}个)"
+         logger.info(start_message)
         
         start_time = datetime.now()
         
@@ -187,22 +235,27 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
             if not self.create_base_config(platform, keywords, "search", max_notes):
                 return {"success": False, "error": "基础配置创建失败"}
             
+             # 判断数据库类型，确定 save_data_option
+             db_dialect = (config.settings.DB_DIALECT or "mysql").lower()
+             is_postgresql = db_dialect in ("postgresql", "postgres")
+             save_data_option = "postgresql" if is_postgresql else "db"
+             
             # 构建命令
             cmd = [
                 sys.executable, "main.py",
                 "--platform", platform,
                 "--lt", login_type,
                 "--type", "search",
-                 "--save_data_option", "db"
+                 "--save_data_option", save_data_option
             ]
             
-             print(f"执行命令: {' '.join(cmd)}")
+             logger.info(f"执行命令: {' '.join(cmd)}")
             
             # 切换到MediaCrawler目录并执行
             result = subprocess.run(
                 cmd,
                 cwd=self.mediacrawler_path,
-                 timeout=1800  # 30分钟超时
+                 timeout=3600  # 60分钟超时
             )
             
             end_time = datetime.now()
@@ -226,17 +279,17 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
             self.crawl_stats[platform] = crawl_stats
             
             if result.returncode == 0:
-                 print(f"✅ {platform} 爬取完成，耗时: {duration:.1f}秒")
+                 logger.info(f"✅ {platform} 爬取完成，耗时: {duration:.1f}秒")
             else:
-                 print(f"❌ {platform} 爬取失败，返回码: {result.returncode}")
+                 logger.error(f"❌ {platform} 爬取失败，返回码: {result.returncode}")
             
             return crawl_stats
             
         except subprocess.TimeoutExpired:
-             print(f"❌ {platform} 爬取超时")
+             logger.exception(f"❌ {platform} 爬取超时")
             return {"success": False, "error": "爬取超时", "platform": platform}
         except Exception as e:
-             print(f"❌ {platform} 爬取异常: {e}")
+             logger.exception(f"❌ {platform} 爬取异常: {e}")
             return {"success": False, "error": str(e), "platform": platform}
     
     def _parse_crawl_output(self, output_lines: List[str], error_lines: List[str]) -> Dict:
@@ -291,10 +344,14 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
         Returns:
             总体爬取统计
         """
-         print(f"\n🚀 开始全平台关键词爬取")
-         print(f"   关键词数量: {len(keywords)}")
-         print(f"   平台数量: {len(platforms)}")
-         print(f"   总爬取任务: {len(keywords)} × {len(platforms)} = {len(keywords) * len(platforms)}")
+         
+         start_message = f"\n🚀 开始全平台关键词爬取"
+         start_message += f"\n   关键词数量: {len(keywords)}"
+         start_message += f"\n   平台数量: {len(platforms)}"
+         start_message += f"\n   登录方式: {login_type}"
+         start_message += f"\n   每个关键词在每个平台的最大爬取数量: {max_notes_per_keyword}"
+         start_message += f"\n   总爬取任务: {len(keywords)} × {len(platforms)} = {len(keywords) * len(platforms)}"
+         logger.info(start_message)
         
         total_stats = {
             "total_keywords": len(keywords),
@@ -319,8 +376,8 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
         
         # 对每个平台一次性爬取所有关键词
         for platform in platforms:
-             print(f"\n📝 在 {platform} 平台爬取所有关键词")
-             print(f"   关键词: {', '.join(keywords[:5])}{'...' if len(keywords) > 5 else ''}")
+             logger.info(f"\n📝 在 {platform} 平台爬取所有关键词")
+             logger.info(f"   关键词: {', '.join(keywords[:5])}{'...' if len(keywords) > 5 else ''}")
             
             try:
                 # 一次性传递所有关键词给平台
@@ -344,7 +401,7 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
                             total_stats["keyword_results"][keyword] = {}
                         total_stats["keyword_results"][keyword][platform] = result
                     
-                     print(f"   ✅ 成功: {notes_count} 条内容, {comments_count} 条评论")
+                     logger.info(f"   ✅ 成功: {notes_count} 条内容, {comments_count} 条评论")
                 else:
                     total_stats["failed_tasks"] += len(keywords)
                     total_stats["platform_summary"][platform]["failed_keywords"] = len(keywords)
@@ -355,7 +412,7 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
                             total_stats["keyword_results"][keyword] = {}
                         total_stats["keyword_results"][keyword][platform] = result
                     
-                     print(f"   ❌ 失败: {result.get('error', '未知错误')}")
+                     logger.error(f"   ❌ 失败: {result.get('error', '未知错误')}")
             
             except Exception as e:
                 total_stats["failed_tasks"] += len(keywords)
@@ -368,22 +425,24 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
                         total_stats["keyword_results"][keyword] = {}
                     total_stats["keyword_results"][keyword][platform] = error_result
                 
-                 print(f"   ❌ 异常: {e}")
+                 logger.error(f"   ❌ 异常: {e}")
         
         # 打印详细统计
-         print(f"\n📊 全平台关键词爬取完成!")
-         print(f"   总任务: {total_stats['total_tasks']}")
-         print(f"   成功: {total_stats['successful_tasks']}")
-         print(f"   失败: {total_stats['failed_tasks']}")
-         print(f"   成功率: {total_stats['successful_tasks']/total_stats['total_tasks']*100:.1f}%")
-         print(f"   总内容: {total_stats['total_notes']} 条")
-         print(f"   总评论: {total_stats['total_comments']} 条")
+         finish_message = f"\n📊 全平台关键词爬取完成!"
+         finish_message += f"\n   总任务: {total_stats['total_tasks']}"
+         finish_message += f"\n   成功: {total_stats['successful_tasks']}"
+         finish_message += f"\n   失败: {total_stats['failed_tasks']}"
+         finish_message += f"\n   成功率: {total_stats['successful_tasks']/total_stats['total_tasks']*100:.1f}%"
+         finish_message += f"\n   总内容: {total_stats['total_notes']} 条"
+         finish_message += f"\n   总评论: {total_stats['total_comments']} 条"
+         logger.info(finish_message)
         
-         print(f"\n📈 各平台统计:")
+         platform_summary_message = f"\n� 各平台统计:"
         for platform, stats in total_stats["platform_summary"].items():
             success_rate = stats["successful_keywords"] / len(keywords) * 100 if keywords else 0
-             print(f"   {platform}: {stats['successful_keywords']}/{len(keywords)} 关键词成功 ({success_rate:.1f}%), "
-                   f"{stats['total_notes']} 条内容")
+             platform_summary_message += f"\n   {platform}: {stats['successful_keywords']}/{len(keywords)} 关键词成功 ({success_rate:.1f}%), "
+             platform_summary_message += f"{stats['total_notes']} 条内容"
+         logger.info(platform_summary_message)
         
         return total_stats
     
@@ -403,9 +462,9 @@ SQLITE_DB_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "schem
         try:
             with open(log_path, 'w', encoding='utf-8') as f:
                 json.dump(self.crawl_stats, f, ensure_ascii=False, indent=2)
-             print(f"爬取日志已保存到: {log_path}")
+             logger.info(f"爬取日志已保存到: {log_path}")
         except Exception as e:
-             print(f"保存爬取日志失败: {e}")
+             logger.exception(f"保存爬取日志失败: {e}")
 
 if __name__ == "__main__":
     # 测试平台爬虫管理器
@@ -415,5 +474,5 @@ if __name__ == "__main__":
     test_keywords = ["科技", "AI", "编程"]
     result = crawler.run_crawler("xhs", test_keywords, max_notes=5)
     
-     print(f"测试结果: {result}")
-     print("平台爬虫管理器测试完成！")
+     logger.info(f"测试结果: {result}")
+     logger.info("平台爬虫管理器测试完成！")
--- a/MindSpider/README.md
View file @96c7d2d
+++ b/MindSpider/README.md
View file @96c7d2d
@@ -217,26 +217,54 @@ git clone https://github.com/yourusername/MindSpider.git
 cd MindSpider
 ```
 
- ### 2. 创建并激活Conda环境
+ ### 2. 创建并激活环境
+ 
+ #### Conda配置方法
+ 
+ #### Conda配置方法
 
 ```bash
+ # 创建名为 pytorch_python11 的conda环境并指定Python版本
 conda create -n pytorch_python11 python=3.11
+ # 激活该环境
 conda activate pytorch_python11
 ```
 
+ #### UV配置方法
+ 
+ > [UV 是一种快速轻量级 Python 包环境管理工具，适用于低依赖及便捷管理需求。可参考：https://github.com/astral-sh/uv]
+ 
+ - 安装uv（如未安装）
+ ```bash
+ pip install uv
+ ```
+ - 创建虚拟环境并激活
+ ```bash
+ uv venv --python 3.11 # 创建3.11环境
+ source .venv/bin/activate   # Linux/macOS
+ # 或
+ .venv\Scripts\activate      # Windows
+ ```
+ 
+ 
 ### 3. 安装依赖
 
 ```bash
 # 安装Python依赖
 pip install -r requirements.txt
 
+ 或
+ # uv版本更加快速
+ uv pip install -r requirements.txt
+ 
+ 
 # 安装Playwright浏览器驱动
 playwright install
 ```
 
 ### 4. 配置系统
 
- 编辑 `config.py` 文件，设置数据库和API配置：
+ 复制.env.example文件为.env文件，放置在项目根目录。编辑 `.env` 文件，设置数据库和API配置：
 
 ```python
 # MySQL数据库配置
@@ -248,7 +276,9 @@ DB_NAME = "mindspider"
 DB_CHARSET = "utf8mb4"
 
 # DeepSeek API密钥
- DEEPSEEK_API_KEY = "your_deepseek_api_key"
+ MINDSPIDER_BASE_URL=your_api_base_url
+ MINDSPIDER_API_KEY=sk-your-key
+ MINDSPIDER_MODEL_NAME=deepseek-chat
 ```
 
 ### 5. 初始化系统
@@ -418,6 +448,11 @@ python main.py --status
 ```bash
 # 重新安装
 pip install playwright
+ 
+ 或
+ 
+ uv pip install playwright
+ 
 playwright install
 ```
 
--- a/MindSpider/config.py
View file @96c7d2d
+++ b/MindSpider/config.py
View file @96c7d2d
@@ -3,13 +3,33 @@
 存储数据库连接信息和API密钥
 """
 
- # MySQL数据库配置
- DB_HOST = "your_host"
- DB_PORT = 3306
- DB_USER = "your_username"
- DB_PASSWORD = "your_password"
- DB_NAME = "mindspider"
- DB_CHARSET = "utf8mb4"
- 
- # DeepSeek API密钥
- DEEPSEEK_API_KEY = "your_deepseek_api_key"
+ from pydantic_settings import BaseSettings
+ from typing import Optional
+ from pydantic import Field
+ from pathlib import Path
+ 
+ # 计算 .env 优先级：优先当前工作目录，其次项目根目录（MindSpider 的上级目录）
+ PROJECT_ROOT: Path = Path(__file__).resolve().parents[1]
+ CWD_ENV: Path = Path.cwd() / ".env"
+ ENV_FILE: str = str(CWD_ENV if CWD_ENV.exists() else (PROJECT_ROOT / ".env"))
+ 
+ class Settings(BaseSettings):
+     """全局配置管理，优先从环境变量和.env加载。支持MySQL/PostgreSQL统一数据库参数命名。"""
+     DB_DIALECT: str = Field("mysql", description="数据库类型，支持'mysql'或'postgresql'")
+     DB_HOST: str = Field("your_host", description="数据库主机名或IP地址")
+     DB_PORT: int = Field(3306, description="数据库端口号")
+     DB_USER: str = Field("your_username", description="数据库用户名")
+     DB_PASSWORD: str = Field("your_password", description="数据库密码")
+     DB_NAME: str = Field("mindspider", description="数据库名称")
+     DB_CHARSET: str = Field("utf8mb4", description="数据库字符集")
+     MINDSPIDER_API_KEY: Optional[str] = Field(None, description="MINDSPIDER API密钥")
+     MINDSPIDER_BASE_URL: Optional[str] = Field("https://api.deepseek.com", description="MINDSPIDER API基础URL，推荐deepseek-chat模型使用https://api.deepseek.com")
+     MINDSPIDER_MODEL_NAME: Optional[str] = Field("deepseek-chat", description="MINDSPIDER API模型名称, 推荐deepseek-chat")
+ 
+     class Config:
+         env_file = ENV_FILE
+         env_prefix = ""
+         case_sensitive = False
+         extra = "allow"
+ 
+ settings = Settings()
--- a/MindSpider/main.py
View file @96c7d2d
+++ b/MindSpider/main.py
View file @96c7d2d
@@ -11,8 +11,13 @@ import argparse
 from datetime import date, datetime
 from pathlib import Path
 import subprocess
+ import asyncio
 import pymysql
 from pymysql.cursors import DictCursor
+ from sqlalchemy.ext.asyncio import create_async_engine, AsyncEngine
+ from sqlalchemy import inspect, text
+ from config import settings
+ from loguru import logger
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent
@@ -21,8 +26,8 @@ sys.path.append(str(project_root))
 try:
     import config
 except ImportError:
-     print("错误：无法导入config.py配置文件")
-     print("请确保项目根目录下存在config.py文件，并包含数据库和API配置信息")
+     logger.error("错误：无法导入config.py配置文件")
+     logger.error("请确保项目根目录下存在config.py文件，并包含数据库和API配置信息")
     sys.exit(1)
 
 class MindSpider:
@@ -35,99 +40,110 @@ class MindSpider:
         self.deep_sentiment_path = self.project_root / "DeepSentimentCrawling"
         self.schema_path = self.project_root / "schema"
         
-         print("MindSpider AI爬虫项目")
-         print(f"项目路径: {self.project_root}")
+         logger.info("MindSpider AI爬虫项目")
+         logger.info(f"项目路径: {self.project_root}")
     
     def check_config(self) -> bool:
         """检查基础配置"""
-         print("\n检查基础配置...")
+         logger.info("检查基础配置...")
         
-         # 检查config.py配置项
+         # 检查settings配置项
         required_configs = [
             'DB_HOST', 'DB_PORT', 'DB_USER', 'DB_PASSWORD', 'DB_NAME', 'DB_CHARSET',
-             'DEEPSEEK_API_KEY'
+             'MINDSPIDER_API_KEY', 'MINDSPIDER_BASE_URL', 'MINDSPIDER_MODEL_NAME'
         ]
         
         missing_configs = []
         for config_name in required_configs:
-             if not hasattr(config, config_name) or not getattr(config, config_name):
+             if not hasattr(settings, config_name) or not getattr(settings, config_name):
                 missing_configs.append(config_name)
         
         if missing_configs:
-             print(f"配置缺失: {', '.join(missing_configs)}")
-             print("请检查config.py文件中的配置信息")
+             logger.error(f"配置缺失: {', '.join(missing_configs)}")
+             logger.error("请检查config.py文件中的配置信息")
             return False
         
-         print("基础配置检查通过")
+         logger.info("基础配置检查通过")
         return True
     
     def check_database_connection(self) -> bool:
         """检查数据库连接"""
-         print("\n检查数据库连接...")
-         
-         try:
-             connection = pymysql.connect(
-                 host=config.DB_HOST,
-                 port=config.DB_PORT,
-                 user=config.DB_USER,
-                 password=config.DB_PASSWORD,
-                 database=config.DB_NAME,
-                 charset=config.DB_CHARSET,
-                 cursorclass=DictCursor
+         logger.info("检查数据库连接...")
+         
+         def build_async_url() -> str:
+             dialect = (settings.DB_DIALECT or "mysql").lower()
+             if dialect == "postgresql":
+                 return f"postgresql+asyncpg://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}"
+             # 默认使用 mysql 异步驱动 asyncmy
+             return (
+                 f"mysql+asyncmy://{settings.DB_USER}:{settings.DB_PASSWORD}"
+                 f"@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}?charset={settings.DB_CHARSET}"
             )
-             connection.close()
-             print("数据库连接正常")
+ 
+         async def _test_connection(db_url: str) -> None:
+             engine: AsyncEngine = create_async_engine(db_url, pool_pre_ping=True)
+             try:
+                 async with engine.connect() as conn:
+                     await conn.execute(text("SELECT 1"))
+             finally:
+                 await engine.dispose()
+ 
+         try:
+             db_url: str = build_async_url()
+             asyncio.run(_test_connection(db_url))
+             logger.info("数据库连接正常")
             return True
         except Exception as e:
-             print(f"数据库连接失败: {e}")
+             logger.exception(f"数据库连接失败: {e}")
             return False
     
     def check_database_tables(self) -> bool:
         """检查数据库表是否存在"""
-         print("\n检查数据库表...")
-         
-         try:
-             connection = pymysql.connect(
-                 host=config.DB_HOST,
-                 port=config.DB_PORT,
-                 user=config.DB_USER,
-                 password=config.DB_PASSWORD,
-                 database=config.DB_NAME,
-                 charset=config.DB_CHARSET,
-                 cursorclass=DictCursor
+         logger.info("检查数据库表...")
+         
+         def build_async_url() -> str:
+             dialect = (settings.DB_DIALECT or "mysql").lower()
+             if dialect == "postgresql":
+                 return f"postgresql+asyncpg://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}"
+             return (
+                 f"mysql+asyncmy://{settings.DB_USER}:{settings.DB_PASSWORD}"
+                 f"@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}?charset={settings.DB_CHARSET}"
             )
-             
-             cursor = connection.cursor()
-             
-             # 检查核心表是否存在
+ 
+         async def _check_tables(db_url: str) -> list[str]:
+             engine: AsyncEngine = create_async_engine(db_url, pool_pre_ping=True)
+             try:
+                 async with engine.connect() as conn:
+                     def _get_tables(sync_conn):
+                         return inspect(sync_conn).get_table_names()
+                     tables = await conn.run_sync(_get_tables)
+                     return tables
+             finally:
+                 await engine.dispose()
+ 
+         try:
+             db_url: str = build_async_url()
+             existing_tables = asyncio.run(_check_tables(db_url))
             required_tables = ['daily_news', 'daily_topics']
-             cursor.execute("SHOW TABLES")
-             existing_tables = [row[f'Tables_in_{config.DB_NAME}'] for row in cursor.fetchall()]
-             
-             missing_tables = [table for table in required_tables if table not in existing_tables]
-             
-             connection.close()
-             
+             missing_tables = [t for t in required_tables if t not in existing_tables]
             if missing_tables:
-                 print(f"缺少数据库表: {', '.join(missing_tables)}")
+                 logger.error(f"缺少数据库表: {', '.join(missing_tables)}")
                 return False
-             else:
-                 print("数据库表检查通过")
-                 return True
-                 
+             logger.info("数据库表检查通过")
+             return True
         except Exception as e:
-             print(f"检查数据库表失败: {e}")
+             logger.exception(f"检查数据库表失败: {e}")
             return False
     
     def initialize_database(self) -> bool:
         """初始化数据库"""
-         print("\n初始化数据库...")
+         logger.info("初始化数据库...")
         
         try:
             # 运行数据库初始化脚本
             init_script = self.schema_path / "init_database.py"
             if not init_script.exists():
-                 print("错误：找不到数据库初始化脚本")
+                 logger.error("错误：找不到数据库初始化脚本")
                 return False
             
             result = subprocess.run(
@@ -138,19 +154,19 @@ class MindSpider:
             )
             
             if result.returncode == 0:
-                 print("数据库初始化成功")
+                 logger.info("数据库初始化成功")
                 return True
             else:
-                 print(f"数据库初始化失败: {result.stderr}")
+                 logger.error(f"数据库初始化失败: {result.stderr}")
                 return False
                 
         except Exception as e:
-             print(f"数据库初始化异常: {e}")
+             logger.exception(f"数据库初始化异常: {e}")
             return False
     
     def check_dependencies(self) -> bool:
         """检查依赖环境"""
-         print("\n检查依赖环境...")
+         logger.info("检查依赖环境...")
         
         # 检查Python包
         required_packages = ['pymysql', 'requests', 'playwright']
@@ -163,22 +179,22 @@ class MindSpider:
                 missing_packages.append(package)
         
         if missing_packages:
-             print(f"缺少Python包: {', '.join(missing_packages)}")
-             print("请运行: pip install -r requirements.txt")
+             logger.error(f"缺少Python包: {', '.join(missing_packages)}")
+             logger.info("请运行: pip install -r requirements.txt")
             return False
         
         # 检查MediaCrawler依赖
         mediacrawler_path = self.deep_sentiment_path / "MediaCrawler"
         if not mediacrawler_path.exists():
-             print("错误：找不到MediaCrawler目录")
+             logger.error("错误：找不到MediaCrawler目录")
             return False
         
-         print("依赖环境检查通过")
+         logger.info("依赖环境检查通过")
         return True
     
     def run_broad_topic_extraction(self, extract_date: date = None, keywords_count: int = 100) -> bool:
         """运行BroadTopicExtraction模块"""
-         print(f"\n运行BroadTopicExtraction模块...")
+         logger.info("运行BroadTopicExtraction模块...")
         
         if not extract_date:
             extract_date = date.today()
@@ -186,11 +202,10 @@ class MindSpider:
         try:
             cmd = [
                 sys.executable, "main.py",
-                 "--date", extract_date.strftime("%Y-%m-%d"),
                 "--keywords", str(keywords_count)
             ]
             
-             print(f"执行命令: {' '.join(cmd)}")
+             logger.info(f"执行命令: {' '.join(cmd)}")
             
             result = subprocess.run(
                 cmd,
@@ -199,24 +214,24 @@ class MindSpider:
             )
             
             if result.returncode == 0:
-                 print("BroadTopicExtraction模块执行成功")
+                 logger.info("BroadTopicExtraction模块执行成功")
                 return True
             else:
-                 print(f"BroadTopicExtraction模块执行失败，返回码: {result.returncode}")
+                 logger.error(f"BroadTopicExtraction模块执行失败，返回码: {result.returncode}")
                 return False
                 
         except subprocess.TimeoutExpired:
-             print("BroadTopicExtraction模块执行超时")
+             logger.error("BroadTopicExtraction模块执行超时")
             return False
         except Exception as e:
-             print(f"BroadTopicExtraction模块执行异常: {e}")
+             logger.exception(f"BroadTopicExtraction模块执行异常: {e}")
             return False
     
     def run_deep_sentiment_crawling(self, target_date: date = None, platforms: list = None,
                                    max_keywords: int = 50, max_notes: int = 50,
                                    test_mode: bool = False) -> bool:
         """运行DeepSentimentCrawling模块"""
-         print(f"\n运行DeepSentimentCrawling模块...")
+         logger.info("运行DeepSentimentCrawling模块...")
         
         if not target_date:
             target_date = date.today()
@@ -238,7 +253,7 @@ class MindSpider:
             if test_mode:
                 cmd.append("--test")
             
-             print(f"执行命令: {' '.join(cmd)}")
+             logger.info(f"执行命令: {' '.join(cmd)}")
             
             result = subprocess.run(
                 cmd,
@@ -247,78 +262,78 @@ class MindSpider:
             )
             
             if result.returncode == 0:
-                 print("DeepSentimentCrawling模块执行成功")
+                 logger.info("DeepSentimentCrawling模块执行成功")
                 return True
             else:
-                 print(f"DeepSentimentCrawling模块执行失败，返回码: {result.returncode}")
+                 logger.error(f"DeepSentimentCrawling模块执行失败，返回码: {result.returncode}")
                 return False
                 
         except subprocess.TimeoutExpired:
-             print("DeepSentimentCrawling模块执行超时")
+             logger.error("DeepSentimentCrawling模块执行超时")
             return False
         except Exception as e:
-             print(f"DeepSentimentCrawling模块执行异常: {e}")
+             logger.exception(f"DeepSentimentCrawling模块执行异常: {e}")
             return False
     
     def run_complete_workflow(self, target_date: date = None, platforms: list = None,
                              keywords_count: int = 100, max_keywords: int = 50,
                              max_notes: int = 50, test_mode: bool = False) -> bool:
         """运行完整工作流程"""
-         print(f"\n开始完整的MindSpider工作流程")
+         logger.info("开始完整的MindSpider工作流程")
         
         if not target_date:
             target_date = date.today()
         
-         print(f"目标日期: {target_date}")
-         print(f"平台列表: {platforms if platforms else '所有支持的平台'}")
-         print(f"测试模式: {'是' if test_mode else '否'}")
+         logger.info(f"目标日期: {target_date}")
+         logger.info(f"平台列表: {platforms if platforms else '所有支持的平台'}")
+         logger.info(f"测试模式: {'是' if test_mode else '否'}")
         
         # 第一步：运行话题提取
-         print(f"\n=== 第一步：话题提取 ===")
+         logger.info("=== 第一步：话题提取 ===")
         if not self.run_broad_topic_extraction(target_date, keywords_count):
-             print("话题提取失败，终止流程")
+             logger.error("话题提取失败，终止流程")
             return False
         
         # 第二步：运行情感爬取
-         print(f"\n=== 第二步：情感爬取 ===")
+         logger.info("=== 第二步：情感爬取 ===")
         if not self.run_deep_sentiment_crawling(target_date, platforms, max_keywords, max_notes, test_mode):
-             print("情感爬取失败，但话题提取已完成")
+             logger.error("情感爬取失败，但话题提取已完成")
             return False
         
-         print(f"\n完整工作流程执行成功！")
+         logger.info("完整工作流程执行成功！")
         return True
     
     def show_status(self):
         """显示项目状态"""
-         print(f"\nMindSpider项目状态:")
-         print(f"项目路径: {self.project_root}")
+         logger.info("MindSpider项目状态:")
+         logger.info(f"项目路径: {self.project_root}")
         
         # 配置状态
         config_ok = self.check_config()
-         print(f"配置状态: {'正常' if config_ok else '异常'}")
+         logger.info(f"配置状态: {'正常' if config_ok else '异常'}")
         
         # 数据库状态
         if config_ok:
             db_conn_ok = self.check_database_connection()
-             print(f"数据库连接: {'正常' if db_conn_ok else '异常'}")
+             logger.info(f"数据库连接: {'正常' if db_conn_ok else '异常'}")
             
             if db_conn_ok:
                 db_tables_ok = self.check_database_tables()
-                 print(f"数据库表: {'正常' if db_tables_ok else '需要初始化'}")
+                 logger.info(f"数据库表: {'正常' if db_tables_ok else '需要初始化'}")
         
         # 依赖状态
         deps_ok = self.check_dependencies()
-         print(f"依赖环境: {'正常' if deps_ok else '异常'}")
+         logger.info(f"依赖环境: {'正常' if deps_ok else '异常'}")
         
         # 模块状态
         broad_topic_exists = self.broad_topic_path.exists()
         deep_sentiment_exists = self.deep_sentiment_path.exists()
-         print(f"BroadTopicExtraction模块: {'存在' if broad_topic_exists else '缺失'}")
-         print(f"DeepSentimentCrawling模块: {'存在' if deep_sentiment_exists else '缺失'}")
+         logger.info(f"BroadTopicExtraction模块: {'存在' if broad_topic_exists else '缺失'}")
+         logger.info(f"DeepSentimentCrawling模块: {'存在' if deep_sentiment_exists else '缺失'}")
     
     def setup_project(self) -> bool:
         """项目初始化设置"""
-         print(f"\n开始MindSpider项目初始化...")
+         logger.info("开始MindSpider项目初始化...")
         
         # 1. 检查配置
         if not self.check_config():
@@ -334,11 +349,11 @@ class MindSpider:
         
         # 4. 检查并初始化数据库表
         if not self.check_database_tables():
-             print("需要初始化数据库表...")
+             logger.info("需要初始化数据库表...")
             if not self.initialize_database():
                 return False
         
-         print(f"\nMindSpider项目初始化完成！")
+         logger.info("MindSpider项目初始化完成！")
         return True
 
 def main():
@@ -373,7 +388,7 @@ def main():
         try:
             target_date = datetime.strptime(args.date, "%Y-%m-%d").date()
         except ValueError:
-             print("错误：日期格式不正确，请使用 YYYY-MM-DD 格式")
+             logger.error("错误：日期格式不正确，请使用 YYYY-MM-DD 格式")
             return
     
     # 创建MindSpider实例
@@ -388,17 +403,17 @@ def main():
         # 项目设置
         if args.setup:
             if spider.setup_project():
-                 print("项目设置完成，可以开始使用MindSpider！")
+                 logger.info("项目设置完成，可以开始使用MindSpider！")
             else:
-                 print("项目设置失败，请检查配置和环境")
+                 logger.error("项目设置失败，请检查配置和环境")
             return
         
         # 初始化数据库
         if args.init_db:
             if spider.initialize_database():
-                 print("数据库初始化成功")
+                 logger.info("数据库初始化成功")
             else:
-                 print("数据库初始化失败")
+                 logger.error("数据库初始化失败")
             return
         
         # 运行模块
@@ -415,16 +430,16 @@ def main():
             )
         else:
             # 默认运行完整工作流程
-             print("运行完整MindSpider工作流程...")
+             logger.info("运行完整MindSpider工作流程...")
             spider.run_complete_workflow(
                 target_date, args.platforms, args.keywords_count,
                 args.max_keywords, args.max_notes, args.test
             )
     
     except KeyboardInterrupt:
-         print("\n用户中断操作")
+         logger.info("用户中断操作")
     except Exception as e:
-         print(f"\n执行出错: {e}")
+         logger.exception(f"执行出错: {e}")
 
 if __name__ == "__main__":
     main()
--- a/MindSpider/requirements.txt
View file @96c7d2d
+++ b/MindSpider/requirements.txt
View file @96c7d2d
@@ -7,6 +7,8 @@
 pymysql==1.1.0
 aiomysql==0.2.0
 aiosqlite==0.21.0
+ asyncpg
+ sqlalchemy
 
 # ===============================
 # HTTP请求和网络
@@ -42,6 +44,8 @@ wordcloud==1.9.3
 matplotlib==3.9.0
 parsel==1.9.1
 pyexecjs==1.5.1
+ typer>=0.12.3
+ pyhumps==3.8.0
 
 # ===============================
 # 工具包
--- a/MindSpider/schema/db_manager.py
View file @96c7d2d
+++ b/MindSpider/schema/db_manager.py
View file @96c7d2d
@@ -7,10 +7,12 @@ MindSpider AI爬虫项目 - 数据库管理工具
 
 import os
 import sys
- import pymysql
+ from sqlalchemy import create_engine, text, inspect
+ from sqlalchemy.engine import Engine
 import argparse
 from pathlib import Path
 from datetime import datetime, timedelta
+ from loguru import logger
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -19,125 +21,132 @@ sys.path.append(str(project_root))
 try:
     import config
 except ImportError:
-     print("错误: 无法导入config.py配置文件")
+     logger.error("错误: 无法导入config.py配置文件")
     sys.exit(1)
 
+ from MindSpider.config import settings
+ 
 class DatabaseManager:
     def __init__(self):
-         self.connection = None
+         self.engine: Engine = None
         self.connect()
     
     def connect(self):
         """连接数据库"""
         try:
-             self.connection = pymysql.connect(
-                 host=config.DB_HOST,
-                 port=config.DB_PORT,
-                 user=config.DB_USER,
-                 password=config.DB_PASSWORD,
-                 database=config.DB_NAME,
-                 charset=config.DB_CHARSET,
-                 autocommit=True
-             )
-             print(f"成功连接到数据库: {config.DB_NAME}")
+             dialect = (settings.DB_DIALECT or "mysql").lower()
+             if dialect in ("postgresql", "postgres"):
+                 url = f"postgresql+psycopg://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}"
+             else:
+                 url = f"mysql+pymysql://{settings.DB_USER}:{settings.DB_PASSWORD}@{settings.DB_HOST}:{settings.DB_PORT}/{settings.DB_NAME}?charset={settings.DB_CHARSET}"
+             self.engine = create_engine(url, future=True)
+             logger.info(f"成功连接到数据库: {settings.DB_NAME}")
         except Exception as e:
-             print(f"数据库连接失败: {e}")
+             logger.error(f"数据库连接失败: {e}")
             sys.exit(1)
     
     def close(self):
         """关闭数据库连接"""
-         if self.connection:
-             self.connection.close()
+         if self.engine:
+             self.engine.dispose()
     
     def show_tables(self):
         """显示所有表"""
-         print("\n" + "=" * 60)
-         print("数据库表列表")
-         print("=" * 60)
+         data_list_message = ""
+         data_list_message += "\n" + "=" * 60
+         data_list_message += "数据库表列表"
+         data_list_message += "=" * 60
+         logger.info(data_list_message)
         
-         cursor = self.connection.cursor()
-         cursor.execute("SHOW TABLES")
-         tables = cursor.fetchall()
+         inspector = inspect(self.engine)
+         tables = inspector.get_table_names()
         
         if not tables:
-             print("数据库中没有表")
+             logger.info("数据库中没有表")
             return
         
         # 分类显示表
         mindspider_tables = []
         mediacrawler_tables = []
         
-         for table in tables:
-             table_name = table[0]
+         for table_name in tables:
             if table_name in ['daily_news', 'daily_topics', 'topic_news_relation', 'crawling_tasks']:
                 mindspider_tables.append(table_name)
             else:
                 mediacrawler_tables.append(table_name)
         
-         print("MindSpider核心表:")
+         data_list_message += "MindSpider核心表:"
+         data_list_message += "\n"
         for table in mindspider_tables:
-             cursor.execute(f"SELECT COUNT(*) FROM {table}")
-             count = cursor.fetchone()[0]
-             print(f"  - {table:<25} ({count:>6} 条记录)")
+             with self.engine.connect() as conn:
+                 count = conn.execute(text(f"SELECT COUNT(*) FROM {table}")).scalar_one()
+             data_list_message += f"  - {table:<25} ({count:>6} 条记录)"
+             data_list_message += "\n"
         
-         print("\nMediaCrawler平台表:")
+         data_list_message += "\nMediaCrawler平台表:"
+         data_list_message += "\n"
         for table in mediacrawler_tables:
             try:
-                 cursor.execute(f"SELECT COUNT(*) FROM {table}")
-                 count = cursor.fetchone()[0]
-                 print(f"  - {table:<25} ({count:>6} 条记录)")
+                 with self.engine.connect() as conn:
+                     count = conn.execute(text(f"SELECT COUNT(*) FROM {table}")).scalar_one()
+                 data_list_message += f"  - {table:<25} ({count:>6} 条记录)"
+                 data_list_message += "\n"
             except:
-                 print(f"  - {table:<25} (查询失败)")
+                 data_list_message += f"  - {table:<25} (查询失败)"
+                 data_list_message += "\n"
+         logger.info(data_list_message)
     
     def show_statistics(self):
         """显示数据统计"""
-         print("\n" + "=" * 60)
-         print("数据统计")
-         print("=" * 60)
-         
-         cursor = self.connection.cursor()
+         data_statistics_message = ""
+         data_statistics_message += "\n" + "=" * 60
+         data_statistics_message += "数据统计"
+         data_statistics_message += "=" * 60
+         data_statistics_message += "\n"
         
         try:
             # 新闻统计
-             cursor.execute("SELECT COUNT(*) FROM daily_news")
-             news_count = cursor.fetchone()[0]
-             
-             cursor.execute("SELECT COUNT(DISTINCT crawl_date) FROM daily_news")
-             news_days = cursor.fetchone()[0]
-             
-             cursor.execute("SELECT COUNT(DISTINCT source_platform) FROM daily_news")
-             platforms = cursor.fetchone()[0]
-             
-             print(f"新闻数据:")
-             print(f"  - 总新闻数: {news_count}")
-             print(f"  - 覆盖天数: {news_days}")
-             print(f"  - 新闻平台: {platforms}")
+             with self.engine.connect() as conn:
+                 news_count = conn.execute(text("SELECT COUNT(*) FROM daily_news")).scalar_one()
+                 news_days = conn.execute(text("SELECT COUNT(DISTINCT crawl_date) FROM daily_news")).scalar_one()
+                 platforms = conn.execute(text("SELECT COUNT(DISTINCT source_platform) FROM daily_news")).scalar_one()
             
+             data_statistics_message += "新闻数据:"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 总新闻数: {news_count}"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 覆盖天数: {news_days}"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 新闻平台: {platforms}"
+             data_statistics_message += "\n"
             # 话题统计
-             cursor.execute("SELECT COUNT(*) FROM daily_topics")
-             topic_count = cursor.fetchone()[0]
+             with self.engine.connect() as conn:
+                 topic_count = conn.execute(text("SELECT COUNT(*) FROM daily_topics")).scalar_one()
+                 topic_days = conn.execute(text("SELECT COUNT(DISTINCT extract_date) FROM daily_topics")).scalar_one()
             
-             cursor.execute("SELECT COUNT(DISTINCT extract_date) FROM daily_topics")
-             topic_days = cursor.fetchone()[0]
-             
-             print(f"\n话题数据:")
-             print(f"  - 总话题数: {topic_count}")
-             print(f"  - 提取天数: {topic_days}")
+             data_statistics_message += "话题数据:"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 总话题数: {topic_count}"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 提取天数: {topic_days}"
+             data_statistics_message += "\n"
             
             # 爬取任务统计
-             cursor.execute("SELECT COUNT(*) FROM crawling_tasks")
-             task_count = cursor.fetchone()[0]
-             
-             cursor.execute("SELECT task_status, COUNT(*) FROM crawling_tasks GROUP BY task_status")
-             task_status = cursor.fetchall()
+             with self.engine.connect() as conn:
+                 task_count = conn.execute(text("SELECT COUNT(*) FROM crawling_tasks")).scalar_one()
+                 task_status = conn.execute(text("SELECT task_status, COUNT(*) FROM crawling_tasks GROUP BY task_status")).all()
             
-             print(f"\n爬取任务:")
-             print(f"  - 总任务数: {task_count}")
+             data_statistics_message += "爬取任务:"
+             data_statistics_message += "\n"
+             data_statistics_message += f"  - 总任务数: {task_count}"
+             data_statistics_message += "\n"
             for status, count in task_status:
-                 print(f"  - {status}: {count}")
+                 data_statistics_message += f"  - {status}: {count}"
+                 data_statistics_message += "\n"
             
             # 爬取内容统计
-             print(f"\n平台内容统计:")
+             data_statistics_message += "平台内容统计:"
+             data_statistics_message += "\n"
             platform_tables = {
                 'xhs_note': '小红书',
                 'douyin_aweme': '抖音',
@@ -150,60 +159,78 @@ class DatabaseManager:
             
             for table, platform in platform_tables.items():
                 try:
-                     cursor.execute(f"SELECT COUNT(*) FROM {table}")
-                     count = cursor.fetchone()[0]
-                     print(f"  - {platform}: {count}")
+                     with self.engine.connect() as conn:
+                         count = conn.execute(text(f"SELECT COUNT(*) FROM {table}")).scalar_one()
+                     data_statistics_message += f"  - {platform}: {count}"
+                     data_statistics_message += "\n"
                 except:
-                     print(f"  - {platform}: 表不存在")
-                     
+                     data_statistics_message += f"  - {platform}: 表不存在"
+                     data_statistics_message += "\n"
+             logger.info(data_statistics_message)
         except Exception as e:
-             print(f"统计查询失败: {e}")
+             data_statistics_message += f"统计查询失败: {e}"
+             data_statistics_message += "\n"
+             logger.error(data_statistics_message)
     
     def show_recent_data(self, days=7):
         """显示最近几天的数据"""
-         print(f"\n" + "=" * 60)
-         print(f"最近{days}天的数据")
-         print("=" * 60)
-         
-         cursor = self.connection.cursor()
+         data_recent_message = ""
+         data_recent_message += "\n" + "=" * 60
+         data_recent_message += "最近" + str(days) + "天的数据"
+         data_recent_message += "=" * 60
         
+         from datetime import date, timedelta
+         start_date = date.today() - timedelta(days=days)
         # 最近的新闻
-         cursor.execute("""
-             SELECT crawl_date, COUNT(*) as news_count, COUNT(DISTINCT source_platform) as platforms
-             FROM daily_news 
-             WHERE crawl_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-             GROUP BY crawl_date 
-             ORDER BY crawl_date DESC
-         """, (days,))
-         
-         news_data = cursor.fetchall()
+         with self.engine.connect() as conn:
+             news_data = conn.execute(
+                 text(
+                     """
+                     SELECT crawl_date, COUNT(*) as news_count, COUNT(DISTINCT source_platform) as platforms
+                     FROM daily_news 
+                     WHERE crawl_date >= :start_date
+                     GROUP BY crawl_date 
+                     ORDER BY crawl_date DESC
+                     """
+                 ),
+                 {"start_date": start_date},
+             ).all()
         if news_data:
-             print("每日新闻统计:")
+             data_recent_message += "每日新闻统计:"
+             data_recent_message += "\n"
             for date, count, platforms in news_data:
-                 print(f"  {date}: {count} 条新闻, {platforms} 个平台")
+                 data_recent_message += f"  {date}: {count} 条新闻, {platforms} 个平台"
+                 data_recent_message += "\n"
         
         # 最近的话题
-         cursor.execute("""
-             SELECT extract_date, COUNT(*) as topic_count
-             FROM daily_topics 
-             WHERE extract_date >= DATE_SUB(CURDATE(), INTERVAL %s DAY)
-             GROUP BY extract_date 
-             ORDER BY extract_date DESC
-         """, (days,))
-         
-         topic_data = cursor.fetchall()
+         with self.engine.connect() as conn:
+             topic_data = conn.execute(
+                 text(
+                     """
+                     SELECT extract_date, COUNT(*) as topic_count
+                     FROM daily_topics 
+                     WHERE extract_date >= :start_date
+                     GROUP BY extract_date 
+                     ORDER BY extract_date DESC
+                     """
+                 ),
+                 {"start_date": start_date},
+             ).all()
         if topic_data:
-             print("\n每日话题统计:")
+             data_recent_message += "每日话题统计:"
+             data_recent_message += "\n"
             for date, count in topic_data:
-                 print(f"  {date}: {count} 个话题")
+                 data_recent_message += f"  {date}: {count} 个话题"
+                 data_recent_message += "\n"
+         logger.info(data_recent_message)
     
     def cleanup_old_data(self, days=90, dry_run=True):
         """清理旧数据"""
-         print(f"\n" + "=" * 60)
-         print(f"清理{days}天前的数据 ({'预览模式' if dry_run else '执行模式'})")
-         print("=" * 60)
+         cleanup_message = ""
+         cleanup_message += "\n" + "=" * 60
+         cleanup_message += f"清理{days}天前的数据 ({'预览模式' if dry_run else '执行模式'})"
+         cleanup_message += "=" * 60
         
-         cursor = self.connection.cursor()
         cutoff_date = datetime.now() - timedelta(days=days)
         
         # 检查要删除的数据
@@ -213,20 +240,25 @@ class DatabaseManager:
             ("crawling_tasks", f"SELECT COUNT(*) FROM crawling_tasks WHERE scheduled_date < '{cutoff_date.date()}'")
         ]
         
-         for table, query in cleanup_queries:
-             cursor.execute(query)
-             count = cursor.fetchone()[0]
-             if count > 0:
-                 print(f"  {table}: {count} 条记录将被删除")
-                 if not dry_run:
-                     delete_query = query.replace("SELECT COUNT(*)", "DELETE")
-                     cursor.execute(delete_query)
-                     print(f"    已删除 {count} 条记录")
-             else:
-                 print(f"  {table}: 无需清理")
+         with self.engine.begin() as conn:
+             for table, query in cleanup_queries:
+                 count = conn.execute(text(query)).scalar_one()
+                 if count > 0:
+                     cleanup_message += f"  {table}: {count} 条记录将被删除"
+                     cleanup_message += "\n"
+                     if not dry_run:
+                         delete_query = query.replace("SELECT COUNT(*)", "DELETE")
+                         conn.execute(text(delete_query))
+                         cleanup_message += f"    已删除 {count} 条记录"
+                         cleanup_message += "\n"
+                 else:
+                     cleanup_message += f"  {table}: 无需清理"
+                     cleanup_message += "\n"
         
         if dry_run:
-             print("\n这是预览模式，没有实际删除数据。使用 --execute 参数执行实际清理。")
+             cleanup_message += "\n这是预览模式，没有实际删除数据。使用 --execute 参数执行实际清理。"
+             cleanup_message += "\n"
+         logger.info(cleanup_message)
 
 def main():
     parser = argparse.ArgumentParser(description="MindSpider数据库管理工具")
--- a/MindSpider/schema/init_database.py
View file @96c7d2d
+++ b/MindSpider/schema/init_database.py
View file @96c7d2d
@@ -9,6 +9,7 @@ import os
 import sys
 import pymysql
 from pathlib import Path
+ from MindSpider.config import settings
 
 # 添加项目根目录到路径
 project_root = Path(__file__).parent.parent
@@ -26,14 +27,14 @@ def create_database_connection():
     """创建数据库连接"""
     try:
         connection = pymysql.connect(
-             host=config.DB_HOST,
-             port=config.DB_PORT,
-             user=config.DB_USER,
-             password=config.DB_PASSWORD,
-             charset=config.DB_CHARSET,
+             host=settings.db_host,
+             port=settings.db_port,
+             user=settings.db_user,
+             password=settings.db_password,
+             charset=settings.db_charset,
             autocommit=True
         )
-         print(f"成功连接到MySQL服务器: {config.DB_HOST}:{config.DB_PORT}")
+         print(f"成功连接到MySQL服务器: {settings.db_host}:{settings.db_port}")
         return connection
     except Exception as e:
         print(f"连接数据库失败: {e}")
@@ -43,9 +44,9 @@ def create_database(connection):
     """创建数据库"""
     try:
         cursor = connection.cursor()
-         cursor.execute(f"CREATE DATABASE IF NOT EXISTS `{config.DB_NAME}` CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci")
-         cursor.execute(f"USE `{config.DB_NAME}`")
-         print(f"数据库 '{config.DB_NAME}' 创建/选择成功")
+         cursor.execute(f"CREATE DATABASE IF NOT EXISTS `{settings.db_name}` CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci")
+         cursor.execute(f"USE `{settings.db_name}`")
+         print(f"数据库 '{settings.db_name}' 创建/选择成功")
         return True
     except Exception as e:
         print(f"创建数据库失败: {e}")
@@ -56,18 +57,18 @@ def execute_sql_file(connection, sql_file_path, description=""):
     if not os.path.exists(sql_file_path):
         print(f"警告: SQL文件不存在: {sql_file_path}")
         return False
-     
+ 
     try:
         cursor = connection.cursor()
         with open(sql_file_path, 'r', encoding='utf-8') as f:
             sql_content = f.read()
-         
+ 
         # 分割SQL语句（简单实现，按分号分割）
         sql_statements = [stmt.strip() for stmt in sql_content.split(';') if stmt.strip()]
-         
+ 
         success_count = 0
         error_count = 0
-         
+ 
         for stmt in sql_statements:
             if not stmt or stmt.startswith('--'):
                 continue
@@ -77,10 +78,10 @@ def execute_sql_file(connection, sql_file_path, description=""):
             except Exception as e:
                 error_count += 1
                 print(f"执行SQL语句失败: {str(e)[:100]}...")
-         
+ 
         print(f"{description} - 成功执行: {success_count} 条语句, 失败: {error_count} 条语句")
         return error_count == 0
-     
+ 
     except Exception as e:
         print(f"执行SQL文件失败 {sql_file_path}: {e}")
         return False
@@ -90,44 +91,44 @@ def main():
     print("=" * 60)
     print("MindSpider AI爬虫项目 - 数据库初始化")
     print("=" * 60)
-     
+ 
     # 检查配置
     print("检查数据库配置...")
-     print(f"数据库主机: {config.DB_HOST}")
-     print(f"数据库端口: {config.DB_PORT}")
-     print(f"数据库名称: {config.DB_NAME}")
-     print(f"数据库用户: {config.DB_USER}")
-     print(f"字符集: {config.DB_CHARSET}")
+     print(f"数据库主机: {settings.db_host}")
+     print(f"数据库端口: {settings.db_port}")
+     print(f"数据库名称: {settings.db_name}")
+     print(f"数据库用户: {settings.db_user}")
+     print(f"字符集: {settings.db_charset}")
     print()
-     
+ 
     # 创建数据库连接
     print("正在连接数据库...")
     connection = create_database_connection()
     if not connection:
         print("数据库初始化失败！")
         return False
-     
+ 
     try:
         # 创建数据库
         print("正在创建/选择数据库...")
         if not create_database(connection):
             return False
-         
+ 
         # 获取SQL文件路径
         schema_dir = Path(__file__).parent
         mediacrawler_sql = schema_dir.parent / "DeepSentimentCrawling" / "MediaCrawler" / "schema" / "tables.sql"
         mindspider_sql = schema_dir / "mindspider_tables.sql"
-         
+ 
         print()
         print("开始执行SQL脚本...")
-         
+ 
         # 1. 执行MediaCrawler的原始表结构
         if mediacrawler_sql.exists():
             print("1. 创建MediaCrawler基础表...")
             execute_sql_file(connection, str(mediacrawler_sql), "MediaCrawler基础表")
         else:
             print("警告: MediaCrawler SQL文件不存在，跳过基础表创建")
-         
+ 
         # 2. 执行MindSpider扩展表结构
         print("2. 创建MindSpider扩展表...")
         if mindspider_sql.exists():
@@ -135,18 +136,18 @@ def main():
         else:
             print("错误: MindSpider SQL文件不存在")
             return False
-         
+ 
         print()
         print("=" * 60)
         print("数据库初始化完成！")
         print("=" * 60)
-         
+ 
         # 显示创建的表
         cursor = connection.cursor()
         cursor.execute("SHOW TABLES")
         tables = cursor.fetchall()
-         
-         print(f"数据库 '{config.DB_NAME}' 中共创建了 {len(tables)} 个表:")
+ 
+         print(f"数据库 '{settings.db_name}' 中共创建了 {len(tables)} 个表:")
         for table in tables:
             print(f"  - {table[0]}")