Electron小说下载工具开发：多书源搜索与内容解析

誓死追随苏子敬

1. 项目概述：Electron小说下载工具开发实践

作为一名长期从事Electron应用开发的工程师，最近我完成了一个小说搜索与下载工具的开发。这个项目源于我在使用写作软件时的一个痛点：经常需要在多个小说网站之间切换查找资源，下载过程繁琐且格式不统一。于是，我决定在Electron+Vue3的框架下，打造一个集搜索、下载、格式化为一体的小说工具。

这个工具的核心功能包括：

多书源配置：支持从不同小说网站抓取内容
智能搜索：通过书名或作者快速定位小说
一键下载：将选定小说保存到本地或直接加入书架
格式净化：自动去除广告和无关内容

提示：本项目仅供学习Electron开发和网络爬虫技术使用，请遵守相关法律法规，尊重版权。

2. 技术架构设计

2.1 整体架构方案

我采用了Electron经典的主进程+渲染进程架构：

code复制主进程(Node.js)
├── 网络请求(fetch)
├── HTML解析(Cheerio)
├── 编码转换(iconv-lite)
└── 文件操作(fs)

渲染进程(Vue3)
├── 用户界面
├── 状态管理
└── IPC通信

这种设计有三大优势：

安全性：所有网络请求都在主进程完成，避免渲染进程直接访问第三方网站带来的安全问题
性能：主进程可以充分利用Node.js的异步IO能力处理大量网络请求
可维护性：业务逻辑与界面展示分离，代码结构清晰

2.2 关键技术选型

在选择技术栈时，我主要考虑了以下因素：

HTML解析：对比了Cheerio、JSDOM和Puppeteer后，选择了Cheerio。因为它：
- 轻量级，API类似jQuery
- 纯字符串解析，不需要加载完整DOM
- 性能优异，适合批量处理

编码处理：针对中文网站常见的GBK编码问题，使用iconv-lite：

javascript复制const iconv = require('iconv-lite');
const gbkBuffer = await response.arrayBuffer();
const utf8Text = iconv.decode(Buffer.from(gbkBuffer), 'gbk');

网络请求：使用现代fetch API替代传统的request库：
- 内置Promise支持
- 更简洁的API设计
- 原生支持AbortController实现超时控制

3. 核心功能实现

3.1 多书源配置系统

书源配置是整个项目的核心，我设计了一个灵活的JSON配置方案：

javascript复制{
  "id": "xbiqugu",
  "name": "香书小说",
  "encoding": "gbk",
  "search": {
    "method": "POST",
    "url": "http://www.xbiqugu.la/modules/article/waps.php",
    "params": {"searchkey": "{keyword}"},
    "list": "#checkform table tbody tr",
    "title": "td.even > a",
    "author": "td:nth-of-type(3)",
    "link": "href"
  },
  "chapter": {
    "list": "#list dl dd a"
  },
  "content": {
    "selector": "#content",
    "filters": [
      "一秒记住【文学巴士...】",
      "www.xbiquge.la...",
      "请记住本书首发域名..."
    ]
  }
}

配置项说明：

encoding：处理不同网站的编码问题
search：定义搜索页的请求方式和内容提取规则
chapter：章节列表页的解析规则
content：正文内容的选择器和过滤规则

3.2 网络请求模块

针对小说网站的特点，我封装了一个健壮的请求模块：

javascript复制async function fetchHtml(url, options = {}) {
  const controller = new AbortController();
  const timeout = setTimeout(() => controller.abort(), 25000);
  
  try {
    const response = await fetch(url, {
      signal: controller.signal,
      method: options.method || 'GET',
      headers: {
        'User-Agent': 'Mozilla/5.0...',
        ...options.headers
      },
      body: options.body
    });
    
    clearTimeout(timeout);
    
    if (!response.ok) {
      throw new Error(`HTTP error! status: ${response.status}`);
    }
    
    const buffer = await response.arrayBuffer();
    return decodeBuffer(buffer, options.encoding);
  } catch (error) {
    clearTimeout(timeout);
    throw enhanceFetchError(error);
  }
}

function decodeBuffer(buffer, encoding) {
  if (encoding && encoding.toLowerCase() !== 'utf-8') {
    return iconv.decode(Buffer.from(buffer), encoding);
  }
  return new TextDecoder('utf-8').decode(buffer);
}

关键点：

超时控制：使用AbortController实现25秒超时
错误增强：将原生错误转换为用户友好的提示
编码处理：自动根据配置进行编码转换

3.3 内容解析与清洗

内容解析分为三个步骤：

列表页解析：

javascript复制function parseBookList(html, config) {
  const $ = cheerio.load(html);
  return $(config.search.list).map((i, el) => ({
    title: $(el).find(config.search.title).text().trim(),
    author: $(el).find(config.search.author).text().trim(),
    url: resolveUrl(config.baseUrl, $(el).find(config.search.link).attr('href'))
  })).get();
}

章节列表解析：

javascript复制function parseChapterList(html, config) {
  const $ = cheerio.load(html);
  return $(config.chapter.list).map((i, el) => ({
    title: $(el).text().trim(),
    url: resolveUrl(config.baseUrl, $(el).attr('href'))
  })).get();
}

正文清洗：

javascript复制function cleanContent(html, filters) {
  let text = html
    .replace(/<script\b[^<]*(?:(?!<\/script>)<[^<]*)*<\/script>/gi, '')
    .replace(/<style\b[^<]*(?:(?!<\/style>)<[^<]*)*<\/style>/gi, '')
    .replace(/<br\s*\/?>/gi, '\n')
    .replace(/<[^>]+>/g, '');
  
  filters.forEach(filter => {
    text = text.replace(new RegExp(filter, 'g'), '');
  });
  
  return text
    .replace(/\n{3,}/g, '\n\n')
    .trim();
}

4. 交互与进程通信

4.1 IPC通信设计

主进程与渲染进程的通信采用Electron的IPC机制：

javascript复制// 主进程 (index.js)
ipcMain.handle('novel:search', async (event, { keyword, sourceId }) => {
  const source = getSourceConfig(sourceId);
  const html = await fetchHtml(buildSearchUrl(source, keyword));
  return parseBookList(html, source);
});

// 渲染进程 (NovelDownload.vue)
const searchBooks = async () => {
  loading.value = true;
  try {
    books.value = await window.electron.ipcRenderer.invoke(
      'novel:search', 
      { keyword: searchText.value, sourceId: selectedSource.value }
    );
  } finally {
    loading.value = false;
  }
};

4.2 下载进度反馈

为了提升用户体验，实现了下载进度反馈：

javascript复制// 主进程
async function downloadChapters(chapters, source) {
  const total = chapters.length;
  for (let i = 0; i < chapters.length; i++) {
    const content = await fetchChapter(chapters[i], source);
    event.sender.send('novel-download-progress', { current: i + 1, total });
    await saveChapter(content);
  }
}

// 渲染进程
window.electron.ipcRenderer.on('novel-download-progress', (_, { current, total }) => {
  progress.value = Math.round((current / total) * 100);
});

5. 踩坑与优化

5.1 常见问题与解决方案

编码问题：
- 症状：部分网站返回乱码
- 原因：未正确识别GBK编码
- 解决：通过响应头或HTML meta标签自动检测编码
请求被拒绝：
- 症状：返回403错误
- 原因：被识别为爬虫
- 解决：添加完整的浏览器headers模拟正常访问
内容结构变化：
- 症状：选择器失效
- 原因：网站改版
- 解决：设计选择器备用方案，增加自动检测机制

5.2 性能优化

并发控制：

javascript复制async function fetchAllChapters(chapters, source, concurrency = 5) {
  const results = [];
  const queue = [...chapters];
  
  async function worker() {
    while (queue.length) {
      const chapter = queue.shift();
      results.push(await fetchChapter(chapter, source));
    }
  }
  
  await Promise.all(Array(concurrency).fill().map(worker));
  return results;
}