小红书笔记数据采集：API与爬虫技术实践-代码聚汇网

小红书笔记数据采集：API与爬虫技术实践

利益第三人

1. 小红书笔记数据采集方案概述

在小红书平台进行内容数据分析时，获取笔记详情是常见的需求场景。无论是用于竞品分析、内容运营还是用户行为研究，都需要通过技术手段获取结构化的笔记数据。作为从业多年的数据工程师，我将分享两种主流实现方案：官方API调用和爬虫技术实现。

官方API是小红书平台推荐的合规数据获取方式，需要完成开发者认证和权限申请。这种方式获取的数据结构规范、稳定性高，适合企业级应用。而爬虫方案则更适合个人开发者或临时性需求，但需要注意反爬机制和法律风险。两种方案各有优劣，需要根据实际业务场景选择。

2. 官方API接入方案详解

2.1 开发者账号申请与准备

要使用小红书开放平台API，首先需要完成开发者账号注册和认证。这个过程看似简单，但实际操作中有不少需要注意的细节：

账号类型选择：个人开发者账号申请相对简单，但接口调用权限有限；企业账号需要提供营业执照等材料，但可以获得更全面的API权限。建议根据业务规模选择合适的账号类型。
应用创建注意事项：
- 应用类目选择直接影响可申请的API权限
- 应用名称和描述需要明确说明数据用途
- 回调地址需要提前准备可用的域名
权限申请技巧：
- note/detail接口通常归类在"内容管理"或"数据分析"类目下
- 申请时需要详细说明使用场景和数据用途
- 首次申请建议同时申请测试环境权限，便于调试

提示：企业账号审核通常需要3-5个工作日，建议提前规划时间。审核期间可以准备开发环境和技术方案。

2.2 API调用实现细节

获得接口权限后，实际的API调用过程需要注意以下几个技术要点：

2.2.1 签名生成机制

小红书的API调用需要使用HMAC-SHA256算法生成签名，这是保证请求安全的重要环节。签名生成的核心逻辑是：

将所有请求参数按字典序排序
拼接成key1value1key2value2格式的字符串
使用app_secret作为密钥进行HMAC-SHA256加密

python复制import hmac
import hashlib

def generate_sign(secret, params):
    # 参数排序
    sorted_params = sorted(params.items())
    # 拼接字符串
    sign_str = "".join(f"{k}{v}" for k, v in sorted_params)
    # HMAC-SHA256加密
    return hmac.new(
        secret.encode(), 
        sign_str.encode(), 
        hashlib.sha256
    ).hexdigest()

2.2.2 请求参数说明

note/detail接口支持以下核心参数：

参数名	必填	类型	说明
note_id	是	string	笔记ID，可从分享链接获取
access_token	是	string	OAuth2.0授权令牌
fields	否	string	指定返回字段，多个用逗号分隔

fields参数可以灵活控制返回的数据内容，常用的字段包括：

基础信息：title, desc, content
互动数据：like_count, collect_count, comment_count
多媒体：images, video
作者信息：author

2.2.3 完整调用示例

python复制import requests
from datetime import datetime
import json

class XiaoHongShuAPI:
    def __init__(self, app_key, app_secret):
        self.app_key = app_key
        self.app_secret = app_secret
        self.base_url = "https://api.xiaohongshu.com"
        
    def get_note_detail(self, note_id, access_token, fields=None):
        """获取笔记详情"""
        endpoint = "/note/detail"
        params = {
            "note_id": note_id,
            "access_token": access_token,
            "app_key": self.app_key,
            "timestamp": str(int(datetime.now().timestamp()))
        }
        
        if fields:
            params["fields"] = fields
            
        # 生成签名
        params["sign"] = self._generate_sign(params)
        
        # 发送请求
        headers = {"Content-Type": "application/json"}
        response = requests.get(
            self.base_url + endpoint,
            headers=headers,
            params=params
        )
        
        if response.status_code == 200:
            return response.json()
        else:
            raise Exception(f"API请求失败: {response.status_code} - {response.text}")
    
    def _generate_sign(self, params):
        """生成签名"""
        sorted_params = sorted(params.items())
        sign_str = "".join(f"{k}{v}" for k, v in sorted_params)
        return hmac.new(
            self.app_secret.encode(),
            sign_str.encode(),
            hashlib.sha256
        ).hexdigest()

# 使用示例
if __name__ == "__main__":
    api = XiaoHongShuAPI("your_app_key", "your_app_secret")
    data = api.get_note_detail(
        note_id="648a7b2f0000000012345678",
        access_token="your_access_token",
        fields="title,content,like_count,images,author"
    )
    
    # 保存结果
    with open(f"note_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json", "w") as f:
        json.dump(data, f, ensure_ascii=False, indent=2)

2.3 返回数据结构解析

API调用成功后，返回的JSON数据结构通常如下：

json复制{
  "code": 0,
  "msg": "success",
  "data": {
    "note_id": "648a7b2f0000000012345678",
    "title": "夏日穿搭指南",
    "content": "本季流行元素解析...",
    "like_count": 12580,
    "comment_count": 890,
    "images": [
      {
        "url": "https://img.xiaohongshu.com/1.jpg",
        "width": 1080,
        "height": 1440
      },
      {
        "url": "https://img.xiaohongshu.com/2.jpg",
        "width": 1080,
        "height": 1440
      }
    ],
    "author": {
      "user_id": "12345678",
      "nickname": "时尚达人",
      "avatar": "https://avatar.xiaohongshu.com/avatar.jpg",
      "fans_count": 125000
    },
    "create_time": 1685432100,
    "update_time": 1685432150
  }
}

对于数据分析来说，以下几个字段特别重要：

like_count和comment_count：反映内容受欢迎程度
images数组：包含所有图片的URL和尺寸信息
create_time：可用于分析内容时效性
author信息：可用于分析KOL影响力

3. 爬虫技术实现方案

当无法获取官方API权限时，爬虫技术是另一种可行的解决方案。但需要注意，这种方式存在一定的法律和技术风险，建议仅用于个人学习和研究。

3.1 技术选型与准备

3.1.1 工具选择

对于小红书这样的动态渲染网站，推荐使用以下技术组合：

Selenium：模拟真实浏览器行为，适合处理JavaScript渲染的内容
Playwright：新一代浏览器自动化工具，性能优于Selenium
Requests + BeautifulSoup：轻量级方案，但需要处理反爬机制

3.1.2 环境准备

bash复制# 安装必要库
pip install selenium webdriver-manager beautifulsoup4 requests

还需要下载对应浏览器的WebDriver，推荐使用ChromeDriver：

bash复制# 自动管理WebDriver版本
pip install webdriver-manager

3.2 爬虫实现详解

3.2.1 基于Selenium的实现

python复制from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import json

class XiaoHongShuSpider:
    def __init__(self, headless=True):
        self.options = webdriver.ChromeOptions()
        if headless:
            self.options.add_argument("--headless")
        self.options.add_argument("--disable-gpu")
        self.options.add_argument("--window-size=1920,1080")
        
    def get_note_detail(self, note_url):
        driver = webdriver.Chrome(
            service=Service(ChromeDriverManager().install()),
            options=self.options
        )
        
        try:
            driver.get(note_url)
            
            # 显式等待关键元素加载
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.XPATH, "//h1[contains(@class, 'title')]"))
            )
            
            # 获取笔记标题
            title = driver.find_element(
                By.XPATH, 
                "//h1[contains(@class, 'title')]"
            ).text
            
            # 获取笔记内容
            content = driver.find_element(
                By.XPATH, 
                "//div[contains(@class, 'content')]"
            ).text
            
            # 获取点赞数（处理"万"单位）
            likes_text = driver.find_element(
                By.XPATH, 
                "//span[contains(@class, 'like-count')]"
            ).text
            likes = self._parse_count(likes_text)
            
            # 获取图片URL
            images = [
                img.get_attribute("src") 
                for img in driver.find_elements(
                    By.XPATH, 
                    "//img[contains(@class, 'note-image')]"
                )
            ]
            
            return {
                "title": title,
                "content": content,
                "likes": likes,
                "images": images,
                "url": note_url
            }
            
        finally:
            driver.quit()
    
    def _parse_count(self, text):
        """处理数字中的'万'单位"""
        if "万" in text:
            return int(float(text.replace("万", "")) * 10000)
        return int(text)

# 使用示例
if __name__ == "__main__":
    spider = XiaoHongShuSpider()
    note_data = spider.get_note_detail("https://www.xiaohongshu.com/note/123456")
    print(json.dumps(note_data, ensure_ascii=False, indent=2))

3.2.2 反爬应对策略

小红书有较为完善的反爬机制，需要采取以下措施：

请求频率控制：
- 设置随机延迟（1-5秒）
- 避免连续快速请求同一域名
请求头伪装：
- 使用随机User-Agent
- 添加合理的Referer
IP代理池：
- 使用高质量的住宅代理
- 自动切换IP地址

python复制from fake_useragent import UserAgent
import random

def get_random_headers():
    ua = UserAgent()
    return {
        "User-Agent": ua.random,
        "Referer": "https://www.xiaohongshu.com/",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
    }

def random_delay():
    time.sleep(random.uniform(1, 3))

3.3 数据解析技巧

小红书网页结构经常变化，需要灵活应对：

多套XPath备用：为关键元素准备多套定位方案
异常处理：对可能缺失的元素进行预判
数据清洗：处理特殊字符和格式

python复制def safe_find(driver, xpaths, default=""):
    """安全查找元素，支持多套XPath"""
    for xpath in xpaths:
        try:
            element = driver.find_element(By.XPATH, xpath)
            return element.text
        except:
            continue
    return default

# 使用示例
title = safe_find(driver, [
    "//h1[contains(@class, 'title')]",
    "//h1[@class='title']",
    "//h1"
])

4. 数据存储与处理

无论采用哪种方式获取数据，都需要考虑如何有效存储和处理这些数据。

4.1 存储方案选择

根据数据规模和使用场景，可以选择以下存储方案：

方案	适用场景	优点	缺点
JSON文件	小规模数据、临时分析	简单易用、无需额外服务	不适合大规模数据
SQLite	个人项目、中小规模数据	轻量级、单文件	并发性能有限
MySQL	企业级应用、结构化数据	成熟稳定、支持复杂查询	需要单独部署
MongoDB	非结构化数据、快速迭代	灵活的模式、适合JSON数据	内存占用较大

4.2 数据存储实现

4.2.1 MongoDB存储示例

python复制from pymongo import MongoClient
from datetime import datetime

class DataStorage:
    def __init__(self, db_name="xiaohongshu", collection_name="notes"):
        self.client = MongoClient("mongodb://localhost:27017/")
        self.db = self.client[db_name]
        self.collection = self.db[collection_name]
        
    def save_note(self, note_data):
        """保存笔记数据"""
        note_data["crawl_time"] = datetime.now()
        result = self.collection.update_one(
            {"note_id": note_data.get("note_id")},
            {"$set": note_data},
            upsert=True
        )
        return result.upserted_id
    
    def get_note(self, note_id):
        """获取笔记数据"""
        return self.collection.find_one({"note_id": note_id})

# 使用示例
if __name__ == "__main__":
    storage = DataStorage()
    
    # 假设note_data是从API或爬虫获取的数据
    note_data = {
        "note_id": "648a7b2f0000000012345678",
        "title": "测试笔记",
        "content": "这是测试内容...",
        "likes": 100
    }
    
    storage.save_note(note_data)
    saved_note = storage.get_note("648a7b2f0000000012345678")
    print(saved_note)

4.2.2 图片下载处理

对于笔记中的图片，建议单独处理：

python复制import os
import requests
from urllib.parse import urlparse

def download_images(image_urls, save_dir="images"):
    """下载图片到本地"""
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    
    saved_paths = []
    for url in image_urls:
        try:
            response = requests.get(url, stream=True)
            response.raise_for_status()
            
            # 从URL提取文件名
            parsed = urlparse(url)
            filename = os.path.basename(parsed.path)
            save_path = os.path.join(save_dir, filename)
            
            with open(save_path, "wb") as f:
                for chunk in response.iter_content(1024):
                    f.write(chunk)
            
            saved_paths.append(save_path)
        except Exception as e:
            print(f"下载图片失败: {url} - {str(e)}")
    
    return saved_paths

5. 合规性与性能优化

5.1 法律合规要点

在使用小红书数据时，必须注意以下法律要求：

数据范围限制：
- 禁止采集用户隐私数据（手机号、地址等）
- 不得存储用户敏感信息
使用限制：
- 数据不得用于商业营销
- 不得进行数据转售
- 需遵守小红书平台规则
版权声明：
- 保留原始内容出处
- 不得去除平台水印

5.2 性能优化技巧

5.2.1 API调用优化

批量请求：如果API支持，尽量使用批量接口减少请求次数
缓存机制：对不常变的数据设置缓存
异步处理：使用异步IO提高吞吐量

python复制import aiohttp
import asyncio

async def fetch_note_details(note_ids, access_token):
    """异步获取多个笔记详情"""
    async with aiohttp.ClientSession() as session:
        tasks = []
        for note_id in note_ids:
            task = asyncio.create_task(
                self._fetch_single_note(session, note_id, access_token)
            )
            tasks.append(task)
        return await asyncio.gather(*tasks)
    
async def _fetch_single_note(self, session, note_id, access_token):
    """获取单个笔记详情"""
    url = "https://api.xiaohongshu.com/note/detail"
    params = {
        "note_id": note_id,
        "access_token": access_token
    }
    async with session.get(url, params=params) as response:
        return await response.json()

5.2.2 爬虫性能优化

并发控制：使用线程池/进程池提高效率
智能延迟：根据响应时间动态调整请求间隔
断点续爬：记录爬取状态，避免重复工作

python复制from concurrent.futures import ThreadPoolExecutor

def batch_crawl(note_urls, max_workers=3):
    """多线程批量爬取"""
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        results = list(executor.map(self.get_note_detail, note_urls))
    return results

6. 常见问题与解决方案

在实际开发中，会遇到各种问题，以下是常见问题及解决方法：

6.1 API调用问题

问题1：签名验证失败

检查参数排序是否正确
确认app_secret没有泄露或错误
检查时间戳是否在有效期内（通常±5分钟）

问题2：频率限制

降低请求频率（建议≤100次/分钟）
实现自动重试机制（带退避时间）
申请更高的API配额

6.2 爬虫问题

问题1：检测到爬虫行为

更换User-Agent和IP
增加随机延迟
模拟人类操作（随机滚动、点击等）

问题2：元素定位失败

更新XPath/CSS选择器
增加等待时间
使用更稳定的定位方式

6.3 数据问题

问题1：数据不完整

检查fields参数是否包含所需字段
确认爬虫是否成功获取所有元素
实现数据校验机制

问题2：数据格式不一致

编写数据清洗函数
建立数据校验规则
记录原始数据以便排查

7. 项目实践建议

根据多年项目经验，分享几个实用建议：

从小规模开始：先实现最小可行方案，再逐步扩展
完善的日志系统：记录详细的操作日志，便于排查问题
监控机制：对API调用和爬虫运行状态进行监控
定期维护：小红书界面和API会更新，需要定期调整代码

对于长期项目，建议采用以下架构：

使用消息队列（如RabbitMQ）管理任务
分布式爬虫架构提高可靠性
自动化部署和监控

python复制# 简单的任务队列示例
import redis
from rq import Queue

redis_conn = redis.Redis()
task_queue = Queue(connection=redis_conn)

# 提交任务
job = task_queue.enqueue(
    get_note_detail, 
    note_id="648a7b2f0000000012345678",
    access_token="your_token"
)

# 检查结果
if job.is_finished:
    print(job.result)

在实际项目中，我通常会建立一个完整的监控面板，跟踪以下指标：

成功率/失败率
平均响应时间
数据完整性
异常情况报警

对于企业级应用，建议考虑使用Scrapy框架构建更健壮的爬虫系统，或者直接与小红书官方合作获取更全面的API支持。