【NLP实战】基于哈工大停用词表的中文文本清洗与Python实现

赵guo栋

1. 中文文本清洗的必要性

在自然语言处理(NLP)项目中,原始文本数据往往包含大量无实际意义的词汇,这些词汇不仅会增加计算负担,还可能影响模型对关键信息的捕捉。中文文本尤其如此,像"的"、"了"、"啊"这类高频虚词几乎出现在每个句子中,但对语义理解帮助有限。这就是为什么我们需要进行文本清洗,而停用词表就是最常用的工具之一。

哈工大停用词表是国内公认比较权威的中文停用词集合,收录了1200多个常见停用词。我第一次使用这个词表是在做一个电商评论情感分析项目时,原始准确率只有78%,清洗掉停用词后直接提升到83%。这让我深刻体会到,好的数据预处理往往比复杂的模型调参更有效。

2. 准备工作与环境搭建

2.1 获取哈工大停用词表

哈工大停用词表可以从其语言技术平台(LTP)官网下载,也可以直接使用我整理好的版本。这个词表采用UTF-8编码,每行一个停用词,格式非常规整。建议新建一个stopwords文件夹专门存放这类资源文件。

python复制# 停用词表示例片段
啊
阿
哎
哎呀
哎哟
唉
俺
俺们
按
按照

2.2 Python环境配置

推荐使用Python 3.6+版本,主要依赖库是jieba(用于中文分词)和tqdm(进度条显示)。如果你用Anaconda,可以直接用以下命令安装:

bash复制pip install jieba tqdm

我习惯在代码开头统一设置编码,避免中文路径问题:

python复制# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

3. 核心代码实现

3.1 加载停用词表

这里有个坑要注意:不同操作系统下的文件路径写法不同。我在Windows和Mac上都测试过,建议使用os.path.join来处理路径:

python复制import os
from tqdm import tqdm

def load_stopwords(stopwords_path):
    stopwords = []
    with open(stopwords_path, 'r') as f:
        for line in f:
            stopwords.append(line.strip())
    return set(stopwords)  # 转成集合提高查询效率

3.2 文本清洗函数

实际项目中我发现,单纯删除停用词还不够,还需要处理标点符号和特殊字符。下面这个增强版函数是我经过多个项目优化的:

python复制import re
import jieba

def clean_text(text, stopwords):
    # 去除HTML标签
    text = re.sub(r'<[^>]+>', '', text)
    # 去除特殊字符
    text = re.sub(r'[^\w\s]', '', text)
    # 分词
    words = jieba.cut(text)
    # 过滤停用词
    return [word for word in words if word not in stopwords and len(word) > 1]

3.3 批量处理文件

当需要处理成百上千个文件时,这个批量处理函数能显示进度条,非常实用:

python复制def process_files(input_dir, output_dir, stopwords):
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    files = [f for f in os.listdir(input_dir) if f.endswith('.txt')]
    for filename in tqdm(files):
        input_path = os.path.join(input_dir, filename)
        output_path = os.path.join(output_dir, filename)
        
        with open(input_path, 'r') as infile, open(output_path, 'w') as outfile:
            text = infile.read()
            cleaned_words = clean_text(text, stopwords)
            outfile.write(' '.join(cleaned_words))

4. 实战应用与优化建议

4.1 在情感分析中的应用

以电商评论为例,原始评论可能是:"这个手机真的很好用,但是价格有点贵啊!"经过清洗后会变成:"手机 很好用 价格 贵"。可以看到,情感关键词被保留了下来,而干扰词都被过滤了。

我在实际项目中对比过,使用停用词表后:

  • 特征维度减少40%
  • 训练速度提升35%
  • 准确率提高5-8%

4.2 性能优化技巧

当处理大规模文本时,我有几个实用建议:

  1. 将停用词表转成集合(set)类型,查询速度从O(n)降到O(1)
  2. 使用多进程处理,Python的multiprocessing模块很简单易用
  3. 对于超大规模数据,可以考虑先用抽样测试清洗效果
python复制from multiprocessing import Pool

def parallel_clean(args):
    filepath, stopwords = args
    # 清洗逻辑...

# 使用4个进程
with Pool(4) as p:
    results = list(tqdm(p.imap(parallel_clean, tasks), total=len(tasks)))

4.3 停用词表的自定义

哈工大停用词表虽然全面,但具体项目可能需要调整。比如做法律文本分析时,"本法"、"条"可能是关键词而非停用词。我的经验是:

  1. 先使用标准停用词表
  2. 分析清洗后的高频词
  3. 根据业务需求增删词表
  4. 迭代优化2-3次

保存自定义词表建议用JSON格式,方便维护:

python复制import json

# 保存
with open('custom_stopwords.json', 'w') as f:
    json.dump(list(stopwords), f)
    
# 加载
with open('custom_stopwords.json', 'r') as f:
    stopwords = set(json.load(f))

处理中文文本数据时,我最大的体会是:没有放之四海而皆准的停用词表。在最近的一个医疗问答系统项目中,标准停用词表反而过滤掉了"患者"、"症状"等关键术语。后来我们通过领域词典+自动筛选的方式,重新构建了适合医疗场景的停用词表,准确率提升了12%。所以建议大家在项目初期就要重视数据探索,根据实际效果调整预处理策略。

内容推荐

Pwn解题笔记:如何利用unlink在无输出程序中实现任意地址写与GOT劫持
本文深入解析了如何利用unlink技术在无输出程序中实现任意地址写与GOT劫持,以2014 HITCON stkof赛题为例,详细介绍了堆漏洞利用的完整攻击链条。通过构造fake chunk、触发unlink操作、劫持GOT表等步骤,最终实现信息泄露和获取shell的目标。
STM32_FOC_零电角度标定:从开环注入到编码器读数捕获
本文详细介绍了STM32 FOC系统中零电角度标定的关键步骤,从开环电流注入法原理到编码器读数捕获的实现。通过具体的STM32硬件配置和软件代码示例,帮助开发者准确完成电机控制系统的零电角度标定,提升FOC控制精度。特别适合使用编码器作为位置反馈的STM32开发者参考。
Unity UI 性能优化实战 — 不规则遮罩与引导层的高效实现
本文深入探讨了Unity UI性能优化中的不规则遮罩(Mask)与引导层高效实现方案。通过自定义Shader和SDF技术,显著降低GPU填充率和绘制调用,解决传统方案中的过度绘制和动态更新效率问题,适用于游戏新手引导和UI交互设计,提升低端设备运行表现。
GATE实战:从零构建PET扫描仪仿真模型
本文详细介绍了如何使用GATE工具包从零构建PET扫描仪仿真模型,涵盖几何定义、晶体矩阵搭建、系统连接与敏感探测器配置等关键步骤。通过实战案例和技巧分享,帮助读者掌握GATE在医学影像仿真中的应用,提升PET扫描仪仿真的精确度和效率。
JLink Commander实战:高效获取现场数据与RTT日志打印
本文详细介绍了JLink Commander在嵌入式调试中的高效应用,包括环境搭建、核心命令使用及RTT日志打印技术。通过实战案例展示如何快速定位死机问题和实时监控数据,显著提升调试效率。特别适合嵌入式开发者解决复杂调试难题。
Linux无网环境部署LibreOffice:从依赖解析到字体优化全攻略
本文详细介绍了在Linux无网环境下部署LibreOffice的全过程,包括依赖解析、字体优化及性能调优等关键步骤。通过离线资源库构建、Java环境配置及常见问题解决方案,帮助用户高效完成离线安装,特别适用于金融等严格隔离外网的生产环境。
【开发环境搭建】在Windows上利用WSL2与VSCode无缝集成,快速部署Skynet游戏服务器(WSL2 | VSCode | Skynet | 开发环境)
本文详细介绍了如何在Windows系统上通过WSL2与VSCode无缝集成,快速部署Skynet游戏服务器开发环境。从WSL2的启用、Ubuntu镜像安装到VSCode的深度集成技巧,再到Skynet的编译优化与调试实战,提供了一套完整的开发环境搭建方案,显著提升开发效率。
【NLP实战】基于哈工大停用词表的中文文本清洗与Python实现
本文详细介绍了基于哈工大停用词表的中文文本清洗方法及其Python实现。通过NLP技术,结合哈工大停用词表,有效去除文本中的无意义词汇,提升模型性能。文章包含代码示例、实战应用及优化建议,帮助开发者快速掌握文本预处理技巧。
WSL2环境下QEMU编译实战:从源码到OpenHarmony设备模拟
本文详细介绍了在WSL2环境下编译QEMU并模拟OpenHarmony设备的实战教程。通过解决依赖问题、优化编译参数和适配特定架构,开发者可以高效地在Windows系统中运行OpenHarmony模拟器,大幅提升开发效率。文章特别针对WSL2和QEMU的兼容性问题提供了实用解决方案。
Cesium 实战:在线天地图与离线瓦片加载的工程化配置与优化(开发手记)
本文详细介绍了Cesium开发中在线天地图与离线瓦片加载的工程化配置与优化实践。通过双模式切换、密钥管理、网络状态检测等技术方案,解决地图服务中的常见问题,提升项目在野外作业等特殊场景下的稳定性和性能。文章还分享了瓦片预处理、存储优化及性能调优的实战经验,为开发者提供了一套完整的解决方案。
FPM打包踩坑实录:从Ruby版本冲突到国内源配置,一篇讲清所有常见问题
本文详细解析了在Linux系统上使用FPM打包工具时遇到的常见问题,包括Ruby版本冲突、国内源配置、依赖缺失和参数配置等。通过实战案例和解决方案,帮助开发者高效解决FPM打包过程中的各种疑难杂症,提升工作效率。
告别状态机混乱!用BehaviorTree.CPP重构你的ROS机器人决策逻辑(附保姆级XML配置)
本文详细介绍了如何利用BehaviorTree.CPP重构ROS机器人决策逻辑,解决传统状态机在复杂任务中的痛点。通过对比分析、核心架构解析和保姆级XML配置示例,帮助开发者掌握行为树的树状结构、节点组合和异步执行等特性,提升机器人系统的可维护性和调试效率。
EDA开源仿真工具verilator实战1:环境搭建与首个仿真工程
本文详细介绍了高性能开源EDA仿真工具Verilator的环境搭建与首个仿真工程实践。从系统依赖安装、源码编译到Hello World示例,逐步指导读者掌握Verilator的使用方法,并分享带波形输出的进阶技巧与常见问题解决方案,助力开发者快速上手这一高效的Verilog/SystemVerilog仿真工具。
从UPD到整数钟:PPP-AR三大核心方法的技术演进与选择
本文深入探讨了PPP-AR技术中模糊度固定的三大核心方法:UPD、整数钟和钟差解耦模型的技术演进与选择。通过对比分析,揭示了这些方法在提升定位精度和收敛速度方面的优势,特别是在BDS-3新信号处理中的应用实践。文章还提供了针对不同场景的方法选型指南,帮助读者优化PPP-AR技术的实际应用。
TwinCAT3伺服控制核心功能块实战解析与工程应用
本文深入解析TwinCAT3伺服控制核心功能块,包括MC_Power、MC_MoveAbsolute和MC_Jog等关键模块的实战应用。通过倍福TwinCAT3平台,工程师可以高效实现工业自动化中的精确运动控制,文章还分享了数控机床和机器人控制中的实用技巧与常见问题解决方案。
告别手动清理!用iFlow CLI + GLM 4.6模型,5分钟智能分析你的项目文件结构
本文介绍了如何利用iFlow CLI与GLM 4.6模型智能分析项目文件结构,5分钟内完成文件清理。通过无侵入式扫描和多维度分析,结合大模型的智能分类能力,有效解决文件冗余、风险预判和效率瓶颈问题,特别适合复杂项目的架构优化。
从信号到连接:深入解析MII接口的硬件实现与设计要点
本文深入解析MII接口的硬件实现与设计要点,涵盖信号定义、电路连接及时序特性等关键内容。通过实战案例,详细探讨了发送与接收通道的设计技巧,包括时钟恢复、信号稳定窗口等核心问题,并分享了全双工与半双工模式下的电路设计经验。对于通讯接口开发者而言,这些知识将极大提升MII接口的稳定性和性能。
保姆级教程:用Python和Mayavi搞定KITTI点云与图像联合可视化(附避坑指南)
本文提供了一份详细的Python和Mayavi教程,帮助开发者实现KITTI数据集的点云与图像联合可视化。从环境配置到高级可视化技巧,涵盖了9种专业级效果实现,特别适合自动驾驶领域的研究者和开发者。文章还包含了避坑指南和性能优化建议,确保读者能够高效完成多模态数据可视化任务。
数理统计 —— 从样本到推断:三大分布与正态总体的桥梁作用
本文深入探讨了数理统计中三大抽样分布(卡方分布、t分布、F分布)在从样本推断总体中的关键作用。通过实际案例和代码示例,详细解析了这些分布与正态总体的关系及其在方差检验、小样本分析和方差比较等场景中的应用,为数据分析师提供了实用的统计推断工具和方法。
ARM指令集演进史:从ARM7到Cortex-A78,Thumb-2如何改变了游戏规则?
本文深入探讨了ARM指令集从ARM7到Cortex-A78的演进历程,重点分析了Thumb-2技术如何通过16/32位混合指令集解决性能与代码密度的矛盾。文章揭示了Thumb-2在移动计算时代的革命性影响,包括消除状态切换开销、提升能效比等关键突破,并展望了ARM指令集在边缘计算和AI时代的新发展方向。
已经到底了哦
精选内容
热门内容
最新内容
CTF-Crypto智能解密新范式:Ciphey的实战应用与效率革命
本文深入探讨了Ciphey在CTF-Crypto挑战中的革命性应用,通过AI概率分析和自然语言处理技术,自动识别并解密300+种加密方式,大幅提升解题效率。文章详细解析了Ciphey的核心技术、安装指南及实战案例,帮助CTF选手在竞赛中快速破解复杂密码题。
FPGA与DDR4:从MIG IP核到高效数据通道的实战解析
本文深入解析FPGA与DDR4的硬件设计基础及MIG IP核配置要点,重点探讨了AXI接口和原生APP接口的实战应用,并提供了时序参数优化与性能调试的实用技巧。通过KCU105开发板案例,帮助开发者掌握从MIG IP核到高效数据通道的实现方法,提升DDR4在高速数据采集等场景的应用效率。
龙芯电脑装国产系统,U盘启动总失败?手把手教你搞定PMON/昆仑固件下的中标麒麟7.0安装
本文详细解析了在龙芯电脑上安装中标麒麟7.0系统时U盘启动失败的常见问题及解决方案。从PMON/昆仑固件的兼容性、启动介质制作技巧到固件深度调优,提供全面的避坑指南,帮助用户顺利完成国产系统部署。特别针对龙芯处理器与中标麒麟的组合优化给出了实用建议。
扩散模型实战:5个CVPR-2025论文中的黑科技应用(附代码复现)
本文深入解析CVPR-2025中扩散模型的五大前沿应用,包括医学影像超分辨率重建、工业缺陷合成、三维场景生成等黑科技,并附有可复现的PyTorch代码。这些创新技术突破传统图像生成边界,为医疗、工业质检和3D内容生产等领域带来革命性解决方案。
在MFC老项目中嵌入Chrome内核:用CEF为传统桌面应用开发一个现代化Web视图控件
本文探讨了如何在MFC老项目中嵌入Chrome内核,使用CEF(Chromium Embedded Framework)为传统桌面应用开发现代化Web视图控件。通过CEF的深度整合,开发者可以在保留MFC业务逻辑的同时,利用现代Web技术(如Vue/React)提升UI体验。文章详细介绍了双向通信机制、资源加载策略及性能优化建议,为技术团队提供了一条渐进式迁移路径。
Windows游戏开发计时指南:用QueryPerformanceFrequency搞定帧率锁定与平滑渲染
本文详细解析了Windows游戏开发中如何利用QueryPerformanceFrequency和QueryPerformanceCounter实现高精度帧率锁定与平滑渲染。通过深入探讨计时原理、游戏循环构建及性能优化技巧,帮助开发者解决画面卡顿问题,提升游戏流畅度。特别适合使用DirectX或OpenGL的C++开发者参考实践。
手把手教你用Vivado Cordic IP核实现高精度角度计算:从仿真到上板验证
本文详细介绍了如何使用Vivado Cordic IP核实现高精度角度计算,涵盖从算法基础、IP核配置、仿真验证到硬件部署的全流程。重点解析了arctan计算模式的关键参数设置,提供了Verilog封装模块示例和高级仿真策略,并分享硬件调试与性能优化技巧,帮助工程师快速掌握FPGA上的角度计算实现。
手把手教你用yum和源码编译两种方式升级CentOS7的OpenSSH到9.6
本文详细介绍了在CentOS7系统中通过yum和源码编译两种方式升级OpenSSH到9.6版本的完整流程。从备份配置、依赖检查到具体操作步骤,涵盖YUM自动化升级与源码编译安装的优缺点对比,帮助用户根据实际需求选择最佳方案,确保SSH服务的安全与稳定。
AD8232心率传感器数据不准?可能是这5个常见坑你没避开
本文针对AD8232心率传感器数据不准的问题,提供了5个实战避坑指南,包括电极与皮肤接触、电源噪声、PCB布局、导联脱落检测和软件滤波等关键因素。特别强调了医用级电极贴片和电源质量对心率监测仪信号稳定性的重要影响,帮助开发者提升数据准确性。
FPGA与USB2.0通信实战:从Slave FIFO状态机到固件调试
本文详细介绍了FPGA与USB2.0通信的实战经验,从Slave FIFO状态机设计到固件调试技巧。通过硬件连接要点、状态机框架、固件配置和上位机开发等核心内容,帮助开发者高效实现FPGA与USB2.0的高速稳定通信,解决常见问题并优化性能。