实施NLP流水线之前干点什么(BeforANLPWork)

  • 27th Apr 2019
  • 5 min read
  • Tags: 
  • NLP
  • Updated on 6th Feb 2025

NLP流水线总览

NLP处理套路无非以下该图中描述

该文的重点则对所有该流水线之前的任务进行补充

数据本身处理

  • 简繁体转换或其他同义转换(中文)
  • 全角半角转换
  • 不在dictionary(正则与替换对照词典)以内的单词就用UNK取代
  • 可以在句首加上 <BOS>,在句末加上 <EOS>
  • url,at,表情符号等统一替换
  • 稀有词替换为 <UNK>(词频小于某一个阈值)Latest posts
  • 编码转换
  • 小写转换
  • 去除标点符号(根据具体的任务也可替换)
  • 去除停用词
  • 去除频现词
  • 去除稀疏词
  • 略缩词替换
  • 错词纠正(将词替换为词典中最近的词或者 <UNK>)
  • 单位替换(将文本中的单位替换为统一格式如:将4kgs、4kg统一替换为4 kg,将4k替换为4000,将100或100 100或100100或100替换为100 dollar)
  • 词形还原(lemmatization)
  • 其他语言进行翻译(比如对于中文中的英文单词归一化为<E>)
  • 数字归一化(比如将小于10的为如果在之后的实体识别中需要对应的原始数字则跳过该步骤.1:NUM 大于10<2:NUM>)

数据增强

  • 长句截断
  • dropout
  • shuffle
  • 文档裁减(这样我将获得更多的数据。开始的时候我尝试从文档中抽取几个句子并创建10个新文档。这些新创建的文档句子间没有逻辑关系,所以用它们训练得到的分类器性能很差。第二次,我尝试将每篇文章分成若干段,每段由文章中五个连续的句子组成。这个方法就运行得非常好,让分类器的性能提升很大)
  • 文本对齐
  • 同义词替换
  • 回译
  • 迁移学习
  • GAN
  • BERT

实体识别的分类

  • PERSON People, including fictional.
  • NORP Nationalities or religious or political groups.
  • FAC Buildings, airports, highways, bridges, etc.
  • ORG Companies, agencies, institutions, etc.
  • GPE Countries, cities, states.
  • LOC Non-GPE locations, mountain ranges, bodies of water.
  • PRODUCT Objects, vehicles, foods, etc. (Not services.)
  • EVENT Named hurricanes, battles, wars, sports events, etc.
  • WORK_OF_ART Titles of books, songs, etc.
  • LAW Named documents made into laws.
  • LANGUAGE Any named language.
  • DATE Absolute or relative dates or periods.
  • TIME Times smaller than a day.
  • PERCENT Percentage, including ”%“.
  • MONEY Monetary values, including unit.
  • QUANTITY Measurements, as of weight or distance.
  • ORDINAL “first”, “second”, etc.
  • CARDINAL Numerals that do not fall under another type.

参考

  1. Introdecton to pipelines
  2. 文本数据处理的终极指南-NLP入门
  3. 使用re正则化进行文本清理
  4. 自然语言处理时,通常的文本清理流程是什么?
  5. 中文自然语言处理时,英文单词和数字怎么处理?
  6. 几千条文本库也能做机器学习!NLP小数据集训练指南
  7. 知乎“看山杯” 夺冠记