实施NLP流水线之前干点什么

NLP流水线总览

NLP处理套路无非以下该图中描述

该文的重点则对所有该流水线之前的任务进行补充

数据本身处理

  • 简繁体转换或其他同义转换(中文)
  • 全角半角转换
  • 不在dictionary(正则与替换对照词典)以内的单词就用UNK取代
  • 可以在句首加上,在句末加上
  • url,at,表情符号等统一替换
  • 稀有词替换为 (词频小于某一个阈值)
  • 编码转换
  • 小写转换
  • 去除标点符号(根据具体的任务也可替换)
  • 去除停用词
  • 去除频现词
  • 去除稀疏词
  • 略缩词替换
  • 错词纠正(将词替换为词典中最近的词或者)
  • 单位替换(将文本中的单位替换为统一格式如:将4kgs、4kg统一替换为4 kg,将4k替换为4000,将100或100 100或100100或100替换为100 dollar)
  • 词形还原(lemmatization)
  • 其他语言进行翻译(比如对于中文中的英文单词归一化为<_e_>)
  • 数字归一化(比如将小于10的为<如果在之后的实体识别中需要对应的原始数字则跳过该步骤.1:NUM> 大于10<2:num>)

数据增强

  • 长句截断
  • dropout
  • shuffle
  • 文档裁减(这样我将获得更多的数据。开始的时候我尝试从文档中抽取几个句子并创建10个新文档。这些新创建的文档句子间没有逻辑关系,所以用它们训练得到的分类器性能很差。第二次,我尝试将每篇文章分成若干段,每段由文章中五个连续的句子组成。这个方法就运行得非常好,让分类器的性能提升很大)
  • 文本对齐
  • 同义词替换
  • 回译
  • 迁移学习
  • GAN
  • BERT

实体识别的分类

PERSON People, including fictional.
NORP Nationalities or religious or political groups.
FAC Buildings, airports, highways, bridges, etc.
ORG Companies, agencies, institutions, etc.
GPE Countries, cities, states.
LOC Non-GPE locations, mountain ranges, bodies of water.
PRODUCT Objects, vehicles, foods, etc. (Not services.)
EVENT Named hurricanes, battles, wars, sports events, etc.
WORK_OF_ART Titles of books, songs, etc.
LAW Named documents made into laws.
LANGUAGE Any named language.
DATE Absolute or relative dates or periods.
TIME Times smaller than a day.
PERCENT Percentage, including ”%“.
MONEY Monetary values, including unit.
QUANTITY Measurements, as of weight or distance.
ORDINAL “first”, “second”, etc.
CARDINAL Numerals that do not fall under another type.

参考

Introdecton to pipelines
文本数据处理的终极指南-NLP入门
使用re正则化进行文本清理
自然语言处理时,通常的文本清理流程是什么?
中文自然语言处理时,英文单词和数字怎么处理?
几千条文本库也能做机器学习!NLP小数据集训练指南
知乎“看山杯” 夺冠记


版权声明:本文由littleji.com创作并发表,转载请注明作者及出处,欢迎关注公众号:littleji_com
本文遵守CC BY0SA 4.0
if you have any questions, please leave a message behind or give an issue

本文链接为:https://blog.littleji.com/2019/04/27/20190427SomethingBeforeTheNlpPipline/