简历信息提取论文笔记Information Extraction from Resume Documents in PDF Format

news/2024/4/20 7:05:57/文章来源:https://blog.csdn.net/Albert233333/article/details/129227984

标题：Information Extraction from Resume Documents in PDF Format

下载地址：https://library.imaging.org/ei/articles/28/17/art00013

长度：8页

发表时间：2016

引用量cite=27

先读标题、摘要、结论、

然后 methods/experiment design,result analysis

（1）文章的概要。介绍这篇文章讲的什么？模型是什么？

从PDF格式的简历中提取信息

（2）文章的实现流程及实现难度

第二步，然后每个blocks可以使用条件随机场来进行分类。分类的时候使用的特征有两种，一种是内容为基础的特征content-based features，另外一种是从PDF文件中解析出来的页面布局的特征 layout based features which are parsed from PDF documents.

layout-based features这一特征，使得平均F1 score提高了22%。

two-layer model

Step1 PreProcessing预处理

这一步其实就是分词segmentation。分词以前，每个英文单词叫做character。分词以后，一个词或几个词组成的一个语义块，被称为token。下面这个分词的过程，就是在merge characters into tokens的过程。

先把简历文件resume document中的每个文字字符解析parses出来放到一个文字列表character list中。然后，我们从左到右遍历每一个字符，按照下面这两个准则进行分词。

-1- 如果连续的两段字符successive characters之间的具备以下几个特性，我们将把他们拆开split。（1）字号不同或者字体不同font style（2）两个字符character之间的空gap大于某个阈值fixed threshhold

-2- 如果遍历的当前字符是一个标点符号punctuations（比如双引号，括号，冒号，逗号），那么就把这个标点和这个标点以前的字符,标点之后的字符拆开separate。但是注意，下面这两个情况不做分词，不切开（1）如果这个标点是破折号，就不要做拆分（2）如果current character是一个period(英文句号那个小点)，比如 Ph.D., Dr., Prof.，这些都不要拆开。

针对文章的layout布局排版信息也进行记录：像字体名字font name、字号大小font size、方框bounding box

这一步预处理以后,为了避免打错标签mis-tagging，我们会使用heuristic rules去merge合并tokens或者split拆分tokens

Step2 Block Segmenting and Classifying

2.1 Segmenting

我猜测这一步就是把上一步的切好的语义块token，再次进行合并，组成一个个block。这一步其实就是特征工程，这一步，分好block，为后面的信息提取information extraction步骤提供尽可能好的特征

根据前面定义好的简历hierarchical logical structure层次逻辑结构，整个文件document会被分割成一个个blocks。分割好的这一个个block对都应逻辑结构logic structure的一个高层次块high-level block.（也没看懂，具体是怎么做的）

使用的方法是递归自下而上算法recursively bottom-up algorithm.以把行与行之间空当大小作为标准，对他们进行排序。小的block被merge进更大的block里面。（没懂什么意思）

一些基于文件布局排版document layout segmentation的信息会被用来阻止prevent错误分割mis-segmenting和分割的过多over-segmenting了.layout information包括 font size, font style, blank space,alignment。举个例子说明，比如说有简历中有一段text是被加粗的，那么这段被加粗的字可能是这个block的title。那么这个title就不应该和之间的preceding block进行合并，而是应该单独拿出来。

这里注意一个block里面应该有多少个词组成，这个词数block size是一个超参数。后面我们会做实验展示这个把这个超参数调小或者调大，最终performance score是多少，从而带着你找到一个最优的block size的数字。