PARDA: A Dataset for Scholarly PDF Document Metadata Extraction Evaluation

Tiantian Fan; Junming Liu; Yeliang Qiu; Congfeng Jiang; Jilin Zhang; Wei Zhang; Jian Wan

Collaborative Computing: Networking, Applications and Worksharing. 14th EAI International Conference, CollaborateCom 2018, Shanghai, China, December 1-3, 2018, Proceedings

Research Article

PARDA: A Dataset for Scholarly PDF Document Metadata Extraction Evaluation

Download

83 downloads

Cite: BibTeX Plain Text

@INPROCEEDINGS{10.1007/978-3-030-12981-1_29,
    author={Tiantian Fan and Junming Liu and Yeliang Qiu and Congfeng Jiang and Jilin Zhang and Wei Zhang and Jian Wan},
    title={PARDA: A Dataset for Scholarly PDF Document Metadata Extraction Evaluation},
    proceedings={Collaborative Computing: Networking, Applications and Worksharing. 14th EAI International Conference, CollaborateCom 2018, Shanghai, China, December 1-3, 2018, Proceedings},
    proceedings_a={COLLABORATECOM},
    year={2019},
    month={2},
    keywords={Metadata extraction Dataset Performance evaluation Document analysis},
    doi={10.1007/978-3-030-12981-1_29}
}

Tiantian Fan
Junming Liu
Yeliang Qiu
Congfeng Jiang
Jilin Zhang
Wei Zhang
Jian Wan
Year: 2019
PARDA: A Dataset for Scholarly PDF Document Metadata Extraction Evaluation
COLLABORATECOM
Springer
DOI: 10.1007/978-3-030-12981-1_29

Tiantian Fan^,*, Junming Liu^,*, Yeliang Qiu^,*, Congfeng Jiang^,*, Jilin Zhang^,*, Wei Zhang^,*, Jian Wan^,*

*Contact email: ttfanx@hdu.edu.cn, jmliu@hdu.edu.cn, qiuyeliang@hdu.edu.cn, cjiang@hdu.edu.cn, jilin.zhang@hdu.edu.cn, maghero@hdu.edu.cn, wanjian@zust.edu.cn

Abstract

Metadata extraction from scholarly PDF documents is the fundamental work of publishing, archiving, digital library construction, bibliometrics, and scientific competitiveness analysis and evaluations. However, different scholarly PDF documents have different layout and document elements, which make it impossible to compare different extract approaches since testers use different source of test documents even if the documents are from the same journal or conference. Therefore, standard datasets based performance evaluation of various extraction approaches can setup a fair and reproducible comparison. In this paper we present a dataset, namely, PARDA(Pdf Analysis and Recognition DAtaset), for performance evaluation and analysis of scholarly documents, especially on metadata extraction, such as title, authors, affiliation, author-affiliation-email matching, year, date, etc. The dataset covers computer science, physics, life science, management, mathematics, and humanities from various publishers including ACM, IEEE, Springer, Elsevier, arXiv, etc. And each document has distinct layouts and appearance in terms of formatting of metadata. We also construct the ground truth metadata in Dublin Core XML format and BibTex format file associated this dataset.

Keywords: Metadata extraction Dataset Performance evaluation Document analysis

Published: 2019-02-07
Appears in: SpringerLink

: http://dx.doi.org/10.1007/978-3-030-12981-1_29