这smalot/pdfparser是一个独立的 PHP 包,它提供了多种工具来从 PDF 文件中提取数据。
特征
加载/解析对象和标头
提取元数据(作者、描述等)
从有序页面中提取文本
支持压缩的 PDF
支持MAC OS Roman charset编码
处理文本部分中的十六进制和八进制编码
创建自定义配置。
目前不支持安全文档和提取表单数据。
安装
这个库需要 PHP 7.1+ since v1。您可以通过Composer安装它:
composer require smalot/pdfparser
快速示例
<?php
// Parse PDF file and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('/path/to/document.pdf');
$text = $pdf->getText();
echo $text;