Parser un PDF - Le Computing Froggy

Il vous faut récupérer des informations depuis un/des fichiers PDF ... voici quelques solutions (sous Ubuntu et assimilé).

Tout dépend de ce qu'on veut faire des fichiers PDF.

Pour lire les caractéristiques

La commande pdfinfo vous donnera toutes les informations désirées.

$ pdfinfo monFichier.pdf

Pour lire le contenu

En texte brut

La commande pdftotext génèrera un fichier texte à partir du PDF. Pour conserver la mise en page (en colonne etc) , on utilise l'option -layout.

$ pdftotext -layout monFichier.pdf

En texte mise en forme

La commande pdftohtml permet de conserver la mise en forme. On l'utilise avec l'option -xml et cela permet de récupérer le contenu du PDF assez facilement.

Il y a encore d'autres possibilités avec Inkscape et PDFMiner.

Tout ceci est extrait d'un article de Thomas Levine (en Anglais).

Bon parsing de PDF !

Écrire un commentaire