Parser un PDF
Classé dans : Ubuntu - Mots clés : parse, PDFIl vous faut récupérer des informations depuis un/des fichiers PDF ... voici quelques solutions (sous Ubuntu et assimilé).
Tout dépend de ce qu'on veut faire des fichiers PDF.
Pour lire les caractéristiques
La commande pdfinfo
vous donnera toutes les informations désirées.
$ pdfinfo monFichier.pdf
Pour lire le contenu
En texte brut
La commande pdftotext
génèrera un fichier texte à partir du PDF. Pour conserver la mise en page (en colonne etc) , on utilise l'option -layout
.
$ pdftotext -layout monFichier.pdf
En texte mise en forme
La commande pdftohtml permet de conserver la mise en forme. On l'utilise avec l'option -xml et cela permet de récupérer le contenu du PDF assez facilement.
Il y a encore d'autres possibilités avec Inkscape et PDFMiner.
Tout ceci est extrait d'un article de Thomas Levine (en Anglais).
Bon parsing de PDF !