Parser un PDF

Classified in : Ubuntu - Tags : parse, PDF

Il vous faut récupérer des informations depuis un/des fichiers PDF ... voici quelques solutions (sous Ubuntu et assimilé).

Tout dépend de ce qu'on veut faire des fichiers PDF.

Pour lire les caractéristiques

La commande pdfinfo vous donnera toutes les informations désirées.

$ pdfinfo monFichier.pdf

Pour lire le contenu

En texte brut

La commande pdftotext génèrera un fichier texte à partir du PDF. Pour conserver la mise en page (en colonne etc) , on utilise l'option -layout.

$ pdftotext -layout monFichier.pdf

En texte mise en forme

La commande pdftohtml permet de conserver la mise en forme. On l'utilise avec l'option -xml et cela permet de récupérer le contenu du PDF assez facilement.

 

Il y a encore d'autres possibilités avec Inkscape et PDFMiner.

Tout ceci est extrait d'un article de Thomas Levine (en Anglais).

 

Bon parsing de PDF ! wink

[ no comments ]

© Le Computing Froggy  !

  • Article Currently 1.00/5
  • 1
  • 2
  • 3
  • 4
  • 5

 Rating : 1.0/5 (2 votes cast)

Write a comment

What is the second letter of the word wwqk? :