Ubuntu fournit des outils graphiques et en ligne de commande pour convertir des fichiers PDF (Portable Document ) en format texte . La version en ligne de commande , " pdftotext " , automatise le processus en incluant la commande de conversion dans un script shell. De cette façon, plusieurs fichiers PDF peuvent être modifiées en même temps . Un certain nombre d'options en ligne de commande fournis avec la commande enable actions spécifiques (tels que seulement convertir les quelques premières pages ) qui auront lieu chaque fois qu'il est exécuté . Obtention pdftotext
obtenir les paquets et de commandement " pdftotext " dans les bibliothèques Ubuntu via la commande appropriée:
sudo apt- get install poppler -utils
Assurez-vous que le paquet installe correctement avant d'essayer de l'utiliser.
pdftotext Man page
savoir comment fonctionne le commandement pdftotext et familiarisez-vous avec les options de ligne de commande disponibles . Regardez la page de manuel de la commande entrant " homme pdftotext " sur la ligne de l'invite de commande shell , et appuyez sur "Entrée " . Les options de ligne de commande sont constitués de lettres, précédées par un tiret , comme "-l" , et ils offrent tous des fonctions différentes.
La commande standard pour pdftotext est " pdftotext " (sans les guillemets ) où est le nom du fichier PDF pour en extraire , comme « report.pdf " et est le nom du fichier de sortie de texte, tel que " report.txt " . Vous pouvez utiliser n'importe quel nom de votre choix.
Batch Conversion PDF
tester la commande de l'essayer sur quelques fichiers PDF individuellement . Si il est correct vous pouvez essayer de l'utiliser sur un certain nombre de fichiers PDF dans des scripts shell pour automatiser le processus. Un exemple d'un scénario typique est illustré ci-dessous :
for i in * pdf
faire
pdftotext $ i $ I.txt
fait < . br>
Ce script prend tous les fichiers PDF dans le répertoire courant et les exporte avec leur nom à un fichier texte , donc " report.pdf " deviendrait " report.pdf.txt "
< br > fichiers PDF protégés
Certains fichiers PDF sont protégés par mot de passe ou soit mis en place pour empêcher l'exportation de texte du document . Il s'agit d'une tentative de protéger le droit d'auteur et si c'est le cas, peut-être vous feriez mieux de reconsidérer la conversion à partir d'un point de vue juridique . Si vous avez le mot de passe d'un fichier PDF, ce qui peut être passé dans les options de ligne de commande pour " pdftotext " .