Comment lire un fichier PDF en Java

Il n'est pas difficile de lire les fichiers PDF en Java en utilisant les librairies qui sont facilement disponibles . La lecture des fichiers PDF vous permet d'écrire des programmes Java qui peuvent traiter le texte dans ces fichiers . Une option pour la lecture des fichiers PDF est l' , bibliothèque PDFBox open-source gratuit disponible sur Apache . La plate-forme Eclipse Java développement rend cette tâche plus facile et gère les bibliothèques , vous serez téléchargement. Vous devez être familier avec la programmation Java de faire usage de ces bibliothèques Java . Instructions
Rassemblez les bibliothèques nécessaires
1

Télécharger le JDK Java sur le site Web de Sun. Il s'agit d'un fichier exécutable que vous pouvez installer sur votre système en exécutant. Des versions sont disponibles pour Windows, Mac et Linux. Cliquez sur le bouton rouge \\ " Download \\ " . Enregistrer un fichier appelé \\ " jdk- 6uxx -windows- xxx.exe \\" lorsque vous êtes invité . Enregistrez ce fichier et double- cliquez dessus pour lancer l'installateur Java.
2

Télécharger le système de développement Eclipse et décompressez-le dans un répertoire de haut niveau. Sélectionnez \\ " Eclipse IDE for Java Developers . \\" Cela va démarrer le téléchargement de \\ " eclipse- java- galileo - SR2- win32.zip . \\ " Double- cliquez sur le fichier pour le décompresser après le téléchargement compléter . Sélectionnez le \\ " C: \\" .
3

Eclipse Démarrer Annuaire emplacement racine pour décompresser Eclipse en double-cliquant sur \\ " eclipse.exe \\" dans le répertoire vient d'être créé par la décompression du fichier zip éclipse. Dans le système Eclipse , créez un projet nommé \\ " PrintPDF . \\" Sélectionnez \\ " fichier \\ ", puis \\ " New \\ ", puis \\ " projet Java. \\" Tapez le nom du projet \\ " ; PrintPDF \\ "dans la boîte de dialogue qui apparaît. Assurez-vous que le bouton radio est sélectionné qui dit \\ "Créer des dossiers séparés pour les fichiers sources et de classe. \\" Cliquez sur \\ "Terminer \\".
4

Créer un \\ " lib \\ " dossier dans votre \\" PrintPDF \\ " projet. Faites un clic droit sur le \\ " PrintPDF \\" projet et sélectionnez \\ " New \\" , puis \\ " dossier. \\" Entrez le nom \\ " lib \\ " et cliquez sur \\ " Terminer. \\ "
5

Télécharger Apache \\" PDFBox.jar \\ " à partir du site Apache et le copier dans le répertoire lib vous venez de créer. Sur la même page web , téléchargez le " \\ fontbox - nn.jar " fichier \\ et le fichier \\ " jempbox - nn.jar \\" . Dans tous les cas , lorsque vous cliquez sur ce fichier JAR, il vous amène à une page où vous pouvez choisir l'un des nombreux serveurs qui peuvent fournir ce fichier . Choisissez chacun d'eux et chaque fichier jar télécharger . Copiez chaque fichier jar dans le répertoire lib vous venez de créer.
6

Télécharger le package log4j.jar Apache de la même façon et copiez le fichier log4j.jar dans le répertoire. La bibliothèque PDFBox Apache utilise cette bibliothèque journalisation Apache, si ce fichier doit être présent .
7

Télécharger le package Découverte Apache Commons forme d'un fichier zip. Double -cliquez sur le fichier zip , sélectionnez la \\ " commons- discovery- nn.jar \\" et l'extraire dans le répertoire lib .
8

Dans Eclipse , cliquez sur le \\ " lib \\ " répertoire et appuyez sur \\ " F5 . \\ " Assurez-vous que tous les fichiers jar que vous avez ajoutés sont affichés.
9

clic-droit sur le projet PrintPDF et sélectionnez " Propriétés \\ . \\ " sélectionnez \\ " chemin de génération Java \\ "et sélectionnez la \\" \\ onglet Bibliothèques " . Cliquez sur \\ " Ajouter des fichiers JAR \\" et allez dans le répertoire lib vous venez de créer et ajoutez \\ " commons-logging - nn.jar \\" \\ " fontbox - nn.jar , \\" \\ " ; . jempbox - nn.jar , \\ "\\" log4j - nn.jar , \\ "et \\ " pdfbox - nn.jar \\ "Cliquez sur \\" OK \\ "
 Photos écrire le code pour lire des fichiers PDF
10

clic-droit sur le dossier \\ "src \\" de votre \\ " PrintPDF \\" projet et sélectionnez \\ " New \\ " et le \\" package. \\ "Créer un paquet en utilisant n'importe quel nom évocateur . Par exemple, nommez le package \\ " com.pdf.util . \\" Cliquez sur \\ "Terminer \\".
11

clic-droit sur le nom du package que vous venez de créer et sélectionnez \\ "Nouveau \\ ", puis " Class. \\" \\ Créez une classe nommée \\ " PDFTextParser . \\" Assurez-vous de cliquer sur la case à cocher marquée \\ " public static void main ... \\" si que le système va créer une méthode \\ " main \\ " .
12

Modifier la méthode \\ " main \\ " dans le " PDFTextParser \\" \\ classe pour contenir le code suivant :

public static void main ( String args [] ) {
PDFTextParser pdf = new PDFTextParser ( \\ "data /javaPDF.pdf \\") VOIR
//imprimer les résultats />
System.out.println ( pdf.getParsedText ())

GO }
a noter que le fichier que vous souhaitez imprimer est défini dans le constructeur pour PDFTextParser ( \\ "data /JavaPDF.pdf \\") . Il pourrait tout aussi bien être un argument de ligne de commande:

PDFTextParser pdf = new PDFTextParser (argv [0])

GO ou choisi à partir d'une interface graphique .

Il crée une instance de la classe PDFTextParser , puis appelle sa méthode \\ " getParsedText \\" .
13

Insérez le code suivant juste en dessous de la ligne haut de gamme \\ " PDFTextParser public class \\" qui a été créé pour vous.

analyseur de PDFParser privé = null />

texte //Extrait du document PDF
PDFTextParser publique (String fileName ) {
File file = new File (fichier)
; ( ! file.isFile () ) GO

si { System.err.println (\\ " fichier \\" + fileName + \\ " . n'existe pas \\")

GO }
//Configurer instance de PDF analyseur

try { parser = new PDFParser ( new FileInputStream (fichier) )

GO } catch ( IOException e) {
System.err.println (\\ " Impossible d'ouvrir Parser PDF . \\" + e.getMessage () )

GO } }

//--------------------- ----------
cordes getParsedText publique () {
PDDocument pdDoc = null

GO COSDocument cosDoc = null; Chaîne parsedText = null;
GO

try { PDFTextStripper pdfStripper = new PDFTextStripper ()
GO parser.parse ()

GO cosDoc = parser.getDocument ()

GO pdDoc = new PDDocument ( cosDoc ) VOIR

//liste de toutes les pages obtenir
liste list = pdDoc.getDocumentCatalog () . getAllPages ( )
aller 
//Notez que vous pouvez imprimer les pages que vous souhaitez
//en choisissant différentes valeurs de la page de démarrage et de fin
pdfStripper.setStartPage (1) ;
int length = list.size (); //Nombre total de pages
pdfStripper.setEndPage (longueur) ; //dernière page
 //obtenir le texte pour les pages sélectionnées
parsedText = pdfStripper.getText ( pdDoc )

GO } catch ( IOException e) {
System.err
. println (\\ " Une exception s'est produite dans l'analyse du document PDF . \\"
+ e.getMessage ())

GO ;} finally { try {

if (! cosDoc = null)
cosDoc.close ()

GO if ( pdDoc ! = null)
pdDoc.close ()

GO } catch ( IOException e) {
e.printStackTrace () VOIR

} }
retour parsedText

GO }
14

exécuter le programme. Faites un clic droit sur la classe PDFTextParser et cliquez sur \\ " Exécuter en tant que \\ " puis sur \\ " programme Java. \\" Le programme doit exécuter et d'imprimer le contenu du texte du fichier PDF que vous avez entré votre code .
réprimer log4j démarrage Message d'erreur 15

Créer un fichier de configuration pour supprimer le message Java journalisation du système log4j d'erreur créé quand il ne peut pas trouver un fichier de configuration au démarrage . Faites un clic droit sur le dossier \\ "src \\" du projet PrintPDF et sélectionnez \\ " New \\" , puis \\ " fichier \\". Nommez le fichier \\ " log4j.properties \\" Eclipse affiche un écran vide pour ce nouveau fichier .
16

collez les lignes suivantes dans l'écran vide représentant le " log4j.properties \\" de \\ fichier .

; # Définir le niveau de journalisation racine pour le débogage et son seul appender à A1
log4j.rootLogger = WARN , A1

# A1 est configuré pour être un ConsoleAppender < . . br /> log4j.appender.A1 = org.apache.log4j.ConsoleAppender

# A1 utilise PatternLayout .
log4j.appender.A1.layout = org.apache . log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern =% -4R [% t ]% -5p % c % x - % m% n
17

Save the " \\ log4j.properties " fichier \\ . La présence de ce fichier dans le top- niveau \\ "src \\" répertoire supprimera le message de démarrage log4j et les messages de journalisation triviales. Le système log4j permet d'imprimer uniquement les erreurs réelles .

Previous ： Comment faire pour convertir un fichier PDF à une feuille de calcul Excel

next ： Comment faire pour convertir un fichier PDF de logiciels Word