Articles of PDFBox

convertire pdf in SVG

Voglio convertire PDF in SVG per favore suggerire alcune librerie / eseguibili che saranno in grado di farlo in modo efficiente. Ho scritto il mio programma java usando le librerie Apache PDFBox e Batik – PDDocument document = PDDocument.load( pdfFile ); DOMImplementation domImpl = GenericDOMImplementation.getDOMImplementation(); // Create an instance of org.w3c.dom.Document. String svgNS = “http://www.w3.org/2000/svg”; […]

Identificazione del testo in base all’output in PDF utilizzando PDFBOX

Iam utilizza la PDF BOX per ottenere informazioni sul colore del testo in PDF. Potrei ottenere l’output usando il seguente codice. Ma il mio dubbio è ciò che rappresenta StrokingColor, ciò che rappresenta il colore Non stroking. Basandomi su come deciderò quale testo sta avendo il colore. Qualcuno mi suggerisce? Il mio output è così: […]

PDFBox: problema con la conversione della pagina pdf in immagine

La mia missione è piuttosto semplice: convertire ogni singola pagina di un file pdf in immagini. Ho provato a utilizzare la versione open source di icepdf per generare le immagini ma non generare l’immagine con il carattere corretto. Quindi inizio a utilizzare PDFBox. Il codice è il seguente: PDDocument document = PDDocument.load(new File(“testing.pdf”)); List pages […]

Come unire due file PDF in uno in Java?

Voglio unire molti file PDF in uno usando PDFBox e questo è quello che ho fatto: PDDocument document = new PDDocument(); for (String pdfFile: pdfFiles) { PDDocument part = PDDocument.load(pdfFile); List list = part.getDocumentCatalog().getAllPages(); for (PDPage page: list) { document.addPage(page); } part.close(); } document.save(“merged.pdf”); document.close(); Dove pdfFiles è un ArrayList contenente tutti i file PDF. […]

come aggiungere unicode in truetype0font su pdfbox 2.0.0?

Sto usando il PDFBOX versione 2.0.0 in un progetto Java per convertire i pdf in testo. molti dei miei pdf mancano del metodo ToUnicode, quindi escono in Gibberish mentre li esporto. 2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 – No Unicode mapping for 694 (30) in font MPBAAA+F1 nel WARN sopra, invece del vero carattere, è stato presentato […]

Come determinare lo stile grassetto artificiale, lo stile corsivo artificiale e lo stile di contorno artificiale di un testo utilizzando PDFBOX

Sto usando PDFBox per convalidare un documento pdf. Ci sono alcuni requisiti per controllare i seguenti tipi di testo presenti in un PDF Testo in grassetto artificiale Testo in stile corsivo artificiale. Testo in stile contorno artificiale Ho cercato nella lista API di PDFBOX ma non sono riuscito a trovare questo tipo di API. Qualcuno […]

Utilizzo di PDFBox per scrivere stringhe con codifica UTF-8 in un PDF

Ho problemi a scrivere caratteri Unicode su un PDF usando PDFBox. Ecco alcuni esempi di codice che generano caratteri illeggibili invece di emettere “š”. Cosa posso aggiungere per ottenere supporto per le stringhe UTF-8? PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); PDPageContentStream contentStream = new PDPageContentStream(document, page); PDType1Font font = PDType1Font.HELVETICA; […]

Analisi di file PDF (in particolare con tabelle) con PDFBox

Ho bisogno di analizzare un file PDF che contiene dati tabulari. Sto usando PDFBox per estrarre il testo del file per analizzare il risultato (String) in seguito. Il problema è che l’estrazione del testo non funziona come previsto per i dati tabulari. Ad esempio, ho un file che contiene una tabella come questa (7 colonne: […]

estrai le immagini da pdf usando pdfbox

Sto cercando di estrarre immagini da un pdf usando pdfbox. Il pdf di esempio qui Ma sto solo ottenendo immagini vuote. Il codice mi sta provando: – public static void main(String[] args) { PDFImageExtract obj = new PDFImageExtract(); try { obj.read_pdf(); } catch (IOException ex) { System.out.println(“” + ex); } } void read_pdf() throws IOException […]

PdfBox codifica simbolo valuta euro

Ho creato un documento PDF con la libreria Apache PDFBox. Il mio problema è quello di codificare il simbolo dell’euro quando si traccia una stringa sulla pagina, perché il carattere di base Helvetica non fornisce questo carattere. Come posso convertire l’output “þÿ ¬” al simbolo “€” ?.