PDFParser (MyTISM API Documentation)

java.lang.Object
- de.ipcon.tools.PDFParser

public class PDFParser
extends java.lang.Object

Method Summary

All Methods Static Methods Concrete Methods
Modifier and Type	Method and Description
`static java.lang.String`	`extract(byte[] bytes)` Parses a PDF file and extracts the text from it
`static java.lang.String`	`extract(byte[] bytes, boolean toHTML)`
`static java.lang.String`	`extract(byte[] bytes, boolean toHTML, boolean fast)`
`static java.lang.String`	`extract(byte[] bytes, boolean toHTML, boolean fast, java.lang.String password)`
`static java.lang.String[]`	`extract(byte[] bytes, java.awt.Rectangle[] areas)` Parses a PDF file and extracts the text from it
`static java.lang.String[]`	`extract(byte[] bytes, java.awt.Rectangle[] areas, int page)`
`static java.lang.String[]`	`extract(byte[] bytes, java.awt.Rectangle[] areas, int page, java.lang.String password)`
`static java.lang.String`	`extract(java.io.File pdfFile)` Parses a PDF file and extracts the text from it
`static java.lang.String`	`extract(java.io.File pdfFile, boolean toHTML)`
`static java.lang.String`	`extract(java.io.File pdfFile, boolean toHTML, boolean fast)`
`static java.lang.String`	`extract(java.io.File pdfFile, boolean toHTML, boolean fast, java.lang.String password)`
`static java.lang.String[]`	`extract(java.io.File f, java.awt.Rectangle[] areas)` Parses a PDF file and extracts the text from it
`static java.lang.String[]`	`extract(java.io.File f, java.awt.Rectangle[] areas, int page)`
`static java.lang.String[]`	`extract(java.io.File f, java.awt.Rectangle[] areas, int page, java.lang.String password)`
`static java.awt.image.BufferedImage`	`getBufferedImage(byte[] pdfdoc, java.lang.String password)` Creates a BufferedImage from the given page of the pdf document
`static java.awt.image.BufferedImage`	`getBufferedImage(byte[] pdfdoc, java.lang.String password, int pagenum)`
`static java.awt.image.BufferedImage`	`getBufferedImage(byte[] pdfdoc, java.lang.String password, int pagenum, int imageType)`
`static java.awt.image.BufferedImage`	`getBufferedImage(byte[] pdfdoc, java.lang.String password, int pagenum, int imageType, int resolution)`
`static java.awt.image.BufferedImage`	`getBufferedImage(java.io.File pdfdoc, java.lang.String password)` Creates a BufferedImage from the given page of the pdf document
`static java.awt.image.BufferedImage`	`getBufferedImage(java.io.File pdfdoc, java.lang.String password, int pagenum)`
`static java.awt.image.BufferedImage`	`getBufferedImage(java.io.File pdfdoc, java.lang.String password, int pagenum, int imageType)`
`static java.awt.image.BufferedImage`	`getBufferedImage(java.io.File pdfdoc, java.lang.String password, int pagenum, int imageType, int resolution)`

Methods inherited from class java.lang.Object
equals, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

Method Detail

extract

public static java.lang.String[] extract(java.io.File f,
                                         java.awt.Rectangle[] areas)
                                  throws java.io.IOException,
                                         java.io.FileNotFoundException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Parses a PDF file and extracts the text from it

Parameters:: f - A PDF File; areas - The areas on the given page to parse
Returns:: A String containing the file text content
Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String[] extract(java.io.File f,
                                         java.awt.Rectangle[] areas,
                                         int page)
                                  throws java.io.IOException,
                                         java.io.FileNotFoundException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String[] extract(java.io.File f,
                                         java.awt.Rectangle[] areas,
                                         int page,
                                         java.lang.String password)
                                  throws java.io.IOException,
                                         java.io.FileNotFoundException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String[] extract(byte[] bytes,
                                         java.awt.Rectangle[] areas)
                                  throws java.io.IOException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Parses a PDF file and extracts the text from it

Parameters:: bytes - A bytearray containing a PDF File; areas - The areas on the given page to parse
Returns:: A String containing the file text content
Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String[] extract(byte[] bytes,
                                         java.awt.Rectangle[] areas,
                                         int page)
                                  throws java.io.IOException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String[] extract(byte[] bytes,
                                         java.awt.Rectangle[] areas,
                                         int page,
                                         java.lang.String password)
                                  throws java.io.IOException,
                                         org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(java.io.File pdfFile)
                                throws java.io.IOException,
                                       java.io.FileNotFoundException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Parses a PDF file and extracts the text from it

Parameters:: f - A PDF File
Returns:: A String containing the file text content
Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(java.io.File pdfFile,
                                       boolean toHTML)
                                throws java.io.IOException,
                                       java.io.FileNotFoundException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(java.io.File pdfFile,
                                       boolean toHTML,
                                       boolean fast)
                                throws java.io.IOException,
                                       java.io.FileNotFoundException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(java.io.File pdfFile,
                                       boolean toHTML,
                                       boolean fast,
                                       java.lang.String password)
                                throws java.io.IOException,
                                       java.io.FileNotFoundException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract
```
public static java.lang.String extract(byte[] bytes)
                                throws java.io.IOException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException
```
Parses a PDF file and extracts the text from it

Parameters:

bytes - A bytearray containing a PDF File

Returns:

A String containing the file text content

Throws:

java.io.IOException

org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(byte[] bytes,
                                       boolean toHTML)
                                throws java.io.IOException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(byte[] bytes,
                                       boolean toHTML,
                                       boolean fast)
                                throws java.io.IOException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

extract

public static java.lang.String extract(byte[] bytes,
                                       boolean toHTML,
                                       boolean fast,
                                       java.lang.String password)
                                throws java.io.IOException,
                                       org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(java.io.File pdfdoc,
                                                            java.lang.String password)
                                                     throws java.io.IOException,
                                                            java.io.FileNotFoundException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Creates a BufferedImage from the given page of the pdf document

Parameters:: pdfdoc - A file containing a PDF; password - A password if required; pagenum - which page to load, 0-based, default 0; imageType - the image type (see BufferedImage.TYPE_*); resolution - default is 96 dots per inch
Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(java.io.File pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum)
                                                     throws java.io.IOException,
                                                            java.io.FileNotFoundException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(java.io.File pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum,
                                                            int imageType)
                                                     throws java.io.IOException,
                                                            java.io.FileNotFoundException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(java.io.File pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum,
                                                            int imageType,
                                                            int resolution)
                                                     throws java.io.IOException,
                                                            java.io.FileNotFoundException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; java.io.FileNotFoundException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage
```
public static java.awt.image.BufferedImage getBufferedImage(byte[] pdfdoc,
                                                            java.lang.String password)
                                                     throws java.io.IOException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException
```
Creates a BufferedImage from the given page of the pdf document

Parameters:

pdfdoc - A bytearray containing a PDF File

password - A password if required

pagenum - which page to load, 0-based, default 0

imageType - the image type (see BufferedImage.TYPE_*)

resolution - default is 96 dots per inch

Throws:

java.io.IOException

org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(byte[] pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum)
                                                     throws java.io.IOException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(byte[] pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum,
                                                            int imageType)
                                                     throws java.io.IOException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

getBufferedImage

public static java.awt.image.BufferedImage getBufferedImage(byte[] pdfdoc,
                                                            java.lang.String password,
                                                            int pagenum,
                                                            int imageType,
                                                            int resolution)
                                                     throws java.io.IOException,
                                                            org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Throws:: java.io.IOException; org.apache.pdfbox.pdmodel.encryption.InvalidPasswordException

Class PDFParser

Method Summary

Methods inherited from class java.lang.Object

Method Detail

extract

extract

extract

extract

extract

extract

extract

extract

extract

extract

extract

extract

extract

extract

getBufferedImage

getBufferedImage

getBufferedImage

getBufferedImage

getBufferedImage

getBufferedImage

getBufferedImage

getBufferedImage