Examples of com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy

com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy
A simple text extraction renderer. This renderer keeps track of the current Y position of each string. If it detects that the y position has changed, it inserts a line break into the output. If the PDF renders text in a non-top-to-bottom fashion, this will result in the text not being a true representation of how it appears in the PDF. This renderer also uses a simple strategy based on the font metrics to determine if a blank space should be inserted into the output. @since 2.1.5

    try {
      Assert.notNull(source, "source");


      PdfReader reader = new PdfReader(source);
      PdfReaderContentParser parser = new PdfReaderContentParser(reader);
      TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
      int pageCount = reader.getNumberOfPages();
      ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
      PrintWriter writer = new PrintWriter(outputStream);


      for (int i = 1; i <= pageCount; i++) {

View Full Code Here

  public String getText(final InputStream source) throws IOException {
    Assert.notNull(source, "source");


    PdfReader reader = new PdfReader(source);
    PdfReaderContentParser parser = new PdfReaderContentParser(reader);
    TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    int pageCount = reader.getNumberOfPages();
    ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
    PrintWriter writer = new PrintWriter(outputStream);


    for (int i = 1; i <= pageCount; i++) {

View Full Code Here

    public String extractPageText(PdfReader documentReader, int pageNum){
        String content ="";
        PdfReaderContentParser parser = new PdfReaderContentParser(documentReader);
        TextExtractionStrategy strat;
        try {
            strat = parser.processContent(pageNum, new SimpleTextExtractionStrategy());
            content = strat.getResultantText();
            
        } catch (IOException e) {
            LOGGER.log(Level.WARNING, "Failed to parse pdf text in "
                    + Thread.currentThread().getName(), e);

View Full Code Here

        throw new DocumentException("Parameter 'source' + must be set");
      }


      PdfReader reader = IText.read(source);
      PdfReaderContentParser parser = new PdfReaderContentParser(reader);
      TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
      int pageCount = reader.getNumberOfPages();
      ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
      PrintWriter writer = new PrintWriter(outputStream);


      for (int i = 1; i <= pageCount; i++) {

View Full Code Here

    try {
      Assert.notNull(source, "source");


      PdfReader reader = new PdfReader(source);
      PdfReaderContentParser parser = new PdfReaderContentParser(reader);
      TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
      int pageCount = reader.getNumberOfPages();
      ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
      PrintWriter writer = new PrintWriter(outputStream);


      for (int i = 1; i <= pageCount; i++) {

View Full Code Here

    try {
      Assert.notNull(source, "source");


      PdfReader reader = new PdfReader(source);
      PdfReaderContentParser parser = new PdfReaderContentParser(reader);
      TextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
      int pageCount = reader.getNumberOfPages();
      ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
      PrintWriter writer = new PrintWriter(outputStream);


      for (int i = 1; i <= pageCount; i++) {

View Full Code Here

TOP

Related Classes of com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy

br.net.woodstock.rockframework.document.pdf.itextpdf.GetTextProcessor

br.net.woodstock.rockframework.office.pdf.impl.ITextManager

org.archive.modules.extractor.ExtractorPDFContent

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.