Examples of org.apache.tika.extractor.ParsingEmbeddedDocumentExtractor

org.apache.tika.extractor.ParsingEmbeddedDocumentExtractor
Helper class for parsers of package archives or other compound document formats that support embedded or attached component documents. @since Apache Tika 0.8

            return;
        }


        EmbeddedDocumentExtractor embeddedExtractor = context.get(EmbeddedDocumentExtractor.class);
        if (embeddedExtractor == null) {
            embeddedExtractor = new ParsingEmbeddedDocumentExtractor(context);
        }


        Map<String, COSObjectable> embeddedFileNames = embeddedFiles.getNames();
        //For now, try to get the embeddedFileNames out of embeddedFiles or its kids.
        //This code follows: pdfbox/examples/pdmodel/ExtractEmbeddedFiles.java

View Full Code Here

        this.extractor = extractor;


        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            embeddedExtractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            embeddedExtractor = ex;
        }


    }

View Full Code Here

        }


        // Use the delegate parser to parse the contained document
        EmbeddedDocumentExtractor extractor = context.get(
                EmbeddedDocumentExtractor.class,
                new ParsingEmbeddedDocumentExtractor(context));


        XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
        xhtml.startDocument();


        try {

View Full Code Here

            }


            // Use the delegate parser to parse the compressed document
            EmbeddedDocumentExtractor extractor = context.get(
                    EmbeddedDocumentExtractor.class,
                    new ParsingEmbeddedDocumentExtractor(context));
            if (extractor.shouldParseEmbedded(entrydata)) {
                extractor.parseEmbedded(cis, xhtml, entrydata, true);
            }
        } finally {
            cis.close();

View Full Code Here

            PDEmbeddedFilesNameTreeNode embeddedFiles = names.getEmbeddedFiles();
            if (embeddedFiles != null) {


                EmbeddedDocumentExtractor embeddedExtractor = context.get(EmbeddedDocumentExtractor.class);
                if (embeddedExtractor == null) {
                    embeddedExtractor = new ParsingEmbeddedDocumentExtractor(context);
                }


                Map<String,Object> embeddedFileNames = embeddedFiles.getNames();


                if (embeddedFileNames != null) {

View Full Code Here


    protected AbstractPOIFSExtractor(ParseContext context) {
        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            this.extractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            this.extractor = ex;
        }
        
        tikaConfig = context.get(TikaConfig.class);

View Full Code Here


    protected AbstractPOIFSExtractor(ParseContext context) {
        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            this.extractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            this.extractor = ex;
        }
    }

View Full Code Here

        this.metadata = metadata;


        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            this.extractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            this.extractor = ex;
        }


    }

View Full Code Here


    protected AbstractPOIFSExtractor(ParseContext context) {
        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            this.extractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            this.extractor = ex;
        }
        
        tikaConfig = context.get(TikaConfig.class);

View Full Code Here

        this.extractor = extractor;


        EmbeddedDocumentExtractor ex = context.get(EmbeddedDocumentExtractor.class);


        if (ex==null) {
            embeddedExtractor = new ParsingEmbeddedDocumentExtractor(context);
        } else {
            embeddedExtractor = ex;
        }


    }

View Full Code Here

0 1 2 3

TOP

Related Classes of org.apache.tika.extractor.ParsingEmbeddedDocumentExtractor

org.apache.tika.io.CloseShieldInputStream

org.apache.tika.io.TemporaryFiles

org.apache.tika.io.TemporaryResources

org.apache.tika.io.TikaInputStream

org.apache.tika.parser.mbox.MboxParser

org.apache.tika.parser.mbox.OutlookPSTParser

org.apache.tika.parser.microsoft.AbstractPOIFSExtractor

org.apache.tika.parser.microsoft.ooxml.AbstractOOXMLExtractor

org.apache.tika.parser.microsoft.TNEFParser

org.apache.tika.parser.pdf.PDF2XHTML

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.