Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

Package org.apache.lucene.analysis.charfilter

Examples of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

  Set<String> escapedTags = null;
  Pattern TAG_NAME_PATTERN = Pattern.compile("[^\\s,]+");


  @Override
  public HTMLStripCharFilter create(Reader input) {
    HTMLStripCharFilter charFilter;
    if (null == escapedTags) {
      charFilter = new HTMLStripCharFilter(input);
    } else {
      charFilter = new HTMLStripCharFilter(input, escapedTags);
    }
    return charFilter;
  }

View Full Code Here

    public void IncrementsOffsetCorrectlyWithAnotherReader() throws IOException {
        int[] expectedOffsets = {0, 5, 10, 15};
        int curPos = 0;


        Tokenizer t = new Tokenizer(
                new HTMLStripCharFilter(new StringReader("test <a href=\"foo\">test</a> test test")), HSpellLoader.readDefaultPrefixes()
        );


        Reference<String> ref = new Reference<String>("");
        while (true) {
            int token_type = t.nextToken(ref);

View Full Code Here


    @Test
    public void IncrementsOffsetCorrectlyWithAnotherReader2() throws IOException {
        String input = "test1 <a href=\"foo\">testlink</a> test2 test3";


        BaseCharFilter filter = new HTMLStripCharFilter(new StringReader(input));
        Tokenizer t = new Tokenizer(filter, HSpellLoader.readDefaultPrefixes());


        Reference<String> token = new Reference<String>("");


        t.nextToken(token);
        assertEquals(0, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(20, filter.correctOffset(t.getOffset()));
        assertEquals(8, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(33, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());


        t.nextToken(token);
        assertEquals(39, filter.correctOffset(t.getOffset()));
        assertEquals(5, t.getLengthInSource());
    }

View Full Code Here

        return dirHash;
    }


    private static String getTags(File basedir, String path, boolean compressed) {
        char[] content = new char[1024 * 8];
        try (HTMLStripCharFilter r = new HTMLStripCharFilter(getXrefReader(basedir, path, compressed))) {
            int len = r.read(content);
            return new String(content, 0, len);
        } catch (Exception e) {
            OpenGrokLogger.getLogger().log(
                    Level.WARNING, "An error reading tags from " + basedir + path
                    + (compressed ? ".gz" : ""), e);

View Full Code Here

                                    + filename)), null, null, null, filename,
                                    tags, nhits > 100, false, ret);
                        } else if (Genre.XREFABLE == genre && data != null && summarizer != null) {
                            int l;
                            try (Reader r = RuntimeEnvironment.getInstance().isCompressXref() ?
                                     new HTMLStripCharFilter(new BufferedReader(new InputStreamReader(new GZIPInputStream(new FileInputStream(data + Prefix.XREF_P + filename + ".gz"))))) :
                                     new HTMLStripCharFilter(new BufferedReader(new FileReader(data + Prefix.XREF_P + filename)))) {
                                l = r.read(content);
                            }
                            //TODO FIX below fragmenter according to either summarizer or context (to get line numbers, might be hard, since xref writers will need to be fixed too, they generate just one line of html code now :( )
                            Summary sum = summarizer.getSummary(new String(content, 0, l));
                            Fragment fragments[] = sum.getFragments();

View Full Code Here

      return new TokenStreamComponents(source, result);
    }


    @Override
    protected Reader initReader(String fieldName, Reader reader) {
      return new HTMLStripCharFilter(reader);
    }

View Full Code Here

        return escapedTags;
    }


    @Override
    public Reader create(Reader tokenStream) {
        return new HTMLStripCharFilter(tokenStream, escapedTags);
    }

View Full Code Here

TOP

Related Classes of org.apache.lucene.analysis.charfilter.HTMLStripCharFilter

com.code972.hebmorph.TokenizerTest

com.livingsocial.hive.udf.Tokenize$MyAnalyzer

org.apache.lucene.analysis.charfilter.HTMLStripCharFilterFactory

org.elasticsearch.index.analysis.HtmlStripCharFilterFactory

org.opensolaris.opengrok.search.Results

org.opensolaris.opengrok.search.SearchEngine

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.