Examples of org.apache.lucene.analysis.snowball.SnowballFilter

Package org.apache.lucene.analysis.snowball

Examples of org.apache.lucene.analysis.snowball.SnowballFilter

org.apache.lucene.analysis.snowball.SnowballFilter
A filter that stems words using a Snowball-generated stemmer. Available stemmers are listed in {@link org.tartarus.snowball.ext}.

      result = new StopFilter(matchVersion, result, stoptable);
      if (!excltable.isEmpty())
        result = new SetKeywordMarkerFilter(result, excltable);
      if (stemdict != null)
        result = new StemmerOverrideFilter(result, stemdict);
      result = new SnowballFilter(result, new org.tartarus.snowball.ext.DutchStemmer());
      return new TokenStreamComponents(source, result);
    } else {
      final Tokenizer source = new StandardTokenizer(matchVersion, aReader);
      TokenStream result = new StandardFilter(matchVersion, source);
      result = new StopFilter(matchVersion, result, stoptable);

View Full Code Here

    result = new ElisionFilter(result, DEFAULT_ARTICLES);
    result = new IrishLowerCaseFilter(result);
    result = new StopFilter(matchVersion, result, stopwords);
    if(!stemExclusionSet.isEmpty())
      result = new SetKeywordMarkerFilter(result, stemExclusionSet);
    result = new SnowballFilter(result, new IrishStemmer());
    return new TokenStreamComponents(source, result);
  }

View Full Code Here

      if(!excltable.isEmpty())
        result = new SetKeywordMarkerFilter(result, excltable);
      if (matchVersion.onOrAfter(Version.LUCENE_3_6)) {
        result = new FrenchLightStemFilter(result);
      } else {
        result = new SnowballFilter(result, new org.tartarus.snowball.ext.FrenchStemmer());
      }
      return new TokenStreamComponents(source, result);
    } else {
      final Tokenizer source = new StandardTokenizer(matchVersion, reader);
      TokenStream result = new StandardFilter(matchVersion, source);

View Full Code Here

    TokenStream result = new StandardFilter(matchVersion, source);
    result = new LowerCaseFilter(matchVersion, result);
    result = new StopFilter(matchVersion, result, stopwords);
    if(!stemExclusionSet.isEmpty())
      result = new SetKeywordMarkerFilter(result, stemExclusionSet);
    result = new SnowballFilter(result, new RomanianStemmer());
    return new TokenStreamComponents(source, result);
  }

View Full Code Here

    if(!stemExclusionSet.isEmpty())
      result = new SetKeywordMarkerFilter(result, stemExclusionSet);
    if (matchVersion.onOrAfter(Version.LUCENE_3_6)) {
      result = new PortugueseLightStemFilter(result);
    } else {
      result = new SnowballFilter(result, new PortugueseStemmer());
    }
    return new TokenStreamComponents(source, result);
  }

View Full Code Here

    result = new SetKeywordMarkerFilter(result, exclusionSet);
    if (matchVersion.onOrAfter(Version.LUCENE_3_6)) {
      result = new GermanNormalizationFilter(result);
      result = new GermanLightStemFilter(result);
    } else if (matchVersion.onOrAfter(Version.LUCENE_3_1)) {
      result = new SnowballFilter(result, new German2Stemmer());
    } else {
      result = new GermanStemFilter(result);
    }
    return new TokenStreamComponents(source, result);
  }

View Full Code Here

        TokenStream result = new StandardFilter(matchVersion, source);
        result = new LowerCaseFilter(matchVersion, result);
        result = new StopFilter(matchVersion, result, stopwords);
        if (!stemExclusionSet.isEmpty()) result = new SetKeywordMarkerFilter(
            result, stemExclusionSet);
        result = new SnowballFilter(result, new org.tartarus.snowball.ext.RussianStemmer());
        return new TokenStreamComponents(source, result);
      } else {
        final Tokenizer source = new RussianLetterTokenizer(matchVersion, reader);
        TokenStream result = new LowerCaseFilter(matchVersion, source);
        result = new StopFilter(matchVersion, result, stopwords);
        if (!stemExclusionSet.isEmpty()) result = new SetKeywordMarkerFilter(
          result, stemExclusionSet);
        result = new SnowballFilter(result, new org.tartarus.snowball.ext.RussianStemmer());
        return new TokenStreamComponents(source, result);
      }
    }

View Full Code Here

    TokenStream result = new StandardFilter(matchVersion, source);
    result = new LowerCaseFilter(matchVersion, result);
    result = new StopFilter(matchVersion, result, stopwords);
    if(!stemExclusionSet.isEmpty())
      result = new SetKeywordMarkerFilter(result, stemExclusionSet);
    result = new SnowballFilter(result, new ArmenianStemmer());
    return new TokenStreamComponents(source, result);
  }

View Full Code Here


    public void addWords(Object obj, Collection<String> features) {
        String document = obj.toString().toLowerCase();
        StandardTokenizer tokenizer = new StandardTokenizer(new StringReader(document));
        tokenizer.setMaxTokenLength(20);
        TokenFilter psf = new SnowballFilter(tokenizer, "English");
        Token t;
        StringBuilder sb = new StringBuilder();
        try {
            while ((t = psf.next()) != null) {
                sb.setLength(0);
                sb.append(t.termBuffer(), 0, t.termLength());
                //System.out.println(sb.toString());
                features.add(sb.toString());
            }

View Full Code Here

 */
@Deprecated
public class RussianStemFilterFactory extends BaseTokenFilterFactory {


  public TokenFilter create(TokenStream in) {
    return new SnowballFilter( in, new org.tartarus.snowball.ext.RussianStemmer() );
  }

View Full Code Here

0 1 2 3 4 5 6 7 8 9

TOP

Related Classes of org.apache.lucene.analysis.snowball.SnowballFilter

com.enigmastation.extractors.impl.LuceneStemmingWordLister

com.flaptor.indextank.query.analyzers.StemmerFilter

de.jetwick.es.JetwickQuery

org.apache.lucene.analysis.ca.CatalanAnalyzer

org.apache.lucene.analysis.da.DanishAnalyzer

org.apache.lucene.analysis.de.GermanAnalyzer

org.apache.lucene.analysis.es.SpanishAnalyzer

org.apache.lucene.analysis.eu.BasqueAnalyzer

org.apache.lucene.analysis.fi.FinnishAnalyzer

org.apache.lucene.analysis.fr.FrenchAnalyzer

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.