Examples of it.unibz.instasearch.indexing.tokenizers.DotSplitTokenizer

Package it.unibz.instasearch.indexing.tokenizers

Examples of it.unibz.instasearch.indexing.tokenizers.DotSplitTokenizer

it.unibz.instasearch.indexing.tokenizers.DotSplitTokenizer
Splits words at non-alphanumeric characters but also returns the full word as a token

  {
    if( Field.CONTENTS.toString().equals(fieldName) ) {
      TokenStream result = new StandardTokenizer(reader); // splits at ". ", "-"
      
      result = new WordSplitTokenizer(result);   // non-alphanumerics
      result = new DotSplitTokenizer(result);   // com.package.names
      result = new CamelCaseTokenizer(result);   // CamelCaseIdentifiers
      
      //result = new LowerCaseFilter(result);
      result = new LengthFilter(result, minWordLength, MAX_WORD_LENGTH);

View Full Code Here

    TokenStream result = new StandardTokenizer(reader); // splits at ". ", etc.
    
    // result = new SysoFilter(result);


    result = new WordSplitTokenizer(result);   // non-alphanumerics
    result = new DotSplitTokenizer(result);   // all.package.names, hyphen-separated-words
    result = new CamelCaseTokenizer(result);   // CamelCaseIdentifiers
    
      result = new LengthFilter(result, minWordLength, 128);
      result = new LowerCaseFilter(result);

View Full Code Here

TOP

Related Classes of it.unibz.instasearch.indexing.tokenizers.DotSplitTokenizer

it.unibz.instasearch.indexing.FileAnalyzer

it.unibz.instasearch.indexing.QueryAnalyzer

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.