final String compoundSentence = "To jest kobieta-wojownik w polsko-czeskim ubraniu, która wysłała dwa SMS-y.";
List<String> compoundTokens = wordTokenizer.tokenize(compoundSentence);
assertEquals(21, compoundTokens.size());
assertEquals("[To, , jest, , kobieta-wojownik, , w, , polsko-czeskim, , ubraniu, ,, , która, , wysłała, , dwa, , SMS-y, .]", compoundTokens.toString());
//now setup the tagger...
Language pl = new Polish();
wordTokenizer.setTagger(pl.getTagger());
compoundTokens = wordTokenizer.tokenize(compoundSentence);
//we should get 4 more tokens: two hyphen tokens and two for the split words
assertEquals(25, compoundTokens.size());
assertEquals("[To, , jest, , kobieta, -, wojownik, , " +
"w, , polsko, -, czeskim, , ubraniu, ,, " +