Examples of org.htmlcleaner.HtmlCleaner

org.htmlcleaner.HtmlCleaner
te an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner(); // take default cleaner properties CleanerProperties props = cleaner.getProperties(); // customize cleaner's behaviour with property setters props.setXXX(...); // Clean HTML taken from simple string, file, URL, input stream, // input source or reader. Result is root node of created // tree-like structure. Single cleaner instance may be safely used // multiple times. TagNode node = cleaner.clean(...); // optionally find parts of the DOM or modify some nodes TagNode[] myNodes = node.getElementsByXXX(...); // and/or Object[] myNodes = node.evaluateXPath(xPathExpression); // and/or aNode.removeFromTree(); // and/or aNode.addAttribute(attName, attValue); // and/or aNode.removeAttribute(attName, attValue); // and/or cleaner.setInnerHtml(aNode, htmlContent); // and/or do some other tree manipulation/traversal // serialize a node to a file, output stream, DOM, JDom... new XXXSerializer(props).writeXmlXXX(aNode, ...); myJDom = new JDomSerializer(props, true).createJDom(aNode); myDom = new DomSerializer(props, true).createDOM(aNode);

  public HtmlCleanerBookProcessor() {
    this.htmlCleaner = createHtmlCleaner();
  }


  private static HtmlCleaner createHtmlCleaner() {
    HtmlCleaner result = new HtmlCleaner();
    CleanerProperties cleanerProperties = result.getProperties();
    cleanerProperties.setOmitXmlDeclaration(true);
    cleanerProperties.setOmitDoctypeDeclaration(false);
    cleanerProperties.setRecognizeUnicodeChars(true);
    cleanerProperties.setTranslateSpecialEntities(false);
    cleanerProperties.setIgnoreQuestAndExclam(true);

View Full Code Here

public class HHCParser {


  public static final String DEFAULT_HTML_INPUT_ENCODING = "Windows-1251";
  
  public static List<TOCReference> parseHhc(InputStream hhcFile, Resources resources) throws IOException, ParserConfigurationException,  XPathExpressionException {
    HtmlCleaner htmlCleaner = new HtmlCleaner();
    CleanerProperties props = htmlCleaner.getProperties();
    TagNode node = htmlCleaner.clean(hhcFile);
    Document hhcDocument = new DomSerializer(props).createDOM(node);
    XPath xpath = XPathFactory.newInstance().newXPath();
    Node ulNode = (Node) xpath.evaluate("body/ul", hhcDocument
        .getDocumentElement(), XPathConstants.NODE);
    List<TOCReference> sections = processUlNode(ulNode, resources);

View Full Code Here

  // Utility to minimise number of times the cleaner is created
  
  private void createHtmlCleanerIfNeeded()
  {
    if (null == cleaner) {
      cleaner = new HtmlCleaner();
      CleanerProperties props = cleaner.getProperties();
      props.setAllowHtmlInsideAttributes(true);
      props.setAllowMultiWordAttributes(true);
      props.setRecognizeUnicodeChars(true);
      props.setOmitComments(true);

View Full Code Here

  }


  private void init() {
    
    // Initialize HTMLCleaner
    cleaner = new HtmlCleaner();
    CleanerProperties props = cleaner.getProperties();
    props.setAllowHtmlInsideAttributes(true);
    props.setAllowMultiWordAttributes(true);
    props.setRecognizeUnicodeChars(true);
    props.setOmitComments(true);

View Full Code Here

      int statusCode = client.executeMethod(method);
      if (statusCode != 200) {
        throw new RuntimeException("Failed to get page: " + statusCode);
      }
      String response = method.getResponseBodyAsString();
      HtmlCleaner html = new HtmlCleaner();
      TagNode content = html.clean(response).findElementByAttValue("id", "content", true, false);
      Object[] rows = content.evaluateXPath("table/tbody/tr[@id]");
      for (Object row: rows) {
        if (!(row instanceof TagNode)) {
          continue;
        }

View Full Code Here

      String charset = get.getRequestCharSet();


      //
      // Check for charset overrides in the HTML start page
      //
      HtmlCleaner cleaner = new HtmlCleaner();
 
      TagNode httpEquivNode = cleaner.clean(get.getResponseBodyAsStream()).findElementByAttValue("http-equiv", "content-type", true, false);
      if (httpEquivNode != null && httpEquivNode.hasAttribute("content")){
        String value = httpEquivNode.getAttributeByName("content");
        int offset = value.indexOf("charset=");
        if (offset >= -1){
            charset = value.substring(offset+8).toUpperCase();

View Full Code Here

    CleanerProperties props = new CleanerProperties();
    props.setUseCdataForScriptAndStyle( false );
    props.setAllowHtmlInsideAttributes( false );
    props.setPruneTags( "style, script" );


    HtmlCleaner cleaner = new HtmlCleaner( props );
    try {
      TagNode node = cleaner.clean( new StringReader( content ) );


      TagNode[] nodes = node.getElementsByName( "a", true );
      for (TagNode tagnode : nodes) {
        tagnode.removeAttribute( "target" );
        tagnode.addAttribute( "target", "_blank" );
      }
      nodes = node.getElementsByName( "img", true );
      for (TagNode tagnode : nodes) {
        tagnode.removeAttribute( "src" );
        tagnode.addAttribute( "src", "NO_IMAGE" );
      }
      System.out.println( node.getText() );


      return cleaner.getInnerHtml( node );


    } catch (IOException e) {


      e.printStackTrace();
    }

View Full Code Here

   * @param hasImages
   * @return
   */
  public static String formatHTMLText( String messageText, boolean loadImages, boolean[] hasImages ) {


    HtmlCleaner cleaner = new HtmlCleaner( CLEANER_PROPERTIES );
    String result = "";


    try {
      TagNode rootNode = cleaner.clean( new StringReader( messageText ) );


      TagNode[] nodes = rootNode.getElementsByName( "a", true );
      if ( nodes != null && nodes.length > 0 ) {
        for (TagNode tagnode : nodes) {
          tagnode.removeAttribute( "target" );
          tagnode.addAttribute( "target", "_blank" );
        }
      }


      nodes = rootNode.getElementsByName( "img", true );
      if ( nodes != null && nodes.length > 0 ) {
        hasImages[0] = true;
        if ( !loadImages ) {
          for (TagNode tagnode : nodes) {
            tagnode.removeAttribute( "src" );
            tagnode.addAttribute( "src", "NO_IMAGE" );
          }
        }
      }


      result = cleaner.getInnerHtml( rootNode );
    }
    catch (IOException e) {
      log.error( e.getMessage(), e );
    }

View Full Code Here

   * @param htmlText
   * @return
   */
  public static String convertHtml2PlainText( String htmlText ) {


    HtmlCleaner cleaner = new HtmlCleaner( CLEANER_PROPERTIES );


    try {
      TagNode rootNode = cleaner.clean( new StringReader( htmlText ) );
      return rootNode.getText().toString();
    }
    catch (IOException e) {
      log.error( e.getMessage(), e );
    }

View Full Code Here

   * @param hasImages
   * @return
   */
  public static String formatHTMLText( String messageText, boolean loadImages, boolean[] hasImages ) {


    HtmlCleaner cleaner = new HtmlCleaner( CLEANER_PROPERTIES );
    String result = "";


    try {
      TagNode rootNode = cleaner.clean( new StringReader( messageText ) );


      TagNode[] nodes = rootNode.getElementsByName( "a", true );
      if ( nodes != null && nodes.length > 0 ) {
        for (TagNode tagnode : nodes) {
          tagnode.removeAttribute( "target" );
          tagnode.addAttribute( "target", "_blank" );
        }
      }


      nodes = rootNode.getElementsByName( "img", true );
      if ( nodes != null && nodes.length > 0 ) {
        hasImages[0] = true;
        if ( !loadImages ) {
          for (TagNode tagnode : nodes) {
            tagnode.removeAttribute( "src" );
            tagnode.addAttribute( "src", "NO_IMAGE" );
          }
        }
      }


      result = cleaner.getInnerHtml( rootNode );
    }
    catch (IOException e) {
      log.error( e.getMessage(), e );
    }

View Full Code Here

0 1 2 3 4 5

TOP

Related Classes of org.htmlcleaner.HtmlCleaner

at.newmedialab.ldpath.model.functions.CleanHtmlFunction

ch.entwine.weblounge.preview.xhtmlrenderer.XhtmlRendererPagePreviewGenerator

com.atlantbh.nutch.filter.xpath.XPathHtmlParserFilter

com.cubusmail.mail.text.MessageTextUtil

com.cubusmail.mail.text.test.HtmlParserTest

com.cubusmail.server.mail.text.MessageTextUtil

com.ikanow.infinit.e.harvest.enrichment.custom.UnstructuredAnalysisHarvester

com.jeck.microblogging.utils.HtmlUtils

com.netfever.site.dynovisz.tools.utils.XmlUtils

com.skrul.greasefire.DownloadScripts

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.