Examples of org.htmlcleaner.HtmlCleaner

org.htmlcleaner.HtmlCleaner
te an instance of HtmlCleaner HtmlCleaner cleaner = new HtmlCleaner(); // take default cleaner properties CleanerProperties props = cleaner.getProperties(); // customize cleaner's behaviour with property setters props.setXXX(...); // Clean HTML taken from simple string, file, URL, input stream, // input source or reader. Result is root node of created // tree-like structure. Single cleaner instance may be safely used // multiple times. TagNode node = cleaner.clean(...); // optionally find parts of the DOM or modify some nodes TagNode[] myNodes = node.getElementsByXXX(...); // and/or Object[] myNodes = node.evaluateXPath(xPathExpression); // and/or aNode.removeFromTree(); // and/or aNode.addAttribute(attName, attValue); // and/or aNode.removeAttribute(attName, attValue); // and/or cleaner.setInnerHtml(aNode, htmlContent); // and/or do some other tree manipulation/traversal // serialize a node to a file, output stream, DOM, JDom... new XXXSerializer(props).writeXmlXXX(aNode, ...); myJDom = new JDomSerializer(props, true).createJDom(aNode); myDom = new DomSerializer(props, true).createDOM(aNode);

   * @param htmlText
   * @return
   */
  public static String convertHtml2PlainText( String htmlText ) {


    HtmlCleaner cleaner = new HtmlCleaner( CLEANER_PROPERTIES );


    try {
      TagNode rootNode = cleaner.clean( new StringReader( htmlText ) );
      return rootNode.getText().toString();
    }
    catch (IOException e) {
      log.error( e.getMessage(), e );
    }

View Full Code Here

      String charset = get.getRequestCharSet();


      //
      // Check for charset overrides in the HTML start page
      //
      HtmlCleaner cleaner = new HtmlCleaner();
 
      TagNode httpEquivNode = cleaner.clean(get.getResponseBodyAsStream()).findElementByAttValue("http-equiv", "content-type", true, false);
      if (httpEquivNode != null && httpEquivNode.hasAttribute("content")){
        String value = httpEquivNode.getAttributeByName("content");
        int offset = value.indexOf("charset=");
        if (offset >= -1){
            charset = value.substring(offset+8).toUpperCase();

View Full Code Here

     
    props.setTranslateSpecialEntities(true);
    props.setTransResCharsToNCR(true);
    props.setOmitComments(true);
     
    final TagNode tagNode = new HtmlCleaner(props).clean(xml);
    final String cleansData = new CompactXmlSerializer(props).getAsString(tagNode);
     
    final SAXParserFactory spf = SAXParserFactory.newInstance();
      spf.setNamespaceAware(true);

View Full Code Here

    public static Node markupAsDOM(WicketTester tester) throws ParserConfigurationException
    {
        CleanerProperties props = new CleanerProperties();
        props.setNamespacesAware(false);
        
        HtmlCleaner cleaner = new HtmlCleaner(props);
        return new DomSerializer(props, true).createDOM(cleaner.clean(document(tester)));
    }

View Full Code Here

        studentCandidacy.setSummaryFile(new CandidacySummaryFile(studentNumber + ".pdf", pdfByteArray, studentCandidacy));
    }


    private String clean(String dirtyHtml) {
        try {
            HtmlCleaner cleaner = new HtmlCleaner();


            TagNode root = cleaner.clean(dirtyHtml);


            return new SimpleHtmlSerializer(cleaner.getProperties()).getAsString(root);
        } catch (IOException e) {
            logger.error(e.getMessage(), e);
        }
        return StringUtils.EMPTY;
    }

View Full Code Here

            if (source == null)
                source = "";
        }
        String rawData = StringEscapeUtils.unescapeHtml4(source);
            
        HtmlCleaner cleaner = new HtmlCleaner();
        //CleanerProperties props = cleaner.getProperties();         
        //props.setXXX(...);
        TagNode node = cleaner.clean(rawData);
        TagNode[] myNodes;
        
        myNodes = node.getElementsByName("a", true);
        for (int i=0;i<myNodes.length;i++)
        {

View Full Code Here


  public static HashMap<String, String> extractMetas(String rawPage) throws IOException {


    final HashMap<String, String> m = new HashMap<String, String>();


    HtmlCleaner cleaner = new HtmlCleaner();
    //CleanerProperties props = cleaner.getProperties();     
    //props.setXXX(...);
    TagNode node = cleaner.clean(rawPage);
    TagNode[] myNodes;


    // <meta name="..." content="..." />
    // <meta http-equiv="refresh" content=
    myNodes = node.getElementsByName("meta", true);

View Full Code Here

  }


  public static String getBaseHref(String rawPage) throws IOException {
    if (rawPage==null || !StringUtils.containsIgnoreCase(rawPage, "<base")) return null;


    HtmlCleaner cleaner = new HtmlCleaner();
    //CleanerProperties props = cleaner.getProperties();     
    //props.setXXX(...);
    TagNode node = cleaner.clean(rawPage);
    TagNode[] myNodes = node.getElementsByName("base", true);
    if (myNodes==null || myNodes.length==0) return null;
    String href = myNodes[0].getAttributeByName("href");
    if (href!=null) return href;
    return null;

View Full Code Here

   */
  public static List<String> extractLinks(String rawPage, int depth) throws IOException {


    final ArrayList<String> list = new ArrayList<String>();


    HtmlCleaner cleaner = new HtmlCleaner();
    //CleanerProperties props = cleaner.getProperties();     
    //props.setXXX(...);
    TagNode node = cleaner.clean(rawPage);


    TagNode[] myNodes;


    if (depth==1 || depth==2) {
      // <a href=

View Full Code Here

            }
            headContents.append(inputLine + "\r\n");
        }


        String headContentsStr = headContents.toString();
        HtmlCleaner cleaner = new HtmlCleaner();
        // parse the string HTML
        TagNode pageData = cleaner.clean(headContentsStr);


    // read in the declared namespaces
    boolean hasOGspec = false;
    TagNode headElement = pageData.findElementByName("head", true);
    if (headElement.hasAttribute("prefix"))

View Full Code Here

0 1 2 3 4 5

TOP

Related Classes of org.htmlcleaner.HtmlCleaner

at.newmedialab.ldpath.model.functions.CleanHtmlFunction

ch.entwine.weblounge.preview.xhtmlrenderer.XhtmlRendererPagePreviewGenerator

com.atlantbh.nutch.filter.xpath.XPathHtmlParserFilter

com.cubusmail.mail.text.MessageTextUtil

com.cubusmail.mail.text.test.HtmlParserTest

com.cubusmail.server.mail.text.MessageTextUtil

com.ikanow.infinit.e.harvest.enrichment.custom.UnstructuredAnalysisHarvester

com.jeck.microblogging.utils.HtmlUtils

com.netfever.site.dynovisz.tools.utils.XmlUtils

com.skrul.greasefire.DownloadScripts

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.