Examples of org.htmlparser.tags.LinkTag

org.htmlparser.tags.LinkTag
Identifies a link tag

        public void visitTag(Tag tag) {
            // Process any tag/node in your HTML 
            String name = tag.getTagName();
            // Set the Link's target to _blank if the href is external
            if ("a".equalsIgnoreCase(name)) {
              LinkTag lnk = (LinkTag) tag;
              String sUrl = lnk.extractLink();
                if(sUrl.startsWith("http://") || sUrl.startsWith("https://")) {
                    lnk.setLink(sRedirectorUrl+Gadgets.URLEncode(Base64Encoder.encode(sUrl)));
                }
            }
        }
    };

View Full Code Here

      htmlPage.setBaseUrl(rawDocument.getUrl());


      // Iterate over all links found
      Iterator linksIter = links.iterator();
      while (linksIter.hasNext()) {
        LinkTag currTag = ((LinkTag) linksIter.next());
        String link = CrawlerToolkit.removeAnchor(currTag.extractLink());


        // find urls which do not end with an '/' but are a directory
        link = CrawlerToolkit.completeDirectory(link);


        //link = CrawlerToolkit.toAbsoluteUrl(link, rawDocument.getUrl());
        String linkText = (currTag.getLinkText() == null) ? "" : currTag.getLinkText();


        // store all http(s)-links the link
        if (currTag.isHTTPLikeLink()) {
          rawDocument.addLink(link, linkText);
        }
      }


    } catch (ParserException ex) {

View Full Code Here

                if (ATT_IS_IMAGE.equalsIgnoreCase(tag.getAttribute(ATT_TYPE))) {
                    // then we need to download the binary
                    binUrlStr = tag.getAttribute(ATT_SRC);
                }
            } else if (tag instanceof LinkTag) {
                LinkTag link = (LinkTag) tag;
                if (link.getChild(0) instanceof ImageTag) {
                    ImageTag img = (ImageTag) link.getChild(0);
                    binUrlStr = img.getImageURL();
                }
            } else if (tag instanceof ScriptTag) {
                binUrlStr = tag.getAttribute(ATT_SRC);
                // Bug 51750

View Full Code Here

                    {
                        // then we need to download the binary
                        binUrlStr= input.getAttribute("src");
                    }
        } else if (node instanceof LinkTag){
          LinkTag link = (LinkTag)node;
          if (link.getChild(0) instanceof ImageTag){
            ImageTag img = (ImageTag)link.getChild(0);
            binUrlStr = img.getImageURL();
          }
        } else if (node instanceof ScriptTag){
          ScriptTag script = (ScriptTag)node;
          binUrlStr = script.getAttribute("src");

View Full Code Here

            "<a href=\"/cataclysm/Langy-AnEmpireReborn-Ch2.shtml#story\""
                + "><< An Empire Reborn: Chapter 2 <<</a>");
        parser.registerScanners();
        parseAndAssertNodeCount(1);
        assertType("node", LinkTag.class, node[0]);
        LinkTag linkTag = (LinkTag) node[0];
        assertEquals(
            "link text",
            "<< An Empire Reborn: Chapter 2 <<",
            linkTag.getLinkText());
    }

View Full Code Here

    {
        createParser("<a href=\"http://www.kizna.com/servlets/SomeServlet?name=Sam Joseph\" accessKey=1>Click Here</A>");
        parser.addScanner(new LinkScanner("-l"));
        parseAndAssertNodeCount(1);
        assertTrue("The node should be a link tag", node[0] instanceof LinkTag);
        LinkTag linkTag = (LinkTag) node[0];
        assertEquals(
            "Link URL of link tag",
            "http://www.kizna.com/servlets/SomeServlet?name=Sam Joseph",
            linkTag.getLink());
        assertEquals(
            "Link Text of link tag",
            "Click Here",
            linkTag.getLinkText());
        assertEquals("Access key", "1", linkTag.getAccessKey());
    }

View Full Code Here

            "http://www.yahoo.com");
        parser.registerScanners();
        Node linkNodes[] = parser.extractAllNodesThatAre(LinkTag.class);


        assertEquals("number of links", 2, linkNodes.length);
        LinkTag linkTag = (LinkTag) linkNodes[0];
        assertStringEquals(
            "Link",
            "http://www.yahoo.com/s/8741",
            linkTag.getLink());
        // Verify the link data
        assertStringEquals("Link Text", "", linkTag.getLinkText());
        // Verify the reconstruction html
        assertStringEquals(
            "toHTML",
            "<A HREF=\"s/8741\"><IMG BORDER=\"0\" WIDTH=\"16\" SRC=\"http://us.i1.yimg.com/us.yimg.com/i/i16/mov_popc.gif\" HEIGHT=\"16\"></A>",
            linkTag.toHtml());
    }

View Full Code Here

            node[0] instanceof LinkTag);
        // The second node should be a HTMLStringNode
        assertTrue(
            "Second node should be a HTMLLinkTag",
            node[1] instanceof LinkTag);
        LinkTag linkTag = (LinkTag) node[0];
        assertEquals("Link", "http://www.yahoo.com/s/8741", linkTag.getLink());
        // Verify the link data
        assertEquals("Link Text", "This is a test\r\n", linkTag.getLinkText());
        // Verify the reconstruction html
        assertStringEquals(
            "toHTML()",
            "<A HREF=\"s/8741\"><IMG BORDER=\"0\" WIDTH=\"16\" SRC=\"http://us.i1.yimg.com/us.yimg.com/i/i16/mov_popc.gif\" HEIGHT=\"16\">This is a test\r\n</A>",
            linkTag.toHtml());
    }

View Full Code Here

    {
        createParser("<a href=\"http://cbc.ca/artsCanada/stories/greatnorth271202\" class=\"lgblacku\">Vancouver schools plan 'Great Northern Way'</a>");
        parser.addScanner(new LinkScanner("-l"));
        parseAndAssertNodeCount(1);
        assertTrue("The node should be a link tag", node[0] instanceof LinkTag);
        LinkTag linkTag = (LinkTag) node[0];
        assertStringEquals(
            "Extracted Text",
            "Vancouver schools plan 'Great Northern Way'",
            linkTag.getLinkText());
    }

View Full Code Here

    {
        createParser("<a href=\"http://www.kizna.com/servlets/SomeServlet?name=Sam Joseph\">Click Here</A>");
        parser.addScanner(new LinkScanner("-l"));
        parseAndAssertNodeCount(1);
        assertTrue("The node should be a link tag", node[0] instanceof LinkTag);
        LinkTag linkTag = (LinkTag) node[0];
        assertEquals(
            "Link URL of link tag",
            "http://www.kizna.com/servlets/SomeServlet?name=Sam Joseph",
            linkTag.getLink());
        assertEquals(
            "Link Text of link tag",
            "Click Here",
            linkTag.getLinkText());
    }

View Full Code Here

0 1 2 3 4 5 6 7 8 9

TOP

Related Classes of org.htmlparser.tags.LinkTag

com.almilli.movierentals.blockbuster.BlockbusterService

com.almilli.movierentals.netflix.NetFlixService

com.knowgate.hipermail.HtmlMimeBodyPart

de.jungblut.crawl.extraction.OutlinkExtractor

edu.umd.cloud9.webgraph.ClueExtractLinks$Map

edu.umd.cloud9.webgraph.TrecExtractLinks$Map

hudson.plugins.rubyMetrics.rcov.RcovParser

hudson.plugins.rubyMetrics.saikuro.SaikuroParser

modelcrawler.Page

net.sf.regain.crawler.preparator.HtmlPreparator

All source code are property of their respective owners. Java is a trademark of Sun Microsystems, Inc and owned by ORACLE Inc. Contact coftware#gmail.com.