ZBLOG

golang 解析html文档

Go语言中内置的标准库htmlhtml/template可以帮助我们解析HTML文档。

首先,我们需要使用http.Get()方法获取HTML页面的内容,然后将其读取为字符串。接下来,我们可以使用html.Parse()方法将HTML文档解析为一个树形结构,并遍历它来查找所需的元素。

以下是一个简单的示例程序,它从指定URL中提取所有链接:

  1. package main
  2. import (
  3. "fmt"
  4. "golang.org/x/net/html"
  5. "net/http"
  6. )
  7. func main() {
  8. url := "https://www.example.com"
  9. resp, err := http.Get(url)
  10. if err != nil {
  11. panic(err)
  12. }
  13. defer resp.Body.Close()
  14. doc, err := html.Parse(resp.Body)
  15. if err != nil {
  16. panic(err)
  17. }
  18. var links []string
  19. findLinks(doc, &links)
  20. fmt.Println(links)
  21. }
  22. func findLinks(n *html.Node, links *[]string) {
  23. if n.Type == html.ElementNode && n.Data == "a" {
  24. for _, a := range n.Attr {
  25. if a.Key == "href" {
  26. *links = append(*links, a.Val)
  27. break
  28. }
  29. }
  30. }
  31. for c := n.FirstChild; c != nil; c = c.NextSibling {
  32. findLinks(c, links)
  33. }
  34. }

该程序输出指定URL中所有链接的列表。

在此示例中,我们使用了递归函数 findLinks() 遍历 HTML 树形结构。如果当前节点是一个 a 元素并且有 href 属性,则将链接添加到 links 列表中。

注意:为了使用此示例程序,需要先安装 golang.org/x/net/html 包。可以通过以下命令进行安装:

  1. go get golang.org/x/net/html

本站部分文章来源于网络,版权归原作者所有,如有侵权请联系站长删除。
转载请注明出处:https://golang.0voice.com/?id=5666

分享:
扫描分享到社交APP
上一篇
下一篇
发表列表
游客 游客
此处应有掌声~
评论列表

还没有评论,快来说点什么吧~

联系我们

在线咨询: 点击这里给我发消息

微信号:3007537140

上班时间: 10:30-22:30

关注我们
x

注册

已经有帐号?