Go语言中内置的标准库html
和html/template
可以帮助我们解析HTML文档。
首先,我们需要使用http.Get()
方法获取HTML页面的内容,然后将其读取为字符串。接下来,我们可以使用html.Parse()
方法将HTML文档解析为一个树形结构,并遍历它来查找所需的元素。
以下是一个简单的示例程序,它从指定URL中提取所有链接:
package main
import (
"fmt"
"golang.org/x/net/html"
"net/http"
)
func main() {
url := "https://www.example.com"
resp, err := http.Get(url)
if err != nil {
panic(err)
}
defer resp.Body.Close()
doc, err := html.Parse(resp.Body)
if err != nil {
panic(err)
}
var links []string
findLinks(doc, &links)
fmt.Println(links)
}
func findLinks(n *html.Node, links *[]string) {
if n.Type == html.ElementNode && n.Data == "a" {
for _, a := range n.Attr {
if a.Key == "href" {
*links = append(*links, a.Val)
break
}
}
}
for c := n.FirstChild; c != nil; c = c.NextSibling {
findLinks(c, links)
}
}
该程序输出指定URL中所有链接的列表。
在此示例中,我们使用了递归函数 findLinks()
遍历 HTML 树形结构。如果当前节点是一个 a
元素并且有 href
属性,则将链接添加到 links
列表中。
注意:为了使用此示例程序,需要先安装 golang.org/x/net/html
包。可以通过以下命令进行安装:
go get golang.org/x/net/html