首页 > 公开 > 正文

golang 解析html文档

作者：golang云原生栏目：公开2023-06-15 03:122619

Go语言中内置的标准库html和html/template可以帮助我们解析HTML文档。

首先，我们需要使用http.Get()方法获取HTML页面的内容，然后将其读取为字符串。接下来，我们可以使用html.Parse()方法将HTML文档解析为一个树形结构，并遍历它来查找所需的元素。

以下是一个简单的示例程序，它从指定URL中提取所有链接：

package main

import (
	"fmt"
	"golang.org/x/net/html"
	"net/http"
)

func main() {
	url := "https://www.example.com"

	resp, err := http.Get(url)
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()

	doc, err := html.Parse(resp.Body)
	if err != nil {
		panic(err)
	}

	var links []string
	findLinks(doc, &links)

	fmt.Println(links)
}

func findLinks(n *html.Node, links *[]string) {
	if n.Type == html.ElementNode && n.Data == "a" {
		for _, a := range n.Attr {
			if a.Key == "href" {
				*links = append(*links, a.Val)
				break
			}
		}
	}

	for c := n.FirstChild; c != nil; c = c.NextSibling {
		findLinks(c, links)
	}
}

该程序输出指定URL中所有链接的列表。

在此示例中，我们使用了递归函数 findLinks() 遍历 HTML 树形结构。如果当前节点是一个 a 元素并且有 href 属性，则将链接添加到 links 列表中。

注意：为了使用此示例程序，需要先安装 golang.org/x/net/html 包。可以通过以下命令进行安装：

go get golang.org/x/net/html

本站部分文章来源于网络，版权归原作者所有，如有侵权请联系站长删除。
转载请注明出处：https://golang.0voice.com/?id=5666

golang云原生管理员

相关推荐

diff --git a/mtk/package/kernel/wlan_driver/gen4m/mt6639_driver/os/linux/gl_kal.c b/mtk/package/kernel/wlan_driver/gen4m/mt6639_driver/os/linux/gl_kal.c 解释此命令

这是一个gitdiff命令的输出片段，显示两个文件之间的差异：命令含义diff：比较文件的差异--git：表示这是git格式的差异输出a/...和b/...：分别表示修改前（a）和修改后（b）的文件路径具体文件路...

golang云原生
2025-11-27
102 0 0
git 如何把更改提交到本地

在Git中，将更改提交到本地仓库可以通过以下步骤完成：1.检查当前状态使用gitstatus查看哪些文件被修改、新增或删除。gitstatus2.添加更改到暂存区添加所有更改的文件：gitadd....

golang云原生
2025-11-27
103 0 0
执行什么命令可以输出 git diff 命令的输出片段，显示两个文件之间的差异

执行以下命令可以输出类似你提供的gitdiff片段：基本命令#比较工作区与暂存区的差异gitdiff<file_path>#比较暂存区与最新提交的差异gitdiff--staged<fil...

golang云原生
2025-11-27
106 0 0
raco@ubuntu_2204:~/data/mtk_code/T830/T830/openwrt/build_dir/target-aarch64-openwrt-linux-musl_musl/linux-gem6xxx_evb6990_cpe_mt7992_emmc/hw_nat$ git diff hwnat_ioctl.c > temp_patch.patch raco@ubuntu_2204:~/data/mtk_code/T830/T830/openwrt/build_di...

这个操作已经成功执行了！让我解释一下：当前状态你使用gitdiffhwnat_ioctl.c>temp_patch.patch命令已经成功ls-ltemp_patch.patch显示补丁文件已创建验证补丁...

golang云原生
2025-11-27
94 0 0
PG主节点挂了，为什么备节点不会自动升主

这是一个非常经典且重要的问题。PG（PostgreSQL）主节点挂掉后，备节点没有自动升主，通常是由于自动故障转移机制没有正确配置或生效。简单来说，PostgreSQL的核心本身不包含一个内置的、全自动的“集群管理器”。它提供了构建高可...

golang云原生
2025-11-26
104 0 0
列举吸引读者 Linux内存泄漏与高占用排查方法相关标题

好的，这里有一系列针对“Linux内存泄漏与高占用排查方法”的、旨在吸引不同层次读者的标题。这些标题从新手友好到高手向，从趣味性到专业性，应有尽有。...

golang云原生
2025-11-24
127 0 0
tasklet_schedule 和 tasklet_hi_schedule

tasklet_schedule和tasklet_hi_schedule是Linux内核中用于调度软中断（softirq）的两种机制，都属于Tasklets子系统。它们的主要区别在于优先级和执行时机。...

golang云原生
2025-11-22
136 0 0
/data # iw --debug dev wlan0 connect -w lucky-5g auth open key 0:1234567890 Usage: iw [options] dev connect [-w] [] [] [auth open|shared] [key 0:abcde d:1:6162636465] [mfp:req/opt/no] Join the network with th...

是的，您的命令有几个语法问题。主要问题是选项顺序和参数格式不正确。正确的命令格式：#基本连接（推荐）iw--debugdevwlan0connect"lucky-5g"authopenkey0:1234567890...

golang云原生
2025-11-20
133 0 0
/data # iw --debug dev wlan0 connect -w "lucky-5g" auth open key 0:1234567890 Usage: iw [options] dev connect [-w] [] [] [auth open|shared] [key 0:abcde d:1:6162636465] [mfp:req/opt/no] Join the network with ...

看起来命令格式还是有问题。让我分析一下正确的语法：问题分析：iwconnect命令对参数顺序很严格，特别是-w选项的位置。正确的命令格式：#方法1：不使用-w选项（推荐先试这个）iw--debugdevwlan...

golang云原生
2025-11-20
145 0 0
$驱动代码 void kalRxTaskletSchedule(struct GLUE_INFO *pr) { static unsigned int num = 0; tasklet_hi_schedule(&pr->rRxTask[(num++)%NR_CPUS]); // tasklet_hi_schedule(&pr->rRxTask); DBGLOG(HAL, ERROR,$

驱动代码 void kalRxTaskletSchedule(struct GLUE_INFO *pr) { static unsigned int num = 0; tasklet_hi_schedule(&pr->rRxTask[(num++)%NR_CPUS]); // tasklet_hi_schedule(&pr->rRxTask); DBGLOG(HAL, ERROR, "lucky:%s:%d--(num++)%%NR_CPUS:%d\n",__func__,__LI...

从代码和打印结果来看，问题出现在自增运算符的副作用和执行顺序上。问题分析staticunsignedintnum=0;tasklet_hi_schedule(&pr->rRxTask[(num++)%NR_CP...

golang云原生
2025-11-18
150 0 0

发表列表

昵称
邮箱
网址

游客

此处应有掌声~

评论列表

还没有评论，快来说点什么吧~

联系我们

在线咨询：

微信号：3007537140

上班时间: 10:30-22:30

关注我们