博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
向HtmlAgilityPack道歉:解析HTML还是你好用
阅读量:6403 次
发布时间:2019-06-23

本文共 1780 字,大约阅读时间需要 5 分钟。

原文:

 

去年写过一篇文章回复中有朋友提到可以使用HtmlAgilityPack来进行HTML的解析。当时只是匆匆的测试了一下,发现HtmlAgilityPack得到的InnerText中有很多的不干净的script、样式内容,就断定“不是很满意,解析DiscuzNT!论坛的帖子页面的时候有问题,没法正确得到Body.InnerText的内容,有很多残留html、js代码夹杂在其中,解析的不是很好。”

 

内部有一个工具是我开发的,其中的HTML解析部分就是我使用MSHTML完成的,但是今天发现这个软件一个Bug,是MSHTML的HTMLDocumentClass在多线程并发时候有时候会造成死锁。MSHTML是工作在UI线程中的(如果不把DesignMode设置为On,则HTML中的javascript会被执行就是证明),并不是一个干净的、独立的HTML解析组件,因此出现这样的问题很难调试。因此决定还是换用向HtmlAgilityPack实现。

那么如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题呢,在google上搜索“HtmlAgilityPack script innerText”找到了stackoverflow上的这篇文章

代码如下:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())     script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray())     style.Remove(); string innerText = doc.DocumentNode.InnerText;

 

原来这样简单呀,就是把所有的script、style标签从dom树中去掉(为了解决迭代器在工作时不能从集合中Remove元素的问题,使用ToArray()转换为数组再遍历)。

这样操作发现还是有残留的script:

 

仔细一看原来是带条件注释的script,因此用下面的方法去掉所有的注释节点:

代码如下:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())     script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray())     style.Remove(); foreach (var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray())     comment.Remove();//新增的代码 string innerText = doc.DocumentNode.InnerText;

 

解释:HtmlAgilityPack是使用XPath语法,"//comment()"在XPath中表示“所有注释节点”,关于XPath的详细用法请参考XPath的资料。

其他可能有用的技术点:

1、获取网页title:doc.DocumentNode.SelectSingleNode("//title").InnerText;
解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接:doc.DocumentNode.Descendants("a")

3、获取name为kw的input,也就是相当于getElementsByName():
            var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

解释:"//input[@name='kw']"也是XPath的语法,表示:name属性等于kw的input标签。

 

经过这次使用HtmlAgilityPack得出结论:还是HtmlAgilityPack强大!!!再见MSHTML!

转载地址:http://rznea.baihongyu.com/

你可能感兴趣的文章
详解SLB、EIP、NAT网关, 合理选择云上公网入口
查看>>
饿了么CTO张雪峰:允许90后的技术人员“浮躁“一点
查看>>
Dubbo/HSF在Service Mesh下的思考和方案
查看>>
Django form表单
查看>>
CTYL-9.14(tomcat端口与阿里云安全组,域名与tomcat配置,域名与反向代理)
查看>>
古风男孩美名推荐分享
查看>>
Hadoop的命令
查看>>
Android 7.0 PopupWindow显示错位问题
查看>>
源码编译安装PHP5、PHP7
查看>>
Java 多线程相关问题记录
查看>>
LNMP架构介绍、MySQL安装、PHP安装、 Nginx介绍
查看>>
es6 class 笔记
查看>>
使用 MaxCompute(原ODPS) java sdk 运行安全相关命令
查看>>
简单的Spark+Mysql整合开发
查看>>
web.xml里的errorpage的用法
查看>>
阿里java面试经验大汇总(附阿里职位需求)
查看>>
Python全套零基础视频教程+软件2018最新编程视频!
查看>>
内存管理之1:x86段式内存管理与保护模式
查看>>
Java的GC与内存分配策略
查看>>
20180925上课截图
查看>>