关于phpQuery抓取页面元素的问题

关于phpQuery抓取页面元素的问题

作者: codezm | 来源:发表于2019-10-19 07:19 被阅读0次

关于phpQuery抓取页面元素的问题
抓取页面元素--python篇
抓取页面元素--ruby篇
爬虫抓取电商产品信息
php强大的采集器phpQuery
爬虫：3. selenium
Node爬虫
【Python】Python抓取分享页面的源代码示例
关于Xpath注意的问题
phpQuery学习笔记

问题是这样的，我的好友测试发现使用以下代码未将 html 中的  替换成 1。

$str = 'abc yaya';
$doc = new DOMDocument('1.0', 'utf-8');
$doc->formatOutput = true;
$doc->preserveWhiteSpace = true;
$doc->loadHTML("Test ");
$doc->loadHTML("<html><body>Test&nbsp;</body></html>");
$res = $doc->textContent;
$res = str_replace(' ', '1', $res);

查找问题

$space = sub_str($res, 4);
echo ord($splace);

结果返回ASCII值为: 194 (非正常空格！) 正常空格的ASCII码值为 32 。
问题出在 DOMDocument->loadHTML 上，具体未再深究...

解决问题

方法一
```
$res = htmlentities($res); 
```
将特殊空格符号转换成  ，在进行coding...
方法二
```
$res = str_replace(array(chr(194), chr(160)), '', $res); 
```
直接替换掉特殊字符，我在替换掉 194 之后发现还有问题，再次查找发现 是由 ASCII(194 + 160) 组成, 那就一起干掉吧...

相关文章

关于phpQuery抓取页面元素的问题
问题是这样的，我的好友测试发现使用以下代码未将 html 中的替换成 1。查找问题结果返回ASCII值为:...
抓取页面元素--python篇
目标：抓取该页面的Followers数量因为做自动化测试时经常需要抓取页面元素用作判断，所以这里作下简单的说明 ...
抓取页面元素--ruby篇
目标：抓取该页面的Followers数量因为做自动化测试时经常需要抓取页面元素用作判断，所以这里作下简单的说明 ...
爬虫抓取电商产品信息
网站功能需要，要求抓取各大电商产品信息，尤其是产品价格信息 curl+phpQuery抓取静态网页中信息最开始认...
php强大的采集器phpQuery
phpQuery代码地址 https://github.com/phpquery/phpquery
爬虫：3. selenium
selenium 很多页面元素的生成都是通过与后台交互生成，就是常说的动态页面。使用requests抓取动态页面返...
Node爬虫
使用cheerio爬虫模块抓取页面后获取元素信息跟jQuery基本一样
【Python】Python抓取分享页面的源代码示例
本文章是关于利用Python方法来抓取某网站分享页面中的源码方法示例。需要大家注意的是Python抓取分享页面的源...
关于Xpath注意的问题
在一个页面上抓取元素时（对于经常变动的页面）：第一：有id使用id 第二：一级一级的用class去取到元素（每个c...
phpQuery学习笔记
一、phpQuery的hello word! 下面简单举例： include 'phpQuery.php';php...

网友评论

本文标题：关于phpQuery抓取页面元素的问题

本文链接：https://www.haomeiwen.com/subject/aorgmctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|关于phpQuery抓取页面元素的问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！