美文网首页
关于phpQuery抓取页面元素的问题

关于phpQuery抓取页面元素的问题

作者: codezm | 来源:发表于2019-10-19 07:19 被阅读0次

问题是这样的,我的好友测试发现使用以下代码未将 html 中的  替换成 1

$str = 'abc yaya';
$doc = new DOMDocument('1.0', 'utf-8');
$doc->formatOutput = true;
$doc->preserveWhiteSpace = true;
$doc->loadHTML("Test ");
$doc->loadHTML("<html><body>Test&nbsp;</body></html>");
$res = $doc->textContent;
$res = str_replace(' ', '1', $res);
查找问题
$space = sub_str($res, 4);
echo ord($splace); 

结果返回ASCII值为: 194 (非正常空格!) 正常空格的ASCII码值为 32
问题出在 DOMDocument->loadHTML 上,具体未再深究...

解决问题
  • 方法一
    $res = htmlentities($res); 
    
    将特殊空格符号转换成 &nbsp;,在进行coding...
  • 方法二
    $res = str_replace(array(chr(194), chr(160)), '', $res); 
    
    直接替换掉特殊字符,我在替换掉 194 之后发现还有问题,再次查找发现&nbsp;是由 ASCII(194 + 160) 组成, 那就一起干掉吧...

相关文章

  • 关于phpQuery抓取页面元素的问题

    问题是这样的,我的好友测试发现使用以下代码未将 html 中的 替换成 1。 查找问题 结果返回ASCII值为:...

  • 抓取页面元素--python篇

    目标:抓取该页面的Followers数量 因为做自动化测试时经常需要抓取页面元素用作判断,所以这里作下简单的说明 ...

  • 抓取页面元素--ruby篇

    目标:抓取该页面的Followers数量 因为做自动化测试时经常需要抓取页面元素用作判断,所以这里作下简单的说明 ...

  • 爬虫抓取电商产品信息

    网站功能需要,要求抓取各大电商产品信息,尤其是产品价格信息 curl+phpQuery抓取静态网页中信息 最开始认...

  • php强大的采集器phpQuery

    phpQuery代码地址 https://github.com/phpquery/phpquery

  • 爬虫:3. selenium

    selenium 很多页面元素的生成都是通过与后台交互生成,就是常说的动态页面。使用requests抓取动态页面返...

  • Node爬虫

    使用cheerio爬虫模块抓取页面后获取元素信息跟jQuery基本一样

  • 【Python】Python抓取分享页面的源代码示例

    本文章是关于利用Python方法来抓取某网站分享页面中的源码方法示例。需要大家注意的是Python抓取分享页面的源...

  • 关于Xpath注意的问题

    在一个页面上抓取元素时(对于经常变动的页面):第一:有id使用id 第二:一级一级的用class去取到元素(每个c...

  • phpQuery学习笔记

    一、phpQuery的hello word! 下面简单举例: include 'phpQuery.php';php...

网友评论

      本文标题:关于phpQuery抓取页面元素的问题

      本文链接:https://www.haomeiwen.com/subject/aorgmctx.html