PHP使用puppeteer抓取JS渲染后的页面内容

最近遇到一个问题,需要爬取js渲染后的网页内容,因此研究了下相关实现方式。主要借助puppeteer实现,它是一个Node库,要想在PHP中使用,还借助了spatie/browsershot

环境依赖

环境 要求
Node >=7.6.0
PHP >=7.1
PHP extension php_sockets, php_exif

puppeteer

Puppeteer是一个Node库,我是直接在php项目下使用npm安装这个库,然后借助spatie/browsershot来调用它。读者也可以新建一个node项目安装这个库,然后对外暴漏一个端口通过接口的方式传递url返回html内容的方式实现。

npm i puppeteer --save

离线安装Chromium

安装puppeteer时会下载Chromium,因为众所周知的原因可能会下载不下来,因此下面提供了离线下载的方式。

跳过安装chromium

如果已经运行上一步的命令并且正在下载Chromium了,那可以直接Ctrl+C停止任务。如果还没运行,就使用下面的命令安装。

npm i puppeteer --ignore-scripts

获取需要下载的chromium版本号

打开/node_modules/puppeteer/package.json搜索chromium_revision对应的版本号

"puppeteer": {
    "chromium_revision": "756035",
    "firefox_revision": "latest"
}

下载对应版本的chromium

用上面的版本号替换掉下方花括号里的字符,比如我本地是win x64,下载地址就是https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/756035/chrome-win.zip

mac版下载地址:
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Mac/{chromium版本}/chrome-mac.zip

windows 64位版本下载地址:
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win_x64/{chromium版本}/chrome-win.zip

windows 32位版本下载地址:
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Win/{chromium版本}/chrome-win.zip

Linux X86版本下载地址:
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Linux/{chromium版本}/chrome-linux.zip

Linux X64版本下载地址:
https://commondatastorage.googleapis.com/chromium-browser-snapshots/Linux_x64/{chromium版本}/chrome-linux.zip

解压

将下载下来的chromium安装包解压到puppeteer中的.local_chromium/win64-{chromium版本号}/目录下。以我的为例就是/node_modules/puppeteer/.local_chromium/win64-756035/chrome-win/。搞定~

spatie/browsershot

browsershot 是一个composer包,以前还用过的spatie/laravel-permission,都是同一团队制作的

composer require spatie/browsershot

使用

其实困难的部分就是找到合适的工具以及安装工具,真正使用反而很简单。下面列了一个很简单的例子,更多方法还是去看官方文档吧。

<?php
use Spatie\Browsershot\Browsershot;
class Spider
{
    /**
     * 获取html内容
     * @param $url
     * @return string
     */
    public static function getBodyHtml($url)
    {
        return Browsershot::url($url)->bodyHtml();
    }
}

 总结

到此这篇关于PHP使用puppeteer抓取JS渲染后的页面内容的文章就介绍到这了,更多相关PHP获取JS渲染后的页面内容内容请搜索恩蓝小号以前的文章或继续浏览下面的相关文章希望大家以后多多支持恩蓝小号!

原创文章,作者:KEFNA,如若转载,请注明出处:https://www.wangzhanshi.com/n/18744.html

(0)
KEFNA的头像KEFNA
上一篇 2025年2月24日 07:37:37
下一篇 2025年2月24日 07:37:40

相关推荐

  • 有关PHP7多进程的讲解

    今天小编就为大家带来一篇有关PHP7的多进程的文章。小编觉得挺实用的,为此分享给大家做个参考。一起跟随小编过来看看吧。 我们都知道PHP是单进程执行的,PHP处理多并发主要是依赖服…

    php 2025年1月1日
  • php函数版本更新的方法和使用工具

    更新 php 函数版本至关重要,可提高安全性、性能和代码可维护性。详细描述:评估影响:确定依赖于过时函数的代码并评估更新影响。制定计划:制定分阶段更新计划,从不重要函数开始。编写测…

    php 2024年12月17日
  • ThinkPHP5中Request请求对象大全

    可以通过Request对象完成全局输入变量的检测、获取和安全过滤,支持包括$_GET、$_POST、$_REQUEST、$_SERVER、$_SESSION、$_COOKIE、$_…

    php 2024年12月17日
  • 使用PHPStudy搭建Cloudreve网盘服务的流程步骤

    1、前言 自云存储概念兴起已经有段时间了,各互联网大厂也纷纷加入战局,一时间公有云盘遍地开花。但一段时间后,公有云盘潜在的安全问题也暴露出来,原有的共有云盘用户纷纷转为搭建私有云盘…

    2024年12月17日
  • PHP实现首字母(截取第一个汉字)生成头像图片

    会员系统中,用户如果不上传自定义头像,使用固定图片作为头像未免有些单调。PHP可以实现生成用户名首字母或者第一个汉字(第一个字符)的头像图片,不使用第三方API,第三方虽然图片比较…

    php 2024年12月17日
  • 怎么在Plesk PHP7中启用Oracle OCI8扩展

    php有什么用 php是一个嵌套的缩写名称,是英文超级文本预处理语言,它的语法混合了C、Java、Perl以及php自创新的语法,主要用来做网站开发,许多小型网站都用php开发,因…

    php 2025年1月1日
  • ubuntu系统中安装php7的教程

    Ubuntu 16.04官方源自带PHP7,所以可以直接使用apt-get来安装。 (1)安装PHP7以及常用扩展。 sudo apt-get install php7.0-fpm…

    2025年1月1日
  • php7能在phpcms使用吗

    PHPCMS是一款网站管理软件。该软件采用模块化开发,支持多种分类方式,使用它可方便实现个性化网站的设计、开发与维护。 它支持众多的程序组合,可轻松实现网站平台迁移,并可广泛满足各…

    php 2025年1月1日
  • PHP调用DeepSeek API的完整指南

    简介 本文将介绍如何使用 PHP 调用 DeepSeek API,实现流式对话并保存对话记录。PHP 版本使用面向对象的方式实现,代码结构清晰,易于维护。 1. 环境准备 1.1 …

    php 2025年2月24日
  • PHP 8有哪些新增的特性?

    新的 PHP 主要版本 PHP8 预计将于 2020 年底发布。 它现在正处于非常活跃的开发中,所以在接下来的几个月里,开发速度和开发进程可能会有很大的变化。 在这篇文章中,我会罗…

    php 2025年1月2日

发表回复

登录后才能评论