我们知道node是单进程的,但实际上目前cpu都是多核的,单进程只能跑一个核,这样cpu资源就没有得到充分利用。
cluster是一个node内置的集群模块,可以用于多进程管理。cluster非常好用,它大大减轻了我们多进程开发的难度,让我们可以轻松构建一个负载均衡集群。
express + cluster
express框架比较常用,我们可以在它下面集成cluster,使其拥有多进程的功能:
bin/www
#!/usr/bin/env node
/**
* Module dependencies.
*/
var app = require('../app');
var debug = require('debug')('myserver:server');
var http = require('http');
let cluster = require('cluster')
let cpus = require('os').cpus()
console.log(cpus.length)
/**
* Get port from environment and store in Express.
*/
var port = normalizePort(process.env.PORT || '3000');
app.set('port', port);
if (cluster.isMaster) {
for (let i = 0; i < cpus.length; i++) {
cluster.fork()// 根据cpu个数fork子进程
}
cluster.on('exit', function(worker, code, signal) {
//监听哪个worker挂掉了?
console.log('worker ' + worker.process.pid + ' died');
cluster.fork();//新建一个worker
});
}
else if (cluster.isWorker) {
/**
* Create HTTP server.
*/
var server = http.createServer(app);
/**
* Listen on provided port, on all network interfaces.
*/
server.listen(port);
server.on('error', onError);
server.on('listening', onListening);
}
/**
* Normalize a port into a number, string, or false.
*/
function normalizePort(val) {
var port = parseInt(val, 10);
if (isNaN(port)) {
// named pipe
return val;
}
if (port >= 0) {
// port number
return port;
}
return false;
}
/**
* Event listener for HTTP server "error" event.
*/
function onError(error) {
if (error.syscall !== 'listen') {
throw error;
}
var bind = typeof port === 'string'
? 'Pipe ' + port
: 'Port ' + port;
// handle specific listen errors with friendly messages
switch (error.code) {
case 'EACCES':
console.error(bind + ' requires elevated privileges');
process.exit(1);
break;
case 'EADDRINUSE':
console.error(bind + ' is already in use');
process.exit(1);
break;
default:
throw error;
}
}
/**
* Event listener for HTTP server "listening" event.
*/
function onListening() {
var addr = server.address();
var bind = typeof addr === 'string'
? 'pipe ' + addr
: 'port ' + addr.port;
debug('Listening on ' + bind);
}
我的电脑是4核的,因此会fork出4个子进程,这个www文件会被执行5次,因为要构建5个进程:1个主进程,4个子进程。
这样做的好处是——主进程master只负责管理worker子进程,不直接参与业务处理。
给大家做个形象的比喻:
多进程模式下,master是主人,worker是工人。主人拿着皮鞭专门管理一群工人干活,看到哪个不干活(worker挂掉)就一鞭子抽过去(重启worker),主人会活的很好(master不会挂);而单进程模式就是主人亲自干活,一不小心自己也挂了(未捕获异常搞死进程),那就真起不来了。
当然,这只是一个比喻。实际上,哪个worker挂掉后,master并不会自动重启它,但master会接收到一个通知exit,我们可以新fork一个进程即可。
下面我们就来测试一下:
当我们访问网页,究竟是哪个worker给我们处理呢?
我们在express的首页index加上worker的监听信息:
routes/index.js:
var express = require('express');
var router = express.Router();
var cluster = require('cluster')
/* GET home page. */
router.get('/', function(req, res, next) {
console.log('[worker] ' + "worker number:" + cluster.worker.id);
res.render('index', { title: 'Express' });
});
module.exports = router;
用命令行模拟测试:
>curl http://localhost:3000/
测试结果:
curl.jpg
有mac电脑的同学可以打开命令行工具,输入命令top:
>top
这是个linux命令,可以实时监控主机的进程。
寻找一下node进程,然后找到其中一个进程id,强制杀死它,看看进程是否自动重建了?
>kill -9 pid
异常捕获
我们在写js时,用到最多的还是回调函数,而回调函数因其延迟执行的特性,有时确实会有些隐蔽的、会导致进程挂掉的高风险bug没被发现,这时,即使我们开了worker子进程,这些危险的bug仍会轮番攻击worker,导致exit事件频繁发生。
为保护进程的安全,我们需要捕获这些未知的危险bug,通过打印错误堆栈分析出错误原因,并及时修正。
if (cluster.isMaster) {
for (let i = 0; i < cpus.length; i++) {
cluster.fork()// 根据cpu个数fork子进程
}
cluster.on('exit', function(worker, code, signal) {
//监听哪个worker挂掉了?
console.log('worker ' + worker.process.pid + ' died');
cluster.fork();//新建一个worker
});
} else if (cluster.isWorker) {
/**
* Create HTTP server.
*/
var server = http.createServer(app);
/**
* Listen on provided port, on all network interfaces.
*/
server.listen(port);
server.on('error', onError);
server.on('listening', onListening);
process.on('uncaughtException', (e) => {
console.log(e)// 可以将错误堆栈记录到日志
process.exit(1)// 通知到master
})
}
数据共享问题
多进程必然带来数据共享问题,比如session。
假如你在登录时是worker1帮你处理的,session也会记录在worker1下面,而当你去购物车下单时,可能就分配到worker2去了,worker2下面没有session,因此判断你没登录,提醒你去登录。
这样就出问题了,怎么办呢?
我们可以用mysql或redis来搞定,因为这二者都是独立于node进程之外的。
mysql是用表来记录session,而redis是共享内存,实战中redis使用的更普遍一些。
如果只是普通的数据,也可以用file做数据共享,这就看你的具体需求了。
网友评论