目前存在的挑战
- 上下文切换问题
- 线程死锁问题
- 硬件和软件资源限制问题
上下文切换
单核处理器也支持多线程执行代码,CPU通过给每个线程分配CPU时间片来实现。时间片是CPU分配给各个线程的时间,因为时间片非常短,所以CPU通过不停地切换线程执行,让我们感觉多个线程是同时执行的,时间片一般是几十毫秒(ms)。
CPU通过时间片分配算法来执行任务,当前任务执行一个时间片后会切换到下一个任务。但是,在切换前会保存上一个任务的状态,以便下次切换回这个任务时,可以再加载这个任务的状态。任务从保存到再加载的过程就叫做上下文切换。
减少上下文切换
- 无锁并发编程
多线程竞争锁时会引起上下文切换,所以多线程处理数据时,可以使用一些方法来避免使用锁,如将数据的ID按照Hash算法取模分段,不同线程处理不同段的数据。
- CAS算法
Java的Atomic包使用CAS算法来更新数据,而不需要加锁。
- 使用最少线程
避免创建不需要的线程,任务少的话创建大量线程会使它们中大多数都处于等待状态,而每一次WAITTING到RUNNABLE都会进行一次上下文的切换。
- 协程
在单线程里实现多任务的调度,并在单线程里维持多个任务间的切换。
死锁
避免死锁的几个常见的方法:
1.避免一个线程同时获取多个锁
2. 避免一个线程在锁内同时占用多个资源,尽量保证每个锁只占用一个资源
3. 尝试使用定时锁,使用lock.tryLock(timeout)来替代使用内部锁机制
4. 对于数据库锁,加锁和解锁必须在一个数据库连接里,否则会出现解锁失败的情况
资源限制
带宽限制、硬盘读写速度限制、CPU处理速度限制、数据库连接数限制和socket连接数限制
受限于资源限制时,有些情况下并发执行的代码仍然在串行执行,这时候不仅不会加快执行反而会更慢,因为增加了上下文切换和资源调度的时间。
解决资源限制
考虑使用集群并行执行程序,如ODPS、Hadoop或自己搭建的服务器集群。通过"数据ID%机器数",计算得到一个机器编号,然后由对应编号的机器处理这笔数据。
根据不同的资源限制调整程序的并发度,如下载文件依赖两个资源--带宽和硬盘读写速度。数据库操作涉及到连接数,如果SQL语句执行非常快,而线程的数量比数据库连接数大很多,则某些线程会被阻塞等待数据库连接,所以需要调整并发度。
网友评论