对抗搜索和博弈 - 终局搜索(算杀）

作者: 西部小笼包 | 来源:发表于2023-08-26 20:12 被阅读0次

人工智能期末复习笔记2018-01-03
7.7-第二部分总结与测验
美团数据碾压饿了么口碑？千万别被误导！真相是这样的
深入搜索引擎原理
第一节人工智能的定义
一篇文章入门Elasticsearch查询
淘猫流量影响搜索流量上涨的核心因素主要有哪些？
最佳优先搜索算法（Best-First-Search）
搜索+搜索+搜索
搜索技术和搜索资源

终局搜索(算杀)

我们在下五子棋的时候，常常会有这样一种思考策略。就是针对现在的局面，我是否可以通过连续的冲四达到杀棋的效果。如果你发现了，你其实就意识到自己已经赢了。

那么我们是否可以在原来枚举所有优秀候选落子对局面算分的同时。再额外开一个线程，计算一下当前的局面是否可以达到杀棋必胜。

我们可以这么思考这个问题，

如果我走冲四，对面只有1个应手，就是挡我的冲四。下一轮还是我主导进攻
如果我走活三，对面有2个应手，就是挡我的活三左右侧。下一轮还是我主导进攻。
活三的应手，对面可以通过冲四来延迟应手。此时我们堵掉对面冲四，依然是我方主导进攻
如果我走活三，对面的应手棋子触发了对面的活三或冲四，我被迫应手。对面主导进攻。
如果对面已经有活三或冲四，我必须应手，对面主导进攻。

那么我们需要做的是不断通过冲四，活三，看看最后是否必胜（构建出1个双冲四，或者活四）；如果在进攻的这条线路中，最后我们没有活三或冲四了，则搜索失败。又或者我的进攻时候，主导权易主了，则进攻失败。

所以算法的算法最后会返回一个空的落子，代表没有算杀成功。如果成功，则返回正确的杀棋落子。

基于上述思路我们首先在AI的环节，要找到所有杀棋的候选子（活三或者冲四）
这边我们返回的候选集，需要带上分数，因为我们要区分，这次的下棋，是不是上面的第三种情况；就是由我们主导进攻，但是在我们活三进攻中，对面选择了冲四，所以我们堵掉冲四即可。那么我们把这种棋子的分数标价为负，就知道，虽然是防守，但是可以继续算杀。

我们专门生成一个类，来维护算杀的分数。

public class VCXCachedScoreManager extends CachedScoreManager {

    private int[][] aiScore;
    private int[][] humanScore;
    private final VCXOptimization killOptimization;

    public VCXCachedScoreManager(IChessboardAIAlgo chessBoardAIAlgo, int humanColor, VCXOptimization vcxOptimization) {
        super(chessBoardAIAlgo);
        aiScore = humanColor != Player.BLACK.getId() ? blackScore : whiteScore;
        humanScore = humanColor == Player.BLACK.getId() ? blackScore : whiteScore;
        killOptimization = vcxOptimization;
    }
...
}

找到进攻棋子

除了对面冲四的口子，我们标记为负数外。
我们这边做了一个米字优化，
它的含义是，我们假设下一步的进攻，应该在上一步进攻落子的4个方向上（水平，竖直，正对角，反对角）
这样可以大大加速算杀的速度，原因是候选落子会少很多。
准确率会略微降低，因为有的时候确实我们正确的进攻步骤，不满足每2步之间都呈现这种米字关系

1693041653948.png

public List<Long> findAIKillSteps(int lastMaxPoint) {
        List<Long> results = new ArrayList<>();
        List<Long> fives = new LinkedList<>();

        for (int y = 0; y < size; y++) {
            for (int x = 0; x < size; x++) {
                if (chessBoardAlgo.getValInBoard(x, y) != 0) continue;
                int pos = convertToIdx(y, x, size);
                if (aiScore[y][x] >= Score.FIVE.value) {
                    return List.of(encode(aiScore[y][x], pos));
                } else if (humanScore[y][x] >= Score.FIVE.value) {
                    fives.add(encode(-humanScore[y][x], pos));
                } else {
                    if (lastMaxPoint == -1
                            || y == getY(lastMaxPoint, size)
                            || x == getX(lastMaxPoint, size)
                            || Math.abs(y - getY(lastMaxPoint, size)) == Math.abs(x - getX(lastMaxPoint, size))) {
                        // 连续进攻
                        if (aiScore[y][x] >= Score.THREE.value)
                            results.add(encode(aiScore[y][x], pos));
                    } else if (humanScore[y][x] >= Score.FOUR.value && aiScore[y][x] >= Score.THREE.value) {
                        // 连守带攻
                        results.add(encode(aiScore[y][x], pos));
                    } else if (killOptimization.matchKillSteps(aiScore[y][x])) {
                        results.add(encode(aiScore[y][x], pos));
                    }
                }
            }
        }
        if (!fives.isEmpty()) return fives;
        results.sort((a, b)-> Integer.compare(score(b), score(a)));
        return results;
    }

另外上面代码第二个FOR循环，是另一个特例，虽然我们不在米子上，但是这步棋我们挡住了对面的活三同时，构建出自己的一个活三，也是值得考虑的。
为什么呢，因为对方在应手的时候，可能出现了自己的活三；那么这个时候如果我们没有冲四了，只能要去挡对面的活三；那么攻守易主，其实等于算杀失败。但是如果存在一步棋，可以防守的同时结合进攻，就可以继续算杀。

最后一个IF，是我们设计了一个枚举类，去平衡，算杀速度和算杀准确率的一个选项，我自己在使用的时候，基本都是用FAST的。

public enum VCXOptimization {
    FAST(2){
        @Override
        public boolean matchKillSteps(int aiScore) {
            return false;
        }
    }, MEDIUM(4) {
        @Override
        public boolean matchKillSteps(int aiScore) {
            return aiScore >= Score.BLOCKED_FOUR.value;
        }
    }, SLOW(8) {
        @Override
        public boolean matchKillSteps(int aiScore) {
            return aiScore >= Score.THREE.value;
        }
    };
    int factor;

    VCXOptimization(int factor) {
        this.factor = factor;
    }

    public abstract boolean matchKillSteps(int aiScore);
}

好了下面我们来写，防守的应手选项的代码。
不考虑已经赢了可以退出的选项，其实选择无非就是，自己冲四，挡对面冲四，挡对面活三

public List<Long> findHumanDefendSteps() {
        List<Long> fives = new ArrayList<>();
        LinkedList<Long> fours = new LinkedList<>();
        List<Long> blockedFours = new ArrayList<>();
        for (int y = 0; y < size; y++) {
            for (int x = 0; x < size; x++) {
                if (chessBoardAlgo.getValInBoard(x, y) != 0) continue;
                int pos = convertToIdx(y, x, size), hs = humanScore[y][x], as = aiScore[y][x];
                if (hs >= Score.FIVE.value) {
                    return List.of(encode(-hs, pos));
                }
                if (as >= Score.FIVE.value) {
                    fives.add(encode(as, pos));
                } else if (hs >= Score.FOUR.value) {
                    fours.addFirst(encode(-hs, pos));
                } else if (as >= Score.FOUR.value) {
                    fours.add(encode(as, pos));
                } else if (hs >= Score.BLOCKED_FOUR.value) {
                    fours.add(encode(-hs, pos));
                } else if (as >= Score.BLOCKED_FOUR.value) {
                    blockedFours.add(encode(as, pos));
                }
            }
        }
        // 挡对面的冲四
        if (!fives.isEmpty()) return fives;
        // 形成自己的活四，挡对面的活三, 形成自己的冲四
        if (!fours.isEmpty()) {
            // 有时对面的杀棋，是活三的一个冲四位而非活四位
            fours.addAll(blockedFours);
        }
        return fours;
    }

好了，有了候选落子，我们就开始写算杀的算法逻辑。
基本规则就是，进攻方枚举每一种进攻，只要有其中一种可以必胜，自己返回必胜。防守方枚举每一种防守手段，只要有一种可以防下来（攻守易主，或者对面没有额外的活三，冲四进攻手段），那么就算防守成功。

// lastMaxPoint, 为了优化性能, 方便剪枝
    boolean aiWin(int role, int depth, int lastMaxPoint) {
        if (depth <= 0) return false;

        List<Long> candidates = vcxCachedScoreManager.findAIKillSteps(lastMaxPoint);
        if (!candidates.isEmpty() && score(candidates.get(0)) >= Score.FOUR.value) {
            if (depth == firstDepth)
                nextPoint = pos(candidates.get(0));
            return true;
        }

        if (candidates.isEmpty()) return false;


        int maxPoint = -1;
        for (long p : candidates) {
            int pos = pos(p), score = score(p);
            int y = getY(pos), x = getX(pos);
            addPiece(y, x, pos,true);
            if (score > -Score.FIVE.value) {
                maxPoint = pos;
            }
            boolean humanLose = humanLose(Player.enemyColor(role), depth - 1, maxPoint);
            removePiece(y, x, pos, true);
            if (humanLose) {
                if (depth == firstDepth)
                    nextPoint = pos;
                return true;
            }
        }
        return false;
    }

    private boolean humanLose(int role, int depth, int lastMaxPoint) {
        // 超过回合数，代表防守成功
        if (depth <= 0) return false;
        List<Long> candidates = vcxCachedScoreManager.findHumanDefendSteps();
        // 如果发现对面没有进攻手段（活三，冲四，活四），则代表防守成功
        if (candidates.isEmpty()) return false;
        // 如果对面能成五，发现自己有成五；
        // 如果对面不能成五，发现自己有活四；
        if (-1 * score(candidates.get(0)) >= Score.FOUR.value)
            return false;
        for (long p : candidates) {
            int pos = pos(p);
            int y = getY(pos), x = getX(pos);
            addPiece(y, x, pos, false);
            boolean aiWin = aiWin(Player.enemyColor(role), depth - 1, lastMaxPoint);
            removePiece(y, x, pos, false);
            if (!aiWin) return false;
        }
        return true;
    }

综上我们的算法单独部分算是完成了，接下来，我们需要优雅的把他集成进原来minmax 算法里，并行计算。
我这边选择了一个装饰者模式，因为模块批次独立，可以并行计算，我们可以通过装饰的方式，把算杀运用到任何一种AI算法中。
比如我们的主算法可以是MINMAX搜索，算杀可以装饰它。主算法也可以是蒙特卡洛树搜索，算杀也可以装饰它，一起并行计算。
最后的结果是，如果算杀找到解，则用算杀解。不然就用主算法的解。
那么为了实现装饰者模式，我们先用装饰者类去实现下接口。

public abstract class AIAlgoDecorator implements IAIAlgo {
    protected IAIAlgo decoratedAIAlgo;
    @Getter
    protected IChessboardAIAlgo chessboardAlgo;
    @Getter
    protected int humanColor;
    @Getter
    protected IScoreManager scoreManager;

    public AIAlgoDecorator(IAIAlgo iaiAlgo){
        this.decoratedAIAlgo = iaiAlgo;
        chessboardAlgo = iaiAlgo.getChessboardAlgo();
        humanColor = iaiAlgo.getHumanColor();
        scoreManager = iaiAlgo.getScoreManager();
    }

    public void setPieceCallBack(int y, int x, int player, boolean isAI) {
        decoratedAIAlgo.setPieceCallBack(y, x, player, isAI);
    }

    public boolean isWinning() {
        if (decoratedAIAlgo instanceof AIAlgoDecorator) {
            return ((AIAlgoDecorator) decoratedAIAlgo).isWinning();
        }
        return false;
    }

    protected Position runInParallel(Callable<Position> finalResult, WinningAlgoTask... potentialWin) {
        int received = 0, taskCount = 1 + potentialWin.length;
        // important, since interrupt will not clear the queue, if it is a class level object, the interrupted task will be take() next time
        CompletionService<Position> completionService = new ExecutorCompletionService<>(ThreadPoolContext.threadPool);
        Future<Position> finalRes = completionService.submit(finalResult);
        Map<Future<Position>, Consumer<Position>> task2Callback = new HashMap<>();
        task2Callback.put(finalRes, DO_NOTHING);
        for (WinningAlgoTask i : potentialWin) {
            task2Callback.put(completionService.submit(i.winningTask), i.winningCallback);
        }
        Position end = Position.EMPTY;
        try {
            //System.out.println(getClass().getSimpleName() + " taskCount: " + taskCount);
            while (received < taskCount) {
                Future<Position> future = completionService.take();
                if (future.isCancelled()) {
                    //System.out.println(getClass().getSimpleName() + " cancelled: " + future);
                    received++;
                    continue;
                }
                Position result = future.get();
                task2Callback.get(future).accept(result);
                received++;
                if (result != Position.EMPTY && result.winning) {
                    //System.out.println(getClass().getSimpleName() + " winning: " + result);
                    end = result;
                    break;
                }
            }
            if (end == Position.EMPTY) {
                end = finalRes.get();
            }
        } catch (InterruptedException e) {
            // ignore
        } catch (Exception e) {
            System.err.println(getClass().getSimpleName() + " result error");
            e.printStackTrace();
        }
        task2Callback.keySet().forEach(i -> i.cancel(true));
        return end;
    }
    private static Consumer<Position> DO_NOTHING = pos -> {};
    class WinningAlgoTask {

        Callable<Position> winningTask;
        Consumer<Position> winningCallback;

        public WinningAlgoTask(Callable<Position> winningTask, Consumer<Position> winningCallback) {
            this.winningTask = winningTask;
            this.winningCallback = winningCallback;
        }
    }
}

然后我们实现一个算杀的装饰者实现。如果一旦算杀成功之后，之后所有的落子都可以交给算杀模块。而不需要去调主模块了。

public class VCXDecorator extends AIAlgoDecorator {
    public VCX mustWin = null;
    private int vcxDepth;

    public VCXDecorator(IAIAlgo decoratedAIAlgo, int vcxDepth) {
        super(decoratedAIAlgo);
        this.vcxDepth = vcxDepth;
    }

    @Override
    public Position aiFindPos() {
        if (mustWin != null) {
            Position pos = mustWin.aiFindPos();
            if (pos == Position.EMPTY) {
                System.out.println("vcx has bug");
                chessboardAlgo.generateStepsCode();
                mustWin = null;
                scoreManager.initScore();
                return decoratedAIAlgo.aiFindPos();
            }
            return pos;
        }

        VCX vcx = new VCX(chessboardAlgo.clone(), humanColor, vcxDepth);

        Position res = runInParallel(() -> decoratedAIAlgo.aiFindPos(),
                new WinningAlgoTask(() -> vcx.aiFindPos(),
                        pos -> {
                            if (pos != Position.EMPTY) {
                                mustWin = new VCX(chessboardAlgo, humanColor, vcxDepth - 2);
                                System.out.println("算杀必胜");
                            } else {
                                System.out.println("算杀失败");
                            }
                        }));
        System.out.println("vcx calculation finished");
        return res;
    }

    @Override
    public void setPieceCallBack(int y, int x, int player, boolean isAI) {
        if (mustWin != null) {
            mustWin.setPieceCallBack(y,x,player, isAI);
        }
        decoratedAIAlgo.setPieceCallBack(y, x, player, isAI);
    }

    @Override
    public boolean isWinning() {
        return mustWin != null || super.isWinning();
    }
}

最后我们在配置AI算法的类中，注册进这个算杀的装饰者。

大概写法如下：

new AIPlayStrategy(new VCXDecorator(new ThreadSafeMinMaxAIAlgo(chessboardAlgo, enemyColor, 7, NegamaxVCXEnhancedContext.DISABLE), 21), uiCallback);

上面我们用到了一个线程安全的minmax algo，原因是我们开了多线程，且我们为了提高交互速度，只要算杀有解，我们可以直接返回算杀解。这时即使我们的装饰者给MINMAX线程发送了CANCEL请求，但是它依然有可能还在维护它自己的分数状态和棋盘状态。这个时候UI上对手已经可以下棋了。那么就会造成对棋盘类的RACE CONDITION。
所以我们需要一个线程安全的算杀类。他其实就是在原来的算杀类上包了一层，做1个COPY ON WRITE。同时我们要确保我们在COPY的时候，没有其他MINAMX的线程还在写这个棋盘类。
否则的话，我们复制出一个错误的棋盘状态，造成后面算法不对

public class ThreadSafeMinMaxAIAlgo extends MinMaxAIAlgo {
    private IChessboardAIAlgo originalChessboardAlgo;
    private IScoreManager originalScoreManager;
    private Semaphore semaphore = new Semaphore(1);

    public ThreadSafeMinMaxAIAlgo(IChessboardAIAlgo chessBoardAlgo, int enemyColor) {
        this(chessBoardAlgo, enemyColor, 9, NegamaxVCXEnhancedContext.DISABLE);
    }

    public ThreadSafeMinMaxAIAlgo(IChessboardAIAlgo chessBoardAlgo, int enemyColor, int depth, NegamaxVCXEnhancedContext context) {
        super(chessBoardAlgo.clone(), enemyColor, depth, context);
        originalChessboardAlgo = chessBoardAlgo;
        originalScoreManager = new CachedScoreManager(chessBoardAlgo);
    }

    @Override
    public IScoreManager getScoreManager() {
        return originalScoreManager;
    }

    @Override
    public IChessboardAIAlgo getChessboardAlgo() {
        return originalChessboardAlgo;
    }

    @Override
    public void setPieceCallBack(int y, int x, int player, boolean isAI) {
        originalScoreManager.updateScore(y, x);
        super.setPieceCallBack(y, x, player, isAI);
    }

    @Override
    public Position aiFindPos() {
        try {
            cloneStatefulComponent();
            Position res = super.aiFindPos();
            semaphore.release();
            return res;
        } catch (InterruptedException e) {
            Thread.currentThread().interrupt();
        }
        return Position.EMPTY;
    }

    private void cloneStatefulComponent() throws InterruptedException {
        semaphore.acquire();
        chessboardAlgo = originalChessboardAlgo.clone();
        scoreManager = new CachedScoreManager(chessboardAlgo);
    }
}

总结

这个AI实现之后，当你看到AI算杀必胜的时候，你会发现其实你根本不知道自己会怎么输。但是AI已经枚举自己的杀棋，以及的你所有应手，知道你必输了。所以在残局的时候，AI优势极大。他可以在极短的时间往后遍历20多步，判断出你无论怎么走都是必输的情况。

这就是算法的魅力。

人工智能期末复习笔记2018-01-03
对抗搜索博弈问题博弈问题穷举有时可以获得必胜结果，但是稍微复杂一点的问题就很难穷举了。极大极小过程 alpha...
7.7-第二部分总结与测验
回顾总结：搜索与算分结构化搜索与⾮结构化搜索Term 查询和基于全⽂本 Match 搜索的区别对于需要做精确匹配...
美团数据碾压饿了么口碑？千万别被误导！真相是这样的
互联网之战，没有终局，要么成长，要么退场。谷歌不是最早做搜索的，却成为搜索巨头，亚马逊不是最早做电商的，却成就电...
深入搜索引擎原理
之前几段工作经历都与搜索有关，现在也有业务在用搜索，对搜索引擎做一个原理性的分享，包括搜索的一系列核心数据结构和算...
第一节人工智能的定义
一、主要内容智能体的概念树搜索算法无信息搜索策略启发式搜索策略约束满足问题求解博弈算法不确定性推理 ...
一篇文章入门Elasticsearch查询
此篇为开篇贴，后面会陆续更新基于词项和基于全文的搜索结构化搜索搜索的相关性算分 Query & Filter...
淘猫流量影响搜索流量上涨的核心因素主要有哪些？
搜索流量上涨的核心因素之搜索权重的构成首先，大家应该明白“权重是由什么组成的” 权重=搜索算法的数值总和而搜索算...
最佳优先搜索算法（Best-First-Search）
1、算法原理最佳优先搜索算法是一种启发式搜索算法（Heuristic Algorithm），其基于广度优先搜索算...
搜索+搜索+搜索
鲜活的一天，从起床那刻开始！ <感谢小能熊@陈华伟老师的知识管理课程，仅用于个人笔记学习> 引子经典的东西值得反...
搜索技术和搜索资源
资源搜索论文搜索指令中国知网万方数据平台中国国家数字图书馆（免费）中国社会科学网址网站集群 TVB ...