美文网首页ClickHouse
clickhouse 常见问题处理(持续更新中)

clickhouse 常见问题处理(持续更新中)

作者: 夏橙cc | 来源:发表于2022-11-01 14:33 被阅读0次

    1.删除表 ZK replicas未同步:

    DB::Exception: Replica /clickhouse/tables/s1/dwd/xxxx/replicas/s1r1 already exists.. 
    

    连上ZK deleteAll 直接OK

    2.无法执行DDL(alter)

    Cannot execute replicated DDL query on leader; 
    

    这里原因比较多,后面有详细的报文,按照提示来,如果是表太大,先按照分区DROP一部分再DROP TABLE,如果是其他的,具体问题具体对待

    3.删除分区/INSERT过快导致节点关闭(分布式DDL卡死)

    Cannot execute replicated DDL query, maximum retires exceede Watching task /clickhouse/task_queue/ddl/query-0000000609 is executing longer than distributed_ddl_task_timeout (=180) seconds 
    

    CK的config.xml有自动清除task_queue的配置,但是默认是不生效的,建议自己加上。如果已经满了,可以查看system.zookeeper看下,执行不了就老办法,上ZKClient,deleteall,然后重启clickhosue

    4.ZK过载/连接丢失导致的分布式表只读、会话失效

    DB::Exception: Table is in readonly mode. 
    

    zookeeper压力太大,表处于“read only mode”模式,导致插入失败;表只读了,建议先停止写入,然后看后台日志,Merge结束了再打开。

    ZooKeeper session has been expired. 
    

    ZK会话过期,频繁出现看看你的SQL DDL是不是太迅捷了。正常请况下是不会有的

    Cannot allocate block number in ZooKeeper: Coordination::Exception: Connection loss 
    

    Zk麻了,建议升级Zookeeper配置,能力上去了就不会 create node失败了。

    经过多次检查后,这种情况只会发生在一个特定的分布式表上,所以只需重新构建表或创建重复表就可以解决这个问题。

    同时,我还注意到大多数ZK相关的错误都可以通过重新构建来修复,这在分布式表中经常发生。

    DB::Exception:Table was not dropped because ZooKeeper session has been expired
    

    表删除不成功,可以先detach一下,然后attach,然后再去drop,执行成功之后,应该就能重新建表了

    如果上述方法不成功,可能需要重启clickhouse某个节点

    5.分布式DDL某数据节点的副本不执行

    问题:使用分布式ddl执行命令create table on cluster xxxx 某个节点上没有创建表,但是client返回正常,查看日志有如下报错。

    <Error> nebula_dc.dc_test1: Retrying createReplica(), because some other replicas were created at the same time
    

    解决办法:重启该不执行的节点。

    6.数据副本表和数据不一致

    问题:由于某个数据节点副本异常,导致两数据副本表不一致,某个数据副本缺少表,需要将两个数据副本调整一致。

    解决办法:

    1. 在缺少表的数据副本节点上创建缺少的表,创建为本地表,表结构可以在其他数据副本通过show crete table xxxx获取。
    2. 表结构创建会clickhouse会自动从其他副本同步该表数据,验证数据量是否一致即可。

    7.副本节点全量恢复

    问题:某个数据副本异常无法启动,需要重新搭建副本。

    处理流程:

    1. 清空异常副本节点的metadata和data目录。
    2. 从另一个正常副本将metadata目录拷贝过来(这一步之后可以启动数据库,但是只有表结构没有数据)。
    3. 执行sudo -u clickhouse touch /data/clickhouse/flags/force_restore_data
    4. 启动数据库。

    8.数据副本启动缺少zk表

    问题:某个数据副本表在zk上丢失数据,或者不存在,但是metadata元数据里存在,导致启动异常,报错:

    Can’t get data for node /clickhouse/tables/01-02/xxxxx/xxxxxxx/replicas/cluster01-02-2/metadata: node doesn’t exist (No node): Cannot attach table xxxxxxx
    

    解决办法:

    1. metadata中移除该表的结构文件,如果多个表报错都移除

    mv metadata/xxxxxx/xxxxxxxx.sql /tmp/

    1. 启动数据库
    2. 手工创建缺少的表,表结构从其他节点show create table获取。
    3. 创建后会自动同步数据,验证数据是否一致。

    9.ZK table replicas数据未删除,导致重建表报错

    问题:重建表过程中,先使用drop table xxx on cluster xxx ,各节点在clickhouse上table已物理删除,但是zk里面针对某个clickhouse节点的table meta信息未被删除(低概率事件),因zk里仍存在该表的meta信息,导致再次创建该表create table xxx on cluster, 该节点无法创建表(其他节点创建表成功),报错:

    Replica /clickhouse/tables/01-03/xxxxxx/xxx/replicas/cluster01-03-2 already exists..
    

    目前解决办法:

    1. 从其他数据副本cp该table的metadata sql过来.
    2. 重启节点。

    10.Clickhouse节点意外关闭

    问题:模拟其中一个节点意外宕机,在大量insert数据的情况下,关闭某个节点。

    现象:数据写入不受影响、数据查询不受影响、建表DDL执行到异常节点会卡住,报错:

    Code: 159. DB::Exception: Received from localhost:9000. DB::Exception: Watching task /clickhouse/task_queue/ddl/query-0000565925 is executing longer than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished hosts (0 of them are currently active), they are going to execute the query in background.
    

    处理:启动异常节点,期间其他副本写入数据会自动同步过来,其他副本的建表DDL也会同步。

    相关文章

      网友评论

        本文标题:clickhouse 常见问题处理(持续更新中)

        本文链接:https://www.haomeiwen.com/subject/wtwrtdtx.html