orczhou.com

云数据库技术动态@2024-04-26

admin — Thu, 25 Apr 2024 15:32:37 +0000

重要更新

IBM官宣将64亿美元收购HashiCorp（Terraform），以提供丰富的端到端的混合云平台。¹ 该交易已获得IBM和HashiCorp决策层批准，IBM希望将Terraform、Vault与现有的Red Hat, watsonx等产品整合，以在未来云基础设施时代，获得一块”业务高地”。

OceanBase开发者大会发布 4.3 发版，高调进入实时分析 AP 领域²。将支持行存 & 列存一体化、新向量化引擎、物化视图等能力。

华为云发布星耀数据库服务HRDS，与云耀云服务器HECS组成系列产品，以小规格、低成本、配置简单为特点，服务小型业务场景，如企业建站、小程序、开发测试环境等³

阿里云

RDS MySQL集群系列实例新增支持跨地域备份，以更好满足合规或容灾恢复等场景。^[4]
RDS PostgreSQL通用云盘版支持数据归档到OSS，以显著降低存储成本。^[5]

Azure(微软云)

Cosmos DB 中的索引建议功能正式发布^[6]
Cosmos DB for PostgreSQL 正式发布异地冗余备份和还原^[10]
Cosmos DB MongoDB正式发布HNSW 向量索引^[11]

GCP(谷歌云)

托管PostgreSQL数据库的pgvector升级到 0.6.0 版 ^{[12] [13]}

腾讯云

云数据库 MySQL 8.0内核版本更新，发布众多功能以提升数据库性能与稳定性，包括： Nonblocking DDL 功能、并行查询支持分区表、支持虚拟索引、 Fast Query Cache等^[15]
云数据库 PostgreSQL 发布 database 级别的资源隔离能力。^[16]
云数据库 PostgreSQL 磁盘容量最低支持10GB，同时提高了可使用的磁盘最大规格。^[17]
云数据库 SQL Server 国际站支持包年包月计费模式购买时长越长，折扣越多。^[18]

参考链接

云数据库技术动态@2024-04-19

admin — Fri, 19 Apr 2024 00:08:00 +0000

重要更新

继1987年国际标准化组织（ISO）发布数据库国际标准 SQL 之后，ISO 颁布了第二个数据库查询语言标准 —— ISO/IEC GQL（图查询语言）标准。GQL 作为图数据库领域的“SQL”，填补了现有标准在处理图数据时的不足。^[1]^[2]

Redis分支产品Valkey加入Linux 基金会，并发布新的RC版本，后续将与官方Redis产品”竞争”。开源是一个双刃剑，早期可以帮助产品快速获得关注或采用，但也可能很大程度上影响其后续的商业化，Valkey vs Redis未来将如何发展，你怎么看？^[3]

腾讯云 TDSQL-C 发布列存索引能力，以大幅提升复杂查询性能。OLTP系统增强其分析能力，是最近几年主流/活跃数据库产品的主要方向之一，也就是业界谈的比较多的HTAP

OceanBase开发者大会本周六将于上海宝龙艾美酒店举办，对分布式技术感兴趣的可以去现场参加^[16]

更新详情

阿里云

RDS MySQL/PostgreSQL的云盘或ESSD实例支持以CSV格式下载备份文件，以便于进行离线数据分析^[4]^[5]
RDS SQL Server新增错误日志清理功能，用于清理实例中累计的Errorlog文件，以此释放磁盘空间^[6]

字节火山云

veDB MySQL 支持使用 Hint 语法强制 SQL 语句在指定的节点上执行^[8]
veDB MySQL 优化了主节点切换对自定义终端关联节点的影响，以保障连接终端的可用性^[9]
DTS 在订阅 MySQL 类型任务时支持配置过滤掉 OnlineDDL 产生的 DML。^[12]

AWS

RDS Oracle支持了Data Guard的切换功能（适用于所有区域）^[14]

tencent cloud

TDSQL-C MySQL 8.0内核升级，提升数据库性能与稳定性；优化了全表扫描循环效率低导致的访问数据较慢的问题；优化了并发场景下大查询扫描性能下降的问题。^[15]

参考链接

Oracle Cloud上的ECPU与OCPU规格的MySQL性能对比

admin — Sun, 14 Apr 2024 11:28:59 +0000

本问是一个系列文章的一部分，该系列较为完整的对各个云厂商的RDS MySQL进行了测试，包括了阿里云、腾讯云、华为云、百度云、AWS、Azure、GCP、Oracle Cloud等，更多参考：云数据库RDS MySQL的性能。

概述与结论

Oracle在去年引入了ECPU（相对于之前的OCPU），在前面介绍了什么是ECPU，本文则从性能的角度，看看ECPU与之前的OCPU的对比，以验证ECPU就是对应了其他云厂商vCPU的概念。

这里选择了4 ECPU的规格MySQL.4（内存为32GB），以及 2 OCPU的规格MySQL.VM.Standard.E4.2.32GB进行对比。从如下的性能趋势图可以看到，两者表现出了几乎相同的性能。从价格上，两者的单价分别是SGD 0.050578 vs 0.055552 ( 计算0.052512+0.00304内存 )，即ECPU在该规格下，ECPU拥有几乎相同的CPU和内存，以及性能表现的情况下，ECPU规格要比OCPU规格价格要低8.9% ；

性能测试说明

数据库与测试实例的规格

ECPU的MySQL.4实例主要参数包括：

4 ECPU 32 GB内存 100GB存储（3组共12 ECPU/96GB内存/300GB存储）
使用了主可用区为AP-TOKYO-1-AD-1 (preferred)

OCPU的MySQL.VM.Standard.E4.2.32GB主要参数包括：

2 OCPU 32GB内存 100GB存储（3组共6 OCPU/96GB内存/300GB存储）
使用了主可用区为AP-TOKYO-1-AD-1 (preferred)

ECPU

OCPU

测试的VM主要参数包括：

4 OCPU 16GB内存
可用区为 AP-TOKYO-1-AD-1
CentOS 7

Sysbench测试参数

使用sysbench进行测试，主要参数包括：

--table_size=1000000
--tables=10
--time=300
--report-interval=3 
--percentile=95 
--histogram=on
--skip_trx=on
--db-ps-mode
--rand-type=uniform
work load type: oltp_read_write_with_hook

产品价格与账单

从账单可以看到：

MySQL.4（内存为32GB）规格，对应的ECPU的单价为0.050578，实例创建总计约16.4小时，所以用量约为16.4*4 = 65.6,再乘以单价也就是总价。
MySQL.VM.Standard.E4.2.32GB 单价为 0.052512 （OCPU PER HOUR） + 0.00304（Memory GP PER HOUR），用时约为16.13小时，所以用量分别为：16.13*2 和 16.13*32,再乘以单价也就是总价。

初次接触这个账单，还是要反应一下，才能理解大概是什么意思的。哎，海外的各个云，真的是，各自都有一些不同，最后学习成本就都给到了各个开发者们。

性能详细数据

2024-04-13@Performance of MySQL on ECPU vs OCPU

data on mysql_on_4_ecpu

instance configuration
host : mysql_on_4_ecpu 
sub_dir : 10.0.0.82 
shape : MySQL.4 
ha_type : Multi-FD 
preferred_ad : AP-TOKYO-1-AD-1 
region : tokyo 
storage_size : 100

sysbench for host :10.0.0.82
threads|transactions| queries| time |avg/Latency|95%/Latency
      4|       62893| 1132074|300.01|      19.08|      21.89 
      8|       92622| 1667196|300.02|      25.91|      31.37 
     16|      140057| 2521026|300.02|      34.27|      38.25 
     32|      136112| 2450016|300.04|      70.53|      82.96 
     48|      133506| 2403108|300.06|     107.87|     350.33 
     64|      131702| 2370636|300.06|     145.79|     427.07 
     96|      134909| 2428362|300.11|     213.52|     601.29 
    128|      134868| 2427624|300.11|     284.78|     590.56 
    192|      131251| 2362518|300.38|     439.31|     773.68 
    256|      130984| 2357712|300.31|     586.67|    1032.01 
    384|      130204| 2343689|300.32|     885.29|    3982.86 
    512|      132859| 2391462|300.52|    1157.27|    5033.35

data on mysql_on_2_ocpu_E4

instance configuration
host : mysql_on_2_ocpu 
sub_dir : 10.0.0.214 
shape : MySQL.VM.Standard.E4.2.32GB 
ha_type : Multi-FD 
preferred_ad : AP-TOKYO-1-AD-1 
region : tokyo 
storage_size : 100

sysbench for host :10.0.0.214
threads|transactions| queries| time |avg/Latency|95%/Latency
      4|       57867| 1041606|300.01|      20.74|      22.28 
      8|       97378| 1752804|300.01|      24.65|      26.20 
     16|      137017| 2466306|300.02|      35.03|      36.24 
     32|      140269| 2524842|300.04|      68.44|      80.03 
     48|      131308| 2363544|300.05|     109.68|     235.74 
     64|      136938| 2464884|300.08|     140.23|     427.07 
     96|      134370| 2418677|300.10|     214.37|     549.52 
    128|      137043| 2466791|300.09|     280.24|     623.33 
    192|      132473| 2384514|300.16|     434.93|     719.92 
    256|      136375| 2454767|300.24|     563.39|     893.56 
    384|      129291| 2327238|300.36|     891.57|    3982.86 
    512|      133804| 2408472|300.50|    1149.22|    5033.35

云数据库行业动态@2024-04-12

admin — Fri, 12 Apr 2024 01:22:50 +0000

重要更新

Google Cloud Next 2024大会召开，AI是大会的核心。在数据库上，GCP也在全面拥抱AI， AlloyDB Omni 将集成AI能力、Cloud SQL for MySQL、Memorystore for Redis都会支持向量存储或搜索功能。与AWS、阿里云等云厂商一样，GCP也将推出自研的ARM CPU：Axion ARM。

本周一下午，腾讯云控制台大面积不可用，持续近一个小时。这是自去年11月份以来，又一次云厂商大面积故障的发生。

本周五、六，由墨天轮主办数据技术嘉年华（DTC）将在北京举行，主题是”智能•云原生•一体化—DB与AI协同创新，模型与架构融合发展”，感兴趣的可以考虑去北京现场参加。普通门票优惠价只需要9.9，买不了吃亏，买不了上当。

云数据库更新详情

阿里云

RDS SQL Serv er云盘存储容量上限增加至32000 GB，您可在新购实例或增加已有实例存储容量时按需选择 (链接1)

Microsoft Azure

Azure Database for PostgreSQL正式发布支持Azure Private Link (链接2)

谷歌云

AlloyDB AlloyDB Omni 版本 15.5.1 在预览版中提供更多的 AI 功能
数据库迁移服务现已全面支持从 Oracle 到 AlloyDB for PostgreSQL 的迁移
Cloud SQL for MySQL 现在支持在 MySQL 8.0.36 及更高版本的数据库中存储向量嵌入（预览阶段）
Cloud SQL for PostgreSQL（Enterprise Plus ）计划内的高可用切换在秒级内完成
Memorystore for Redis 向量搜索功能现已在正式推出

参考链接

[1]https://help.aliyun.com/zh/rds/apsaradb-rds-for-sql-server/primary-apsaradb-rds-for-sql-server-instance-types

[2]https://azure.microsoft.com/en-us/updates/general-availability-azure-database-for-postgresql-flexible-server-networking-with-azure-private-link/

后记

好久没写这个系列了。从这个博客看，似乎中断了一段时间，原因是因为公司的工作调整的原因这部分，由另一个同事负责，故很长时间没有再更新。希望，自己后续能够持续的更新这个系列。

Oracle Cloud上的ECPU

admin — Sat, 06 Apr 2024 02:42:10 +0000

什么是Oracle Cloud上的ECPU

总得来说，海外的云是更加追求“个性”的，几乎每家云厂商都会有一堆自己不一样的概念，而实际上底层相差并不是很大。在刚刚熟悉了Oracle OCPU概念之后，在去年OCI（Oracle Cloud Infrastructure，也就是Oracle云）又推出了ECPU。最近，OCI上的MySQL也支持了ECPU。

ECPU代表的计算或存储服务器上CPU计算核心的一定的计算能力，ECPU会逐步取代OCPU的规格模型。一个猜测是：单位ECPU就是对应某个型号CPU的core的计算能力，关于这一点，还没有找到详细的文档对这一点进行描述。

从当前的性能与价格上来看（性能数据后续会发布），2个ECPU与1 OCPU的性能是接近的，所以，可以简单的理解ECPU就是对应于其他云厂商的vCPU。

Oracle为什么要再”发明”ECPU

Oracle大概已经注意到了，当使用OCPU时，随着不同的代际的CPU，不同品牌的CPU都表现出了不同的计算能力，也会有不同的价格，在客户测也会表现出不同的性能。如果仅使用OCPU则会使得产品定价和性能管理变得困难。可以看看各个云厂商，除了AWS，这一块管理都比较混乱。OCI则希望通过ECPU作为一种新的通用的计量单位，去一定程度解决这个问题。

此外，较小的规格粒度，对于降低客户成本，也是很有好处的。因为很多时候，确实是只需要1vCPU的。

创建实例的如何选择ECPU和OCPU

首先，在Configure hardware卡片中，点击“Change Shape”，然后就可以选择ECPU或OCPU了。

注意到，ECPU的规格代码更为简单，如MySQL.2 / MySQL.4等，其中2、4代表了ECPU的数量。OCPU的代码通常为：MySQL.VM.Standard.E3.1.8GB。

ECPU与OCPU的MySQL实例定价

右图OCI上，以美元为单位的定价。看到：

ECPU每小时单价为$0.0366；那么2ECPU 16GB的价格为：$0.0732
OCPU的标准型实例则分为了CPU和内存两部分定价，小时价分别为：$0.038和0.0022，那么1OCPU 16GB内存，价格可能为：0.0732
价格上，2*ECPU的价格相当于1*OCPU + 16GB内存的价格，OCPU为Standard E3类型

参考：

使用hook解决Sysbench压测MySQL遇到的”Duplicate entry”问题

admin — Sun, 31 Mar 2024 11:51:10 +0000

从一个Slide介绍中，在Sysbench测试中可以通过hook的方式对一些MySQL报错进行捕获，以避免测试中断。但是做了一些搜索，对该能力并没有文档描述，故做了一些测试，以验证该能力。

在前面的文章“Sysbench压测MySQL中遇到的”Duplicate entry”问题”中，较为详细的分析了在使用了--skip_trx=on后，Sysbench（版本1.0.20）在测试中遇到的”Duplicate entry”问题。也提到了，可以在脚本中添加hook的方式解决，不过之前并没有对这个方案进行验证。

在测试脚本中使用hook的方案，在sysbench的文档中并没有找到详细的说明，这里将对这个方案做一个使用说明，并验证其有效性。我们将分两组对比测试，验证新增hook的有效性，以及新增hook后，对测试结果是否对性能有影响。

测试结果概述

Sysbench的该能力并没有在文档中找到说明，只是在一个Slide中看到的。本文的测试验证了如下内容：

在测试lua脚本中，可以使用hook有效的避免”Duplicate entry”等报错带来的测试中断问题
使用了hook之后，测试前后性能并没有观测到差异（可以认为，一般来说，发生错误的情况并不多）

所以，后续测试中，如果不可避免的会遇到”Duplicate entry”报错（或其他报错）时，将使用hook的方式来避免。

如何修改测试脚本

具体的，我们在原来的oltp_read_write（sysbench 1.0.20版本）脚本中新增如下代码片段：

function sysbench.hooks.sql_error_ignorable(err)
  if err.sql_errno == 1062 then -- ER_DUP_ENTRY
    -- do nothing
    return true
  end
end

完整的代码可以参考：oltp_read_write_with_hooks.lua

具体的diff文件参考如下：

--- /usr/share/sysbench/oltp_read_write.lua
+++ oltp_read_write_with_hooks.lua
@@ -21,6 +21,13 @@

 require("oltp_common")

+function sysbench.hooks.sql_error_ignorable(err)
+  if err.sql_errno == 1062 then -- ER_DUP_ENTRY
+    -- do nothing
+    return true
+  end
+end
+
 function prepare_statements()
    if not sysbench.opt.skip_trx then
       prepare_begin()

测试说明

这里依旧使用oltp_read_write负载进行测试，测试时使用了参数 --skip_trx=on --db-ps-mode=disable --rand-type=uniform ，其中参数--skip_trx=on会带来”Duplicate entry”报错，并导致测试被终止（详细原因分析参考：Sysbench压测MySQL中遇到的”Duplicate entry”问题）。测试分两组，一组是使用原始的oltp_read_write脚本进行测试；另一组，则在脚本中新增上述hook代码。

而后观测：

使用了hook后，sysbench是否还会因为”Duplicate entry”被终止；

nohup ./sysbench_auto.sh -l ./oltp_read_write_with_hook.lua -hYOUR_HOST -uYOUR_USERNAME -pYOUR_PASSWORD > sysbench_with_hook_with_skip.log 2>&1 &

使用hook，与不使用hook，对测试结果是否有影响。

nohup ./sysbench_auto.sh -hYOUR_HOST -uYOUR_USERNAME -pYOUR_PASSWORD > sysbench_no_hook_with_skip.log 2>&1 &

这里的sysbench_auto.sh是一个自己编写的自动化的sysbench测试脚本。会自动化的、顺序的进行多个不同并发下的性能测试。

测试结果详情

没有使用hook的测试中，注意到，在并发度为48、96、128、192时候，测试被终止，而观测日志也看到了是因为“Duplicate entry”所导致的。

threads|transactions| queries| time |avg/Latency|95%/Latency
      4|       20311|  365598|300.05|      59.09|      66.84
      8|       38195|  687510|300.04|      62.84|      71.83
     16|       71296| 1283328|300.07|      67.33|      77.19
     24|      101911| 1834398|300.05|      70.65|      81.48
     32|      131859| 2373462|300.06|      72.81|      84.47
     48|           0|       0|  0.00|       0.00|       0.00
     64|      233840| 4209120|300.09|      82.12|     101.13
     96|           0|       0|  0.00|       0.00|       0.00
    128|           0|       0|  0.00|       0.00|       0.00
    192|           0|       0|  0.00|       0.00|       0.00

具体报错：

FATAL: mysql_drv_query() returned error 1062 (Duplicate entry '876663' for key 'sbtest3.PRIMARY') for query

在使用了hook的测试中，注意到，测试顺利的完成了，并没有被终止，而观察日志，也可以看到，期间也是遇到了Duplicate entry报错的，但因为hook的处理，测试并没有终止。

threads|transactions| queries| time |avg/Latency|95%/Latency
      4|       19547|  351846|300.06|      61.40|      71.83
      8|       37524|  675432|300.06|      63.97|      74.46
     16|       70847| 1275246|300.05|      67.76|      78.60
     24|      102541| 1845738|300.06|      70.22|      81.48
     32|      132424| 2383632|300.07|      72.50|      86.00
     48|      187065| 3367170|300.06|      76.98|      92.42
     64|      234717| 4224923|300.07|      81.81|      99.33
     96|      308744| 5557409|300.06|      93.28|     118.92
    128|      341177| 6141186|300.09|     112.57|     147.61
    192|      364561| 6562115|300.10|     158.03|     211.60

两组测试性能的对比

根据如上性能测试数据，对QPS（Queries Per Second）进行对比：

可以看到，整体性能波动非常小，优势在较高并发时，性能差异都小于1%；从趋势图上也能够看出来，两者几乎是重合的。

使用一条MySQL SQL语句完成24点计算

admin — Sat, 30 Mar 2024 11:53:11 +0000

概述

最近，组织了一个24点SQL编程的比赛，笔者是主办方，也是评委。既然是做评委，自己也先挑战了一下，因为对MySQL更为熟悉，故选择了MySQL作为编程SQL。周末花了一些时间挑战一下，这里记录一下自己的解法以及思路。

24点问题，是一个有趣的问题。他的扩展问题（即把牌数/计算值进行更改），很可能也是一个NP-完全问题，他与subset sum problem问题有一些些类似。如果参考subset sum problem问题的解法（例如做一些动态优化解），则可以实现还比较优的解。

不过，这一次的比赛，是要求在一条SQL里面实现，并且限制了SQL长度为10KB，所以就大大限制了实现的方式。不过最为直接的两个思路还是，“暴力的枚举”计算和“预计算结果再做哈希求解”。即便如此，在写SQL过程中，还是遇到了如下挑战需要解决：

使用单条SQL进行暴力枚举的时候，如何在没有for/while等循环控制，如何遍历所有的可能性
哈希数组的空间占用比较大，可能会超过10KB，如何去压缩或者减少需要构建的数组

另外，实现过程中，可能涉及到浮点数计算、除数为零等问题的处理，也是非常容易出错的。

另一个角度，这些，也是这道题，有趣的地方。

“一条SQL算24点”的题目回顾

这次的题目，与一般意义上24点略有一些不同：

首先，要求一条SQL内完成；对于穷举、哈希的实现本身就有挑战了。需要对SQL比较熟悉，否则很难写出正确、高性能的SQL
SQL大小限制为10KB，所以，并不能简单的穷举，简单的CASE WHEN 10KB肯定是不够的
4个数字，被限制为1~10，而不是13，所以搜索空间是相对来说少了一些的，让10KB以内哈希成为可能

详细赛题：参考

初始化数据

4张牌，每张牌取值为1~10，所以一共10000中可能，使用SQL构建存储如下：

CREATE TABLE cards(
    id int auto_increment primary key,
    c1 int ,
    c2 int, 
    c3 int, 
    c4 int
);

INSERT INTO cards(c1,c2,c3,c4) 
    WITH RECURSIVE seq(n) as 
    (
        select 1
        union 
        select n+1 from seq where n<=9
    )
    select t_1.n,t_2.n,t_3.n,t_4.n
    from 
        seq as t_1,
        seq as t_2,
        seq as t_3,
        seq as t_4

这次一共实现了两种算法，一个是正统的枚举计算，一个是结果倒推的哈希解法。我们先看看如何使用一条SQL实现正统的枚举计算。

一条SQL的正统（“暴力”）枚举计算

完整的SQL参考：https://www.orczhou.com/24.v1.txt 。如果对这条SQL比较困惑的话，又对这个问题有兴趣的话，可以继续阅读。

解题思路说明

使用二叉树表达表达式。枚举的搜索空间还是非常大的，如果使用二叉树来表示24点计算结果的话，完整的会有五种形式的树：left-most、right-most和3种bushy的树。
使用JOIN的方式来实现枚举。例如，要枚举所有的三个运算符，每个运算符有四种可能（”+-*/”），那么可以使用一张表，该表共三个字段“op_1st、op_2nd、op_3rd”，共4*4*4条记录，每条记录是一种表达式的组合。然后使用该表去与原（cards）进行JOIN。
需要枚举的除了上面提到的运算符，还有四个数字的顺序，例如，一条cards表的记录有四个数字：c1、c2、c3、c4；那么，在枚举表达式 (c1 / (c2 – c3) )- c4 时，(c2 / (c1 – c3) )- c4等情况也需要考虑，这种情况的数量是4*3*2 = 12种。实现的方式，与上面操作符枚举类似，构建一个表，例如叫full_order，把所有可能得顺序都枚举一遍，然后与原表（cards）进行JOIN。具体的full_order表有四个字段c_[1-4]，每个字段取值为[1-4]，且两两不同，那么这个表就代表了所有的c1、c2、c3、c4的顺序可能。
有了上面三种分析，那么对于一组数字，所有需要枚举的可能性是：5棵树*4*4*4种运算符组合*4*3*2种顺序组合，即7680种组合。

二叉树表达式分析

这大概很多人会遇到的是第一个“难”题，也注意到很多人在实现的时候，虽然能够枚举部分表达式，但是非常容易遗漏。另外，也因为搜索空间很大，所以，实现细节上也很容易出错。这里使用基础的编译原理知识可以知道，一个表达式与“一种树”结构是一一对应的，而这样的树一共有五种。

我们来看一个例子： ((c1*c2)+c3)*c4。那么它对应树形结构如下：

               ((c1*c2)+c3)*c4       ((c1 op_1st c2) op_2nd c3) op_3rd c4
                     <*>                             
                      |                                 |
                ------------                      ------------
                |          |                      |          |
               <+>        c4                         c4
                |                                 |
         --------------                    --------------
         |            |                    |            |
        <*>           c3                        c3
         |                                 |
   ------------                      ------------
   |          |                      |          |
  c1          c2                    c1          c2

那么对于任意一组数字（c1,c2,c3,c4）一共有多少种这样的树呢？答案是五种，这里不一一详述，每种树对应的表达式如下，这了使用op_1、op_2、op_3代表“+-*/”中的任意一种运算符：

((c1 op_1 c2) op_2 c3) op_3 c4 即上面的左深树
c1 op_1 (c2 op_2 (c3 op_3 c4)) 右深树
(c1 op_1 c2) op_2 (c3 op_3 c4) bushy树
c1 op_1 ((c2 op_2 c3) op_3 c4) bushy树
(c1 op_1 (c2 op_2 c3)) op_3 c4 bushy树

大家可以用上面的树形图画一下五种树，就比较好理解了。

每种树的可能性枚举

对于上述的每一棵树，都有三个“操作符”和“四个操作数”，这三个操作符都有4中选择（“+-*/”），四个操作数的选择空间要小一些，因为不能重复，不过根据简单的排列组合知识可以有：(4*4*4)*(4*3*2*1)种可能性。

再与上面的5种树组合，一共有 5*(4*4*4)*(4*3*2*1)=7680种组合。

重复的树

这里的树的种类看起来非常多，但是因为加法和乘法有交换律、结合律，以及减法有去括号的方法，所以，“等价的树”非常多。去掉等价的树，能够把这个搜索空间大幅度缩小。那么问题来了：理论上，去掉所有重复（“等价”）的树，最后剩余的数量是多少？(这似乎并不是一个简单的问题，不过不属于本文讨论的内容）。

在很多的算法优化里面，如果能够尽可能多的把这些“等价”树砍掉，就可以大大提升执行的效率。事实上，这次解题中，公司有个同事比较极限，在上面的问题中，把这些树的枚举可能性砍到了非常小。当然，因为是限制在这道题中，很多树可能是无效的（虽然没有等价树，但是可能计算中并不需要使用）。

一般的，等价的树包括了：

加法、乘法的交换律会导致大量的重复树
加法、乘法的结合律，也会导致很多的重复的树
减法和除法的去括号等价变化（例如c1-(c2-c3)与c1-c2+c3）

在这里的中，暂时没有考虑这些等价树的消除。

操作符的遍历SQL实现

如前所述，每颗树共有三个操作符，都可以是“+-*/”中的任何一个，这里使用MySQL的CTE（WITH/Common Table Expressions）功能和JOIN功能实现枚举和遍历：

(
    WITH op_list (op) as (
        SELECT '*'
        UNION
        SELECT '+'
        UNION
        SELECT '-'
        UNION
        SELECT '/'
    )
    SELECT
        op_1.op as op_1st,
        op_2.op as op_2nd,
        op_3.op as op_3rd
    FROM
        op_list as op_1,
        op_list as op_2,
        op_list as op_3
) full_op

“操作数”顺序的枚举

每一颗树都有四个“操作数”，每个操作数都是{c1,c2,c3,c4}中的一个，但不重复（这里的不重复是指不能出现c1 c1 c3 c4这四个数字每个用一遍，但需要注意c1 c2 c3 c4本身是可能有重复的数字的，例如 3,3,5,8的数字组合）。现在需要把四个操作数的所有组合（4*3*2种）全部都枚举出来。这里使用行转列后，再使用4个顺序表的方式实现：

为了实现4个操作的不重复的组合，这里使用了如下方法：

          (
              WITH RECURSIVE seq (n) as (
              SELECT 1
              UNION ALL
              SELECT n + 1 FROM seq WHERE n <= 3
          )
          select
              seq_1.n as seq_num_1,
              seq_2.n as seq_num_2,
              seq_3.n as seq_num_3,
              seq_4.n as seq_num_4
          from
              seq as seq_1,
              seq as seq_2,
              seq as seq_3,
              seq as seq_4
          WHERE
              pow(2,seq_1.n-1)+pow(2,seq_2.n-1)+pow(2,seq_3.n-1)+pow(2,seq_4.n-1) = 15
          ) full_order

到这里，full_order表就可以表示所有的排列组合了。但是如何利用full_order表的四个列seq_1、seq_2、seq_3、seq_4来把{c1,c2,c3,c3}都枚举出来，还需要做一些转换。这个转换要在SELECT中的item list部分。即：

SELECT 
    item_list
FROM 
    cards,
    (...) as full_order
    (...) as full_op

在iteml_list部分，需要对c1,c2,c3,c4按照full_order进行重新排序处理，这里是略有一些复杂的：

SELECT 
        ...
        @c_1 := case full_order.seq_num_1 
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_1,
        @c_2 := case full_order.seq_num_2
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_2,
        @c_3 := case full_order.seq_num_3
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_3,
        @c_4 := case full_order.seq_num_4
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_4,
        ...
FROM 
    cards,
    (...) as full_order
    (...) as full_op

五种“表达式树”的计算

在前面的小结“二叉树表达式分析”中，已经对五种表达式进行了分析。对于表达式中使用的“操作符”、“操作数”也已经准备好了。那么就需要逐一计算5中表达式了。这里也是用最“暴力”的方式，分别计算五棵树的表达式的值。

这里仅暂时left most tree的计算，如下：

        /* total 5 trees */   
        /*left most tree*/
        /* ((@c_1 op_1 @c_2) op_2 @c_3) op_3 @c_4  */
        @lt_1 := case op_1st 
            when '*' then @c_1 * @c_2
            when '+' then @c_1 + @c_2
            when '-' then @c_1 - @c_2
            when '/' then @c_1 / @c_2
        END as lt_1,
        
        @lt_2 := case op_2nd 
            when '*' then @lt_1 * @c_3
            when '+' then @lt_1 + @c_3
            when '-' then @lt_1 - @c_3
            when '/' then @lt_1 / @c_3
        END as lt_2,
        
        @lt_3 := case op_3rd 
            when '*' then @lt_2 * @c_4
            when '+' then @lt_2 + @c_4
            when '-' then @lt_2 - @c_4
            when '/' then @lt_2 / @c_4
        END as lt_3,
        
        @lt_expr := concat("((", @c_1 ,op_1st,@c_2 ,")",op_2nd,@c_3,")",op_3rd,@c_4),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @if_found := true, 0),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @r_expr := @lt_expr, 0),

浮点数的精度与除数为零的问题

这里有两个问题需要注意，也是在整个比赛过程中，很多选手都会犯错误的地方，其中一个是：

浮点数精度的问题

在很多算式的计算中会涉及到“无限循环小数”，而计算机在处理时，则会通过按照一定的精度近似。例如3、3、8、8的计算方法8/(3-8/3)。这个问题比看起来的更加隐蔽，在MySQL中，我们观察如下表达式：

mysql> select 8/(3-8/3),@i:=8/3,@j:=3-@i,@k:=8/@j;
+-----------+---------+-------------+--------------------+
| 8/(3-8/3) | @i:=8/3 | @j:=3-@i    | @k:=8/@j           |
+-----------+---------+-------------+--------------------+
|   24.0000 |  2.6667 | 0.333333334 | 23.999999952000003 |
+-----------+---------+-------------+--------------------+

可以看到，直接的计算8/(3-8/3)是可以算出24的，但分步骤计算，则会出错，所以，在实现时，如果是分步计算，则很容易会出现错误。

知道了错误在哪里，解决其实是比较简单的，在最终的计算结果做一次四舍五入，例如保留3位小数即可，即：

mysql> select 8/(3-8/3),@i:=8/3,@j:=3-@i,@k:=round(8/@j,4);
+-----------+---------+-------------+-------------------+
| 8/(3-8/3) | @i:=8/3 | @j:=3-@i    | @k:=round(8/@j,4) |
+-----------+---------+-------------+-------------------+
|   24.0000 |  2.6667 | 0.333333334 |           24.0000 |
+-----------+---------+-------------+-------------------+

也可以在结果判断的时候，再引入一次额外的比较即可。可以看下面的SQL：

mysql> select 8/(3-8/3),@i:=8/3,@j:=3-@i,@k:=8/@j,@k = 24,@k between 24-0.0001 and 24+0.0001\G
*************************** 1. row ***************************
                         8/(3-8/3): 24.0000
                           @i:=8/3: 2.6667
                          @j:=3-@i: 0.3333333340000002
                          @k:=8/@j: 23.999999951999985
                           @k = 24: 0
@k between 24-0.0001 and 24+0.0001: 1

另一个问题是“除数为零的问题”，这是一个问题，需要考虑到，但可能无需做额外的处理。在穷举的算法中，有很多是需要除以0的。在MySQL中，如果SELECT语句的话，除以零的表达式会返回NULL。在处理时，需要注意这个细节就可以了。

具体的，可以参考MySQL的文档（参考）：

For SELECT, division by zero returns NULL. Enabling ERROR_FOR_DIVISION_BY_ZERO causes a warning to be produced as well, regardless of whether strict mode is enabled.
参考

返回表达式

最后，对于一组数据，算出所有五棵树的取值后，最后看看有没有等于24的，或者其中之一等于24，就可以停止计算了，同时需要将该树所代表的表达式输出出来，以供后续使用。例如对于前面的left-most tree：

        /* total 5 trees */   
        /*left most tree*/
        /* ((@c_1 op_1 @c_2) op_2 @c_3) op_3 @c_4  */
        @lt_1 := case op_1st 
            when '*' then @c_1 * @c_2
            when '+' then @c_1 + @c_2
            when '-' then @c_1 - @c_2
            when '/' then @c_1 / @c_2
        END as lt_1,
        
        @lt_2 := case op_2nd 
            when '*' then @lt_1 * @c_3
            when '+' then @lt_1 + @c_3
            when '-' then @lt_1 - @c_3
            when '/' then @lt_1 / @c_3
        END as lt_2,
        
        @lt_3 := case op_3rd 
            when '*' then @lt_2 * @c_4
            when '+' then @lt_2 + @c_4
            when '-' then @lt_2 - @c_4
            when '/' then @lt_2 / @c_4
        END as lt_3,
        
        @lt_expr := concat("((", @c_1 ,op_1st,@c_2 ,")",op_2nd,@c_3,")",op_3rd,@c_4),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @if_found := true, 0),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @r_expr := @lt_expr, 0),

最后，组装需要的输出的列

这里没有什么特别需要强调的，最后按照题目中要求的，输出需要的列就可以了。

完整的SQL参考：https://www.orczhou.com/24.v1.txt 。

完整的SQL：

-- more about the SQL:
-- https://www.orczhou.com/index.php/2024/03/a-sql-for-24-point-game/
 select id,t.c1,t.c2,t.c3,t.c4,
    (
    select result_expr
    FROM
    (
        select

        @if_found := false,
        @r_expr := 'failed',

        t_each_row.id,c1,c2,c3,c4, op_1st,op_2nd,op_3rd,
        @c_1 := case full_order.seq_num_1 
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_1,
        @c_2 := case full_order.seq_num_2
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_2,
        @c_3 := case full_order.seq_num_3
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_3,
        @c_4 := case full_order.seq_num_4
            when 1 then c1 
            when 2 then c2 
            when 3 then c3 
            when 4 then c4 
        END as c_4,
--    , @c_1,@c_2,@c_3,@c_4,
    
    
        /* total 5 trees */   
        /*left most tree*/
        /* ((@c_1 op_1 @c_2) op_2 @c_3) op_3 @c_4  */
        @lt_1 := case op_1st 
            when '*' then @c_1 * @c_2
            when '+' then @c_1 + @c_2
            when '-' then @c_1 - @c_2
            when '/' then @c_1 / @c_2
        END as lt_1,
        
        @lt_2 := case op_2nd 
            when '*' then @lt_1 * @c_3
            when '+' then @lt_1 + @c_3
            when '-' then @lt_1 - @c_3
            when '/' then @lt_1 / @c_3
        END as lt_2,
        
        @lt_3 := case op_3rd 
            when '*' then @lt_2 * @c_4
            when '+' then @lt_2 + @c_4
            when '-' then @lt_2 - @c_4
            when '/' then @lt_2 / @c_4
        END as lt_3,
        
        @lt_expr := concat("((", @c_1 ,op_1st,@c_2 ,")",op_2nd,@c_3,")",op_3rd,@c_4),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @if_found := true, 0),
        if(@lt_3 between 24-0.0001 and 24+0.0001, @r_expr := @lt_expr, 0),
        
        /* bushy tree 00 */
        /* (c1 op_1st c2) op_2nd (c3 op_3rd c4)  */
        if(
            @if_found = false,
            @bt_1 := case op_1st
                when '*' then @c_1 * @c_2
                when '+' then @c_1 + @c_2
                when '-' then @c_1 - @c_2
                when '/' then @c_1 / @c_2
            END,
            0
            ) as bt_1,
        
        if(
            @if_found = false,
            @bt_2 := case op_3rd
                when '*' then @c_3 * @c_4
                when '+' then @c_3 + @c_4
                when '-' then @c_3 - @c_4
                when '/' then @c_3 / @c_4
            END,
            0
            ) as bt_2,
    
        if(
            @if_found = false,
            @bt_3 := case op_2nd
                /* '+' & '*' there is always a equel tree   */
                when '*' then @bt_1 * @bt_2
                when '+' then @bt_1 + @bt_2
                when '-' then @bt_1 - @bt_2
                when '/' then @bt_1 / @bt_2
            END,
            0
            ) as bt_3,
       
        
        @bt_expr := concat("(",@c_1,op_1st,@c_2,")",op_2nd,"(",@c_3,op_3rd,@c_4,")"),
        if(@bt_3 between 24-0.0001 and 24+0.0001, @if_found := true , 0),
        if(@bt_3 between 24-0.0001 and 24+0.0001, @r_expr := @bt_expr, 0),
   
 
        /*right most tree*/
        /* c1 op_1 (c2 op_2 (c3 op_3 c4))  */
        if(
            @if_found = false,
            @rt_1 := case op_3rd 
                when '*' then @c_3 * @c_4
                when '+' then @c_3 + @c_4
                when '-' then @c_3 - @c_4
                when '/' then @c_3 / @c_4
            END,
            0
            ) as rt_1,
    
        
        if(
            @if_found = false,
            @rt_2 := case op_2nd 
                when '*' then @c_2 * @rt_1  
                when '+' then @c_2 + @rt_1  
                when '-' then @c_2 - @rt_1  
                when '/' then @c_2 / @rt_1  
            END,
            0
            ) as rt_2,
        
        if(
            @if_found = false,
            @rt_3 := case op_1st
                when '*' then @c_1 * @rt_2
                when '+' then @c_1 + @rt_2
                when '-' then @c_1 - @rt_2
                when '/' then @c_1 / @rt_2
            END,
            0
            ) as rt_3,
    
        
        @rt_expr := concat(@c_1, op_1st, "(", @c_2 ,op_2nd, "(",@c_3, op_3rd, @c_4,")",")"),
        if(@rt_3 between 24-0.0001 and 24+0.0001, @if_found := true, 0),
        if(@rt_3 between 24-0.0001 and 24+0.0001, @r_expr := @rt_expr, 0),
    
        /* bushy tree 01  */
        /* (c2 op2 (c3 op3 c4)) op1 c1  */
        if(
            @if_found = false,
            @bt01_1 := case op_3rd
                when '*' then @c_3 * @c_4
                when '+' then @c_3 + @c_4
                when '-' then @c_3 - @c_4
                when '/' then @c_3 / @c_4
            END,
            0
            ) as bt01_1,
        
        if(
            @if_found = false,
            @bt01_2 := case op_2nd
                when '*' then @c_2 * @bt01_1
                when '+' then @c_2 + @bt01_1
                when '-' then @c_2 - @bt01_1
                when '/' then @c_2 / @bt01_1
            END,
            0
            ) as bt01_2,
        
        if(
            @if_found = false,
            @bt01_3 := case op_1st
                /* '+' & '*' there is always a equel tree   */
                when '*' then @bt01_2 * @c_1
                when '+' then @bt01_2 + @c_1
                when '-' then @bt01_2 - @c_1
                when '/' then @bt01_2 / @c_1
            END,
            0
            ) as bt01_3,
    
        @bt01_expr := concat("(",@c_2, op_2nd , "(" ,@c_3, op_3rd, @c_4, "))", op_1st, @c_1 ),
        if(@bt01_3 between 24-0.0001 and 24+0.0001 , @if_found := true , 0),
        if(@bt01_3 between 24-0.0001 and 24+0.0001 , @r_expr := @bt01_expr, 0),
    
        /* bushy tree 02  */
        /* c1 op1 ((c3 op3 c4) op2 c2)  */
        /* @c_1 op_1st (( @c_3 op_3rd  @c_4) op_2nd @c_2 ) */
        if(
            @if_found = false,
            @bt02_1 := case op_3rd
                when '*' then @c_3 * @c_4
                when '+' then @c_3 + @c_4
                when '-' then @c_3 - @c_4
                when '/' then @c_3 / @c_4
            END,
            0
            ) as bt02_1,
        
        if(
            @if_found = false,
            @bt02_2 := case op_2nd
                when '*' then @bt02_1 * @c_2
                when '+' then @bt02_1 + @c_2
                when '-' then @bt02_1 - @c_2
                when '/' then @bt02_1 / @c_2
            END,
            0
            ) as bt02_2,
        
        if(
            @if_found = false,
            @bt02_3 := case op_1st
                /* '+' & '*' there is always a equel tree   */
                when '*' then @c_1 * @bt02_2
                when '+' then @c_1 + @bt02_2
                when '-' then @c_1 - @bt02_2
                when '/' then @c_1 / @bt02_2
            END,
            0
            ) as bt02_3,
       
        @bt02_expr := concat( @c_1, op_1st, "((", @c_3, op_3rd,  @c_4,")", op_2nd, @c_2, ")"),
        if(@bt02_3 between 24-0.0001 and 24+0.0001 , @if_found := true , 0),
        if(@bt02_3 between 24-0.0001 and 24+0.0001 , @r_expr := @bt02_expr, 0),
      
      if(@if_found , @r_expr , "false") as result_expr,
      
      @if_found as if_found
      
      from 
            (select t.id,t.c1,t.c2,t.c3,t.c4) as 
--          (select 9 as id,9 as c1,3 as c2,1 as c3,10 as c4, @if_found := false) as 
          t_each_row , 
          
  
          (
          WITH RECURSIVE 
          seq (n) as (
          SELECT 1
          UNION ALL
          SELECT n + 1 FROM seq WHERE n <= 3
          )
          select 
              seq_1.n as seq_num_1,
              seq_2.n as seq_num_2,
              seq_3.n as seq_num_3,
              seq_4.n as seq_num_4
          from 
              seq as seq_1,
              seq as seq_2,
              seq as seq_3,
              seq as seq_4
          WHERE pow(2,seq_1.n-1)+pow(2,seq_2.n-1)+pow(2,seq_3.n-1)+pow(2,seq_4.n-1) = 15
          ) full_order
          ,
          (
          WITH
          op_list (op) as (
          SELECT '*'
          UNION
          SELECT '+'
          UNION
          SELECT '-'
          UNION
          SELECT '/'
          )
          SELECT op_1.op as op_1st,op_2.op as op_2nd,op_3.op as op_3rd FROM op_list as op_1,op_list as op_2,op_list as op_3
          ) full_op
      ) mid_result 
       WHERE
           result_expr != "false"
       LIMIT 1
   ) mid_result_01 
 from cards as t

附录1：关于NP-complete问题

虽然没有人有严格的证明，不过感觉上，24点问题很可能是一个NP-完全问题。初步的感觉是，与子集求和问题（subset sum problem)很像。从解法上，也可以使用类似的“动态规划”的思路去求解。

这里简述一下什么是P问题，什么NP问题，什么是NP-完全问题。这是一个在计算复杂度分析领域的问题，P问题，是指可以在多项式时间内求解的问题；NP问题是指，这个问题的解（任意解/也可以是错误解）给出后，可以在多项式时间内验证，解的正确性。

“NP-完全问题”（NP-complete problem），是所有NP问题中，非常难的一类，它指的是，以其他所有的NP问题都可以再多项式时间内转化/规约为此类问题。著名的NP-完全问题包括：

“数独问题”
“魔方”
“八皇后问题”
子集求解问题
中国邮递员问题
旅行推销员问题（Travelling salesman problem）（本身是一个NP问题，给定图、长度，问是否存在更短路径的问题，就是一个NP-C问题）

此外，前面提到的子集求和问题，该问题（泛化）是一个NP问题，一些变种则是NP完全问题。例如，一个变种是这样的，给定一个包含若干整数的集合，问，是否存在某个子集，其和为零。

24点问题，与这个问题有一些“像”，24点问题，是，有一个集合有四个数字和四个运算，问，是否存在一种组合让其数字和运算符恰好算得24。不过，这个问题是否为NP-C问题，笔者并不能确定。

Protected: Interview

admin — Mon, 18 Mar 2024 07:05:50 +0000

杨梅树

admin — Sun, 17 Mar 2024 03:39:54 +0000

酸甜的杨梅，我是很喜欢吃的。这些年来到浙江后，注意到这里的杨梅比其他地方更多一写。这也算是中国，或者说江南的一大特色吧，北方人大概是吃得少的。不过因为有“望梅止渴”的故事，杨梅在中国的知名度是非常高的。

根据Wikipeida的信息（参考），杨梅主要分布在中国的东南方地区、日本、菲律宾、朝鲜/韩国等地。在中国，又属浙江特别多，浙江又以仙居杨梅最为有名。

杨梅酸中带甜，非常好吃。但是，杨梅的运输是非常困难的。从树上采摘下来，最佳的食用时间也就是1~3天，再长时间由于水分的流逝，味道就没那么鲜美了。再者，因为杨梅表面非常松软，而如果运输过程稍有颠簸挤压，则非常容易压坏，影响口感，也容易变质。

所以，实际的情况就是，杨梅的上市几乎只有一个月时间，也就是说，每年只有一个月时间，也只在中国的东南方的一些城市能够吃到最好的杨梅。

鲁彦曾经下过一篇散文《故乡的杨梅》，是啊，对于浙江人，身在外地，对于杨梅的怀念，大概就是故乡味道的怀念吧。

前年底，妈妈离开了我们。当时，有几天闲在家里，我就和爸爸说，来年开春，我打算在后院种一颗杨梅树。去年，我们移植了一颗小的杨梅树，大概是因为种植的时候耽搁了几天。杨梅树没能够活下来。今年，我们又移植了一颗，这次的树更大一些，种植的时候我们也更小心，也了解了很多种植的知识，希望这颗杨梅树能够活下来，过几年能够吃上自己种的杨梅树。

对于自己，对于孩子们，也希望让故乡，多一份味道。

2022年，团队outing，在仙居的山上摘杨梅

后院新种的杨梅树@共青城

Sysbench压测MySQL中遇到的”Duplicate entry”问题

admin — Sat, 09 Mar 2024 08:56:44 +0000

最近，使用sysbench测试时，尝试使用参数--skip_trx=on，很快在实际的测试中就遇到了Duplicate entry的报错，详细的报错如下：

[ 105s ] thds: 64 tps: 845.68 qps: 15226.20 (r/w/o: 11833.15/3393.04/0.00) lat (ms,95%): 82.96 err/s: 0.00 reconn/s: 0.00
[ 108s ] thds: 64 tps: 828.65 qps: 14846.32 (r/w/o: 11547.73/3298.59/0.00) lat (ms,95%): 92.42 err/s: 0.00 reconn/s: 0.00
[ 111s ] thds: 64 tps: 811.67 qps: 14705.36 (r/w/o: 11439.69/3265.67/0.00) lat (ms,95%): 92.42 err/s: 0.00 reconn/s: 0.00
FATAL: mysql_drv_query() returned error 1062 (Duplicate entry '172978' for key 'sbtest4.PRIMARY') for query 'INSERT INTO sbtest4 (id, k, c, pad) V
ALUES (172978, 743044, '85734897298-37760631172-31656179599-77290009462-94351507893-97022333300-02606364258-99231394161-86310536236-00514105136',
'50908340877-51595671823-98046322819-52667567569-56801127593')'
FATAL: `thread_run' function failed: /usr/share/sysbench/oltp_common.lua:488: SQL error, errno = 1062, state = '23000': Duplicate entry '172978' f
or key 'sbtest4.PRIMARY'

也注意到，这个错误的出现有一定的偶发性，但是高并发、长时间压测几乎一定会遇到了（在开启了--skip_trx=on参数后）。因为Sysbench没有对”Duplicate entry”该错误进行处理，测试会退出，也就无法正常完成测试。

原因分析

当多个线程并发时，同时没有使用--skip_trx=on，而是使用MySQL默认的auto commit模式，那么在oltp_read_write模型下则一定的概率（小概率）会出现如下的场景：

时间线	线程A	线程B
1	生成随机ID X
2		生成随机ID X
3	删除 id 为 X 的记录 delete from sbtest where id = X
4		删除 id 为 X 的记录 delete from sbtest where id = X
5	写入 id 为 X 的记录 insert into sbtest (id…) values ( X …)
6		写入 id 为 X 的记录 insert into sbtest (id…) values ( X …)

在上面的场景下，最后一步，线程B再次写入id 为 X 的记录时，则会出现冲突。

一般来说，即便发生如上情况，也不会出现Duplicate entry的报错。但，组合一些情况，则会出现。例如，在这里，我们使用了--skip_trx=on，那么线程A的如上行为不是在一个事务中，每个操作是一个独立的事务，那么就会出现Duplicate entry报错。

如果没有使用--skip_trx=on参数，那么在线程2尝试删除记录时，则会遇到锁等待，直到线程1的相关操作全部完成。也就不会出现报错。

避免该错误

在开启了–skip_trx=on之后，如果运行时间足够长，且是多线程并发，则几乎一定会遇到如上错误。可以考虑如下方案避免：

修改sysbench使用MySQL的INSERT ... ON DUPLICATE KEY UPDATE（参考）替换原始的INSERT语句
尝试文档sysbench 1.0: teaching an old dog new tricks中使用hook尝试处理

一般来说，因为当表的记录数非常多时，遇到该类冲突的概率比较小，做如上处理并不会影响测试的“一致性”。

function sysbench.hooks.sql_error_ignorable(err)
  if err.sql_errno == 1062 then -- ER_DUP_ENTRY
    -- do nothing
    -- con:reconnect()
    return true
  end
end

orczhou.com

云数据库技术动态@2024-04-26

重要更新

阿里云

Azure(微软云)

GCP(谷歌云)

腾讯云

参考链接

云数据库技术动态@2024-04-19

重要更新

更新详情

阿里云

字节火山云

AWS

tencent cloud

参考链接

Oracle Cloud上的ECPU与OCPU规格的MySQL性能对比

概述与结论

性能测试说明

数据库与测试实例的规格

Sysbench测试参数

产品价格与账单

性能详细数据

2024-04-13@Performance of MySQL on ECPU vs OCPU

云数据库行业动态@2024-04-12

重要更新

云数据库更新详情

阿里云

Microsoft Azure

谷歌云

参考链接

后记

Oracle Cloud上的ECPU

什么是Oracle Cloud上的ECPU

Oracle为什么要再”发明”ECPU

创建实例的如何选择ECPU和OCPU

ECPU与OCPU的MySQL实例定价

使用hook解决Sysbench压测MySQL遇到的”Duplicate entry”问题

测试结果概述

如何修改测试脚本

测试说明

测试结果详情

两组测试性能的对比

更多测试原始数据

2024-03-26@Benchmark on sysbench with or without hook

使用一条MySQL SQL语句完成24点计算

概述

“一条SQL算24点”的题目回顾

初始化数据

一条SQL的正统（“暴力”）枚举计算

解题思路说明

二叉树表达式分析

每种树的可能性枚举

重复的树

操作符的遍历SQL实现

“操作数”顺序的枚举

五种“表达式树”的计算

浮点数的精度与除数为零的问题

返回表达式

最后，组装需要的输出的列

附录1：关于NP-complete问题

Protected: Interview

杨梅树

Sysbench压测MySQL中遇到的”Duplicate entry”问题

原因分析

避免该错误