Linux – orczhou.com

CentOS“退役”后AlmaLinux和Rocky Linux怎么选？

admin — Fri, 04 Oct 2024 23:34:12 +0000

CentOS 7/8目前已经不再更新，如果不打算使用CentOS Stream、RHEL的话，最主要的选择是AlmaLinux和Rocky Linux。对于一般的开发者来说，两者并没有太大区别，使用体验都100%兼容RHEL，也与原来的CentOS几乎相同。从其他方面，这里来对比一下AlmaLinux和Rocky Linux。

生态情况

双方都声称自己的生态非常好，不看广告看疗效，这里通过对比主要云厂商对于这两个发行版的支持来粗略判断其生态情况。统计数据如下：

从数据上看，Rocky Linux略胜一筹（6分 VS 5分）。也顺便统计了，所有的Linux发行版在各个云的默认支持情况，其他几个值得关注的发行版包括：Ubuntu（8分）、RHEL（6分）、Debian（6分）、SUSE（5分）。

详细的云厂商支持情况截图如下，该数据根据各个云厂商在ECS/VM/EC2的创建过程中，可以手动选择的、非云市场的Linux发型版本：

这里给出的列表为云厂商在“默认推荐”中的发行版，例如，在AWS中被认为是 Commonly Used AMI、Azure上则是表现为在其镜像直接的选择列表中。列表中不包含，各个云厂商的自己的发行版，包括Amazon Linux、Alibaba Cloud Linux、Anolis OS、Oracle Linux、TencentOS、Baidu Linux等。

Google Trend数据

Google Trend也是非常好的代表流行度的指标，具体数据参考右图。可以看到，两个发行版都有不错的增长趋势，Rocky Linux则再次略胜一筹。

此外，如果是非RHEL兼容的版本，那么Debian也是不错的选择。

基金会架构

AlmaLinux背后是Alma Linux基金会，这是一个非盈利机构(501(c)(6))，该机构最初由Cloudlinux（是一家商业公司）赞助，并还在持续赞助。相对来说，AlmaLinux有一定的独立性。

Rocky Linux是由CentOS创始人创办，而且使用类似的架构。Rocky Linux依旧是以社区的形式运作，但是其商标、和其基金会是由商业公司拥有。

官网

小结

最后，生态现状和受关注度上Rocky Linux更胜一筹；在公司架构上，AlmaLinux是一个最初由Cloudlinux资助建立的非盈利组织，Rocky Linux架构则与之前的CentOS类似由商业公司驱动。AlmaLinux、Rocky Linux两者就像“麦当劳”和“肯德基”，有人说麦当劳的鸡翅好吃，有人说肯德基的鸡米花好吃，也有很多人是尝不出来两者的区别的，根据偏好选择就好了。

笔者给一个非常玄乎的建议，如果你的偏好是麦当劳，建议使用AlmaLinux，如果是KFC则建议Rocky Linux。如果你也无所谓，那么关于这两个选择也就无所谓，“点兵点将骑马打仗”就好了。

参考：

https://wiki.almalinux.org/Comparison.html
https://www.reddit.com/r/AlmaLinux/comments/13050fo/why_almalinux_instead_of_rocky_linux/

使用Alibaba Cloud Linux/ECS/EC2的几个初始配置

admin — Mon, 27 Nov 2023 01:01:25 +0000

虽说标题是“Alibaba Cloud Linux”，不过对于Amazon Linux、华为云EulerOS/openEuler、TencentOS等都均适用。

1. 添加自己的密钥对，方便本地快速登录：

vi .ssh/authorized_keys

2. 修改 sshd 配置，防止ssh会话经常断开：

vim /etc/ssh/sshd_config

...
ClientAliveInterval 30
ClientAliveCountMax 3
...

service sshd restart

3. 修改本地的环境变量，包括语言、vim配置等

vi .bash_profile 
# 很多程序的错误提示，还是希望能够是英文的，更利于搜索
export LANG=en_US.UTF-8
export LANGUAGE=en_US

# 更改为中国时区
export TZ=Asia/Shanghai

export PS1='\[\e[32m\]\u@\h\[\e[0m\]:\[\e[34m\]\w\[\e[0m\]\$ '
alias ls='ls --color=auto'

# root账号下，经常使用vi，其实想要vim
# 当然，用root账号是非常不好的习惯
alias vi="vim"

# 配置一些vim的初始化的配置
vi ~/.vimrc
set number
set tabstop=4
set shiftwidth=4
set expandtab
syntax on

4. 个人使用的省钱大法：在主机不使用的时候，可以使用“节省停机模式”关闭ECS。这样ECS最贵的计算和内存资源将不再收费。可以大大降低个人在测试使用的时候成本。目前，AWS、华为云、腾讯云等基本都支持该能力。缺点在于，每次重启后，可能会重新分配新的公网IP，使用上略有不便。不过，如果你已经有99块的ECS的话，每次以此为跳板机，使用内网IP跳转也是一个办法。

在VPS上构建自己Blog

orczhou — Mon, 02 Dec 2013 02:13:06 +0000

随着各种SNS流行，写博客的人也越来越少，就连“博客伴侣”–Google Reader也关停了，写博客作为一个很好的分享和个人积累平台，一直坚持下来了，还将坚持下去。本文介绍自己如何在VPS上搭建自己的博客，这里使用”老派”的LAMP。随着云计算的流行，相信类似需求的人会增多，希望这篇博客能对其他人有点作用。

1. 选择虚拟主机(VPS)

这就是一件很烦人(因为穷)的事情。

如果选择国内主机，则可以考虑阿里云，基础配置单核/512MB/5Mb带宽每年价格大概在650左右，如果放弃独享带宽(个人博客应该无所谓)，则可以降价到460块。

如果是国外主机的话，选择就比较多了，常见的有Linode，内存1GB的每年月1300元左右，因为有日本机房，所以对国外的主机来说，通常Linode速度更快(通常100ms-200ms)；Dreamhost的VPS低配，300MB内存，每年约900元左右。常见选择还有Godaddy、budgetvm(便宜)等。

我选择的是digitalocean，因为便宜，使用1个月了，速度也很稳定。

digitalocean是最近兴起的极简云主机，号称55秒完成部署。整个购买、使用、付款都非常简洁，最大的特点是便宜，另外SSD硬盘也是一个亮点，经测磁盘性能确实不错，不过因为机房主要在欧美(纽约、旧金山、阿姆斯特丹)离国内都比较远，所以延迟较大，约300ms(ping一下我的博客就知道了，想想每次放我的博客，数据都从纽约过来，也就不觉得慢了)。价格比较便宜，360元每年，512MB内存，20GB磁盘。今年8月，digitalocean获得种子投资3百万美元，2012年从TechStars孵化出来。非常喜欢digitalocean的极简原则，别人在把功能做多，他在把功能做少。希望，自己以后的工作也能够是这个样子，现在这份工作是没戏了，不好意思，说多了。

2. 安装httpd+MySQL+PHP

博客使用的是WordPress，需要PHP环境运行，这里选择了LAMP。安装非常快捷：

yum install httpd
yum install mysql
yum install php
yum install php-mysql
service httpd restart
service mysqld restart or mysqld_safe &

在MySQL中建好Wordpress需要使用的数据库和用户。然后将Wordpress代码放到httpd的web目录中，在通过浏览器访问Wordpress就可以完成其配置。

3. 配置httpd和MySQL的内存使用

默认按照通常都能够跑起来，不过，如果按照默认配置跑，512MB很快会爆掉，从而出现OOM:

Out of memory: Kill process 27968 (mysqld) score 146 or sacrifice child
Killed process 27968, UID 27, (mysqld) total-vm:264472kB, anon-rss:73204kB, file-rss:36kB

3.1 MySQL的配置

设置50MB的InnoDB缓存空间，用于将Wordpress的内存缓存到内存中：

innodb_log_buffer_size=30MB

InnoDB的日志文件设置两组，每组50MB(这是消耗磁盘空间)：

innodb_log_file_size=50M
innodb_log_files_in_group=2

这样MySQL内存使用能够限制在约50MB。

3.1 httpd的配置

httpd配置需要特别注意，默认配置内存消耗可能很容易超过512MB的限制。httpd2.2版本，默认情况httpd使用模块置prefork来多线程管理。它的默认配置是：


StartServers       8
MinSpareServers    5
MaxSpareServers   20
ServerLimit      256
MaxClients       256
MaxRequestsPerChild  4000

这意味httpd最多可以起256个进程处理请求，每个进程约占用35MB(RES)，而且只有闲置进程超过20个(MaxSpareServers)才会清理，所以，这个配置下，通常都有20个进程常驻，内存使用就很容易超过512MB了。

下面是修改后的配置：


StartServers       3
MinSpareServers    2
MaxSpareServers    4
ServerLimit      256
MaxClients       10
MaxRequestsPerChild  100

这样最大并发是10个进程，当限制进程超过4个的时候，就开始kill。对于我这种低压力个人博客，已经够了。

最后，通常httpd使用模块prefork或者worker维护多线程，在这篇文章中Apache – prefork vs. worker mode, how to check mode and more，介绍了：(a)如何区分你使用哪个模块；(b)如何配置使用哪个模块；(c)他们的优缺点。

4. 配置swap

digitalocean的VPS默认是没有swap，所以内存一旦超出，则会立刻发生OOM。因为digitalocean以ssd为特点，所以直接用其磁盘来做一个swap分区弥补内存补足是非常好的。

操作参考：Linux Add a Swap File – Howto

在这自己购买VPS之前，一直蹭用Ningoo的Dreamhost主机，感谢。

后续还会再考虑测试使用Google App Engine和Amazon AWS。

使用Autoconf检测MySQL相关的软件包

orczhou — Mon, 18 Nov 2013 14:34:27 +0000

在你的程序(或者工程)中，如果编译阶段需要检测当前环境中是否存在MySQL客户端相关的库文件时，你可以使用Autoconf来帮你完成这个工作，轻盈、优雅、无痛。阅读本文需要了解简单GNU Autoconf使用。

1. 本文的目标

目的：编译时，根据configure参数(如果有–with-mysql)，选择性编译对应的MySQL相关的功能。

实现：使用已经写好的m4脚本：ax_lib_mysql.m4

2. 如何利用Autoconf实现

大部分你想到的事情都已经有人做过尝试了。这件事情也不例外，Autoconf中有很多脚本和指令帮你做事情。这里，需要使用ax_lib_mysql.m4来帮助我们。先把该文件放到程序/工程目录中，并在configure.ac中新增如下指令来检测MySQL库文件和版本：

m4_include(ax_lib_mysql.m4)
AX_LIB_MYSQL()
AM_CONDITIONAL(BUILD_MYSQL_SUPPORT, test x$MYSQL_VERSION != x)

说明：AX_LIB_MYSQL()设置了三个变量，可以在Makefile.am中直接使用，分别是MYSQL_CFLAGS、MYSQL_LDFLAGS、MYSQL_VERSION，另外还会在config.h中预定义宏HAVE_MYSQL；AM_CONDITIONAL(…)则会根据是否需要开启MySQL支持，来设置变量BUILD_MYSQL_SUPPORT，这个变量可以在Makefile.am中使用。

在程序源代码中一般有两种方式可以获取HAVE_MYSQL宏的方式：一个是直接包含config.h；另一个是在你程序的CFLAGS中新增-DHAVE_MYSQL。(注意：有的变量是可以在Makefile.am中使用，有的则是可以在C源代码中使用)

方法一：直接include config.h

Autoconf工具会将所有的预定义宏存放在config.h(默认情况)中，并在编译器选项中新增-DHAVE_CONFIG_H(通过@DEFS@)。因为文件ax_lib_mysql.m4中，包含了如下代码(如果加上–with-mysql并且找到了对应mysql_config，那么如下代码生效)：

AC_DEFINE([HAVE_MYSQL], [1],
[Define to 1 if MySQL libraries are available])

所以，config.h中会有对应的宏定义：

/* Define to 1 if MySQL libraries are available */
#define HAVE_MYSQL 1

在你的源代码中(一般是头文件)，新增如下代码：

#ifdef HAVE_CONFIG_H
#include >config.h<
#endif

这之后，就可以在你的源代码中，使用#ifdef HAVE_MYSQL … #endif这样的写法了

方法二：编译器选项新增-DHAVE_MYSQL

因为文件ax_lib_mysql.m4包含了变量定义MYSQL_CFLAGS/MYSQL_LDFLAGS/MYSQL_VERSION，所以，简单的可以在Makefile.am中，直接根据这些变量来新增gcc编译参数。类似如下写法：

if MYSQL_VERSION
XXX_CFLAGES= -DHAVE_MYSQL
endif

这之后，也可以在你的源代码中，使用#ifdef HAVE_MYSQL … #endif这样的写法了

小结：上面两种方法一个需要修改Makefile.am、一个需要修改头文件，可以根据个人喜好来决定怎么做。

3. 更多关于ax_lib_mysql.m4的使用

常见的configure写法

有了上面的设置，程序就可以通过如下的方式来确定是否将MySQL客户端的支持编译到源代码中：

./configure –with-mysql
…
./configure –with-mysql[=no|yes]
…
./configure –with-mysql[=/YOUR_ENV_PATH/mysql_config] #如果mysql_config不在当前的$PATH中，则需要显示指定。
…

如果对最低版本有要求

另外，如果你对MySQL版本有要求，例如，你希望只有检测到5.5以上的MySQL客户端，才编译对MySQL的支持，则可以在configure.ac中这样使用AX_LIB_MYSQL：

AX_LIB_MYSQL(5.5.18)

修改–with-mysql的默认行为

这里意思是说，如果在configure中没有–with-mysql选项时，则编译时不加上对MySQL的支持(如果写了)，也就是说如下两种写法意思相同：

./configure –with-mysql=no
./configure

ax_lib_mysql.m4的默认行为并非如此，需要对其代码做小小的修改：

@@ -61,7 +61,7 @@
             MYSQL_CONFIG="$withval"
         fi
         ],
-        [want_mysql="yes"]
+        [want_mysql="no"]
     )
     AC_ARG_VAR([MYSQL_CONFIG], [Full path to mysql_config program])

这样就如愿了。

4. 更一般的DEBUG选项

其实使用Autoconf这种用法更一般的是开启或者关闭DEBUG选项。这个实现会比上面简单很多。

目标：编译时，根据configure参数(如果有–enable-debug)，则执行程序中#ifdef DEBUG … #endif。(经常看到这样的写法吧)

相比上面的–with-mysql这个就简单多了(没有版本信息、不需要找mysql_config等)，所以实现也简单多了，只需在你的configure.ac中新增如下代码：

AC_ARG_ENABLE(debug,
AS_HELP_STRING([--enable-debug],
               [enable debugging, default: no]),
[case "${enableval}" in
             yes) debug=true ;;
             no)  debug=false ;;
             *)   AC_MSG_ERROR([bad value ${enableval} for --enable-debug]) ;;
esac],
[debug=false])
AM_CONDITIONAL(DEBUG, test x"$debug" = x"true")

如果configure时，带有参数–enable-debug，则设置调用AM_CONDITIONAL设置遍历DEBUG。这样就可以在Makefile中根据遍历DEBUG，来选择性的新增编译参数-DDEBUG，所以配套的还需要再Makefile.am中新增：

if DEBUG
XXX_CFALGS=… -DDEBUG
else
XXX_CFALGS=…
fi

这时，你的代码中就可以写#ifdef DEBUG … #endif了。

另一种包含config.h的方法跟前面类似，只不过需要将AM_CONDITIONAL那里换成：

if test x”$debug” = x”true”
AC_DEFINE([HAVE_MYSQL], [1],
[Define to 1 if MySQL libraries are available])
fi

那么程序代码中include >config.h<就可以了。

参考链接

Creating Your Own Configuration

Autotools 实例分析

Usage of AM_CONDITIONAL

使用tar+lz4/pigz+ssh更快的数据传输

orczhou — Fri, 08 Nov 2013 02:41:52 +0000

前面一篇介绍了如何最大限度的榨取SCP的传输速度，有了这个基础，就可以进一步的使用压缩来加速传输速度了。只使用scp，传输速率最快约90MB，本文通过压缩将把最快传输速率提升到约250MB/s(包括解压的过程)。

1. 结论

使用tar+lz4+ssh的方式能够获得最大的传输性能：

time tar -c sendlog/|pv|lz4 -B4|ssh -c arcfour128  \
-o"MACs umac-64@openssh.com" 10.xxx.xxx.36 "lz4 -d |tar -xC /u01/backup_supu"
3.91GiB 0:00:16 [ 249MiB/s] 

real	0m16.067s
user	0m15.553s
sys	0m16.821s

249MB/s，妥妥的。是最原始scp(40MB/s)的6倍，原来400GB传输需要约3小时，现在只需要27分钟了。

注1：lz4在解压方面的优异表现，使得他在本案例中非常重要。如果无需解压的传输，则可以考虑使用pigz/pbiz2

注2：使用pv观察，网络流量约80MB，所以使用nc替换ssh并不会有明显的性能提升

注3：lz4压缩使用-B4(64KB块大小)，解压使用-B7(4MB块大小)，是本案例的测试最优值

2. 关于lz4

lz4是一个让”人见人爱、花见花开”的压缩算法，能够在多核上很好的扩展，压缩速度和压缩比并没有太大优势(pigz)，但是他的解压速度非常惊人，本案例测试lz4的解压是gunzip的3倍(更多的对比测试)。因为压缩时高效的多核利用，再加上惊艳的解压，lz4已经在非常多重要场合使用了：Linux3.11内核实现了LZ4，并可以使用其压缩和解压kernel image HBase:Add an LZ4 compression option to HFile等等(参考)。

对于需要频繁压缩、实时快速解压的场景来说，lz4非常适合。

3. 性能环境说明

这里使用同上一篇文章相同的两台主机环境：ping获得RTT是17ms；使用iperf测试带宽是115MB(参考附录)；

整个过程有几个阶段：磁盘读取–>打包(tar)–>压缩–>传输–>解压缩–>拆包–>落盘对应了的速度测试：

3.1 磁盘读取和落盘

磁盘读取(有page cache)，能到3GB/s；磁盘写入约428MB：

# dd if=./sendlog.tar of=/dev/null bs=4096 count=1048576
1024002+1 records in
1024002+1 records out
4194314240 bytes (4.2 GB) copied, 1.33946 s, 3.1 GB/s

# dd if=/dev/zero of=./x.zero.file bs=4096 count=1048576
1048576+0 records in
1048576+0 records out
4294967296 bytes (4.3 GB) copied, 10.0306 s, 428 MB/s

3.2 打包、拆包

打包和拆包速度都大于350MB/s：

# time tar -cf sendlog.tar ./sendlog/
real	0m10.996s
# time tar -xf sendlog.tar
real	0m11.564s

3.3 压缩、解压缩

关于各个压缩工具的性能(压缩、解压、压缩率)已经有很多人做了比较，本文不做详细讨论，这里选择gzip/pigz lz4 bzip做本测试的比较：

           | input speed | output speed | rate   | speed of decoder
pigz -p 16 | 327.0MB/s   | 57.2MB/s     | 17.5%  | 95  MB/s
lz4        | 288.0MB/s   | 79.2MB/s     | 27.5%  | 264 MB/s
bzip2      |   4.9MB/s   | 0.65MB/s     | 13.1%  | 25.6MB /s

压缩工具的比较测试参考：Gzip vs Bzip2 vs LZMA vs XZ vs LZ4 vs LZO

可以看到，lz4在压缩率上略微逊色(对比pigz)，但是在解压速度上有这惊人的优势。

3.4 传输

前文介绍了scp，约90MB最快的传输速度。

3.5 整体流程

磁盘读取---->打包---->压缩------>传输---->解压缩-->拆包---->落盘
             |->tar   |->gzip    |->ssh   |->gzip  |->tar
                      |->bzip2   |->http  |->bzip
                      |-> ...    |->nc    |->...
                      |->lz4              |->lz4
>400MB/s    >350MB/s  79MB/s     90MB/s   72MB/s    >350MB/s >400MB/s

这里可以看到，解压是最大的瓶颈，使用在解压方面最有优势的压缩工具，能让传输获得最大速度。而lz4正是在解压效率方面有着巨大的优势。

按照上面lz4的测试，传输速度理论值为264MB/s(此时传输速度为264*27.3%=72MB)，这也是本次测试的理论上限速度。

4. 实验测试

使用lz4压缩传输：

# time tar -c sendlog/|lz4|ssh -c arcfour128 \
 -o"MACs umac-64@openssh.com" 10.xxx.xx.36 "lz4 -d |tar -xC /u01/backup_supu"
real	0m25.646s
real	0m25.911s
real	0m29.019s

测试三次，分别耗时26s、29s、25.6s，传输的平均速度为：152MB/s，网络带宽占用约41.9MB/s。

使用pigz的压缩传输：

# time tar -c sendlog/|pigz -p 16|ssh -c arcfour128 \
 -o"MACs umac-64@openssh.com" 10.xxx.xx.36 "gzip -d|tar -xC /u01/backup_supu"
rreal	0m37.030s
real	0m25.911s
real	0m29.019s

测试三次，分别耗时37s、37.2s、35.6s，传输的平均速度为：110.7MB/s，网络带宽占用约19.4MB/s。

对比发现，在压缩方面pigz与lz4并没有太大区别，但是lz4解压速度非常快，所以在这种需要立刻解压的场景下，lz4轻松胜出(bzip2这种就不需要测试了)。

4.1 分析

按照第二节中的理论分析，传输速度应该能到260MB，但是上面只有152MB/s，这说明，还有调优的空间。继续分析，看看瓶颈在哪儿：

使用pv工具观察到，tar+lz4有约70MB/s的输出：

 time tar -c sendlog/|lz4|pv > /dev/null
1.02GiB 0:00:14 [70.8MiB/s] [                                 <=>]

比直接lz4输出，要慢了10%左右(lz约79MB/s)。

再加上一次网络ssh：

time tar -c sendlog/|lz4|pv|ssh -c arcfour128 -o "MACs umac-64@openssh.com" 10.xxx.xxx.36 "cat - >/dev/null"
1.02GiB 0:00:23 [43.9MiB/s] [                                 <=>]

比直接lz4输出，要慢了45%左右(lz约79MB/s)；远端再加上解压和拆包，压缩后的传输速度就是41.9MB/s。为什么会下降，还不明了，作者也还没有想到有什么方法能够直接加速这样的管道传输，如果看客有什么建议，不妨分享，看看还能不能优化，继续提升速度。

至此，传输速度就能够到150MB/s。比最原始scp(40MB/s)要快了约4倍，原来400GB需要约3小时，现在只需要45分钟了。

5. lz4参数测试

前面试验发现，整个流程中lz4压缩比预期的要慢45%左右，而这里区别仅仅是一个使用管道(pipe)、一个直接读取。这里尝试通过修改lz4块大小对比，是否有性能提升：

测试命令：

for i in `seq 4 7`; do time tar -c ./sendlog/|lz4 -B$i |pv > /dev/null ;done
1.07GiB 0:00:11 [94.4MiB/s] [                          <=>]
real	0m11.640s
user	0m10.375s
sys	0m4.308s

可以看到块大小为64KB的时候，lz的压缩速度有显著提升(31%)。于是，我们在lz4新增参数-B4，看看是否能够提升性能：

Bang!确实，传输性能提升到了约249MB/s:

time tar -c sendlog/|pv|lz4 -B4|ssh -c arcfour128  \
-o"MACs umac-64@openssh.com" 10.xxx.xxx.36 "lz4 -d |tar -xC /u01/backup_supu"
3.91GiB 0:00:16 [ 249MiB/s] 

real	0m16.067s
user	0m15.553s
sys	0m16.821s

5. 为什么不用nc

就不用它!!!

* nc不比ssh快；如果压缩后传输，nc比ssh没有优势

* nc在脚本中不好调用，需要在两端执行命令

* nc需要一个额外的网络端口

* nc不加密

6. 还能不能更快

本案例中，lz4解压缩的速度是264MB/s，这里能够达到249MB/s，应该还有一点点可以榨取，不过我已经没有招了。

附录

iperf的带宽测试：

iperf -c 10.xxx.xx.18 -p 3999 -t 30
------------------------------------------------------------
Client connecting to 10.xxx.xx.18, TCP port 3999
TCP window size: 16.0 KByte (default)
------------------------------------------------------------
[  3] local 10.xx.xx.36 port 43838 connected with 10.xx.xx.18 port 3999
[ ID] Interval       Transfer     Bandwidth
[  3]  0.0-30.0 sec  3.15 GBytes   903 Mbits/sec

iperf -s -p 3999 -m
------------------------------------------------------------
Server listening on TCP port 3999
TCP window size: 85.3 KByte (default)
------------------------------------------------------------
[  4] local 10.xx.xx.18 port 3999 connected with 10.xx.xx.36 port 43838
[ ID] Interval       Transfer     Bandwidth
[  4]  0.0-30.0 sec  3.15 GBytes   902 Mbits/sec
[  4] MSS size 1448 bytes (MTU 1500 bytes, ethernet)

参考阅读

* lz4@Google code

* lz4’s details

* LZ4 Streaming Format

* Quick Benchmark: Gzip vs Bzip2 vs LZMA vs XZ vs LZ4 vs LZO

* lz4: Extremely Fast Compression algorithm

加速scp传输速度

admin — Tue, 05 Nov 2013 10:53:29 +0000

当需要在机器之间传输400GB文件的时候，你就会非常在意传输的速度了。默认情况下(约125MB带宽，网络延迟17ms，Intel E5-2430，本文后续讨论默认是指该环境)，scp的速度约为40MB，传输400GB则需要170分钟，约3小时，如果可以加速，则可以大大节约工程师的时间，让攻城师们有更多时间去看个电影，陪陪家人。

1. 结论：使用如下命令可以让scp速度提升50~150%

scp -r -c arcfour128 ...
scp -r -c aes192-cbc ...
scp -r -c arcfour128 -o "MACs umac-64@openssh.com" ...

原因概述：

通常，更弱的加密算法，scp传输速度更快。这里的测试看到加密算法-c arcfour128或-c aes192-cbc可以大大加速scp传输
用于完整性校验的MAC( message authentication code)算法，对性能约有10%-20%的影响。这里的测试看到-o "MACs umac-64@openssh.com"是不错的选择。
这里测试看到，scp内置的传输压缩并没有什么效果。事实上，合理的使用压缩工具是可以进一步降低传输时间的，具体的参考：使用tar+lz4/pigz+ssh更快的数据传输。你可以通过参数-o "Compression yes"来启用压缩来观察实际案例中的情况。

声明：测试与数据本身特性有很大关系，本文使用InnoDB的redo log作为测试数据。

2. 测试数据：加密算法和压缩的影响

这里对比了12种ssh中实现的加密算法和是否使用压缩的传输效率，测试文件使用的是InnoDB的1GB*4的日志文件(注意：不同类型的文件测试结果会很不同)，这里纵坐标单位为MB/s，数据分为压缩传输和不压缩传输两组：

原始数据：scp_speed.txt

可以看到，不同加密算法传输速度相差很大；使用了压缩之后，速度下降很多，也看到不同加密算法加密后区别并不大。

3. 关于是否启用压缩

压缩只有在网络传输速度非常慢，以致于压缩后节省的传输时间大于压缩本身的时间，这时才有效果，所以是否启用压缩，需要实际测试
压缩比很低的数据，不要再启用压缩(例如已经压缩过的数据、视频等)
通常建议，传输前先压缩，而不是使用ssh的压缩；建议使用pigz/lbizp2等并行压缩工具
数据中大量重复、空洞，这类适合压缩的数据，可以尝试压缩选项，例如如下是一组，大量”空洞”数据的测试：

看到，压缩大大提高了传输效率

4. “压缩级别”对传输速度影响不大

最后一组对比是，将压缩级别从1改到9，对比传输速度，纵坐标单位MB/s，对12种加密算法分别使用了测试9个压缩级别，数据如下：

大图链接原始数据:scp-compression-level.txt

可以看到，压缩级别对传输影响较小。ssh使用的默认压缩级别是6。

5. 测试数据：完整性校验算法MACs选择

通过选项Macs可以设置对应的哈希算法，man ssh_config可以看到支持哪些哈希算法。这里对了比了12中加密算法下使用不用的完整性校验算法的性能情况：

查看大图

看到，绝大数情况下”umac-64@openssh.com”(关于此哈希)性能都更好，所以建议尝试使用此哈希算法做验证，看看你的场景下速度是否与提升。也可以看到，默认的hmac-md5哈希在默认的加密aes128-ctr下表现比较好；

6. 参考阅读

differenct between -ctr/cbc：介绍了ctr和cbc的区别
The use of UMAC in the SSH Transport Layer Protocol介绍umac相关的哈希算法
在<> ISBN: 0-596-00011-1中概述了各种加密算法的安全性和效率参考
man scp/ssh/ssh_config
OpenSSH ciphers performance benchmark
100% SCP/SSH Performance Gain by Selecting the Right Algorithm
Ciphers and MACs@ssh.com
AES VS 3DES@MSDN Blogs – ACE Team

Linux如何统计进程的CPU利用率

admin — Wed, 30 Oct 2013 14:34:43 +0000

0. 为什么写这篇博客

Linux的top或者ps都可以查看进程的cpu利用率，那为什么还需要了解这个细节呢。编写这篇文章呢有如下三个原因：

* 希望在脚本中，能够以过”非阻塞”的方式获取进程cpu利用率
* ps无法获得进程当前时刻的CPU利用率;top则需要至少1秒才能获得进程当前的利用率
* * 好奇

1. 如何统计进程CPU利用率

1.0 概述

在Linux的/proc文件系统，可以看到自启动时候开始，所有CPU消耗的时间片；对于个进程，也可以看到进程消耗的时间片。这是一个累计值，可以”非阻塞”的输出。获得一定时间间隔的两次统计就可以计算出这段时间内的进程CPU利用率。

所以，是否存在一种简单的，非阻塞的方式获得进程的CPU利用率? 答案是：“没有”。这里给出来一个有趣的比喻：”这就像有人给你一张照片，要你回答照片中车子的速度一样”

1.1 /proc/stat 统计总CPU消耗

这个概念在计算中并不重要，但是了解一下还是有益的。在/proc/[pid/]stat中我们可以看到系统统计的CPU时间消耗，这里都统一使用1/USER_HZ为一个时间片(man proc)，多数情况下USER_HZ都是取值100，所以这里的一个时间片就是10ms。可以通过系统调用sysconf(_SC_CLK_TCK)来获得准确USER_HZ的取值。

例如:

# cat /proc/stat|grep "cpu "
cpu  77918485 720414 61184026 19052884316 12152363 1386 1476742 0 0

每一列对应的CPU消耗含义是(man proc)：用户态(user)、低优先级用户态(nice)、系统(sys)、闲置、IOWAIT(内核2.5.41+)、中断(since 2.6.0+)、软终端(since 2.6.0+)、steal(虚拟环境中其他OS消耗2.6.11+)、guest(为访客OS运行虚拟CPU消耗2.6.24)

对应如下：

# cat /proc/stat|grep "cpu "
     |usr      |nice   |sys      |idle        |iowait   |irq   |softirq |steal  |guest
cpu  |77918485 |720414 |61184026 |19052884316 |12152363 |1386  |1476742 |0      |0

所以，计算CPU总消耗可以使用如下shell命令：

cat /proc/stat|grep "cpu "|awk '{for(i=2;i<=NF;i++)j+=$i;print "cpu_total_slice " j;}'
cpu_total_slice 19208187744

很多地方看到都只是统计前面四列或者五列，这是不完整的；不过，因为通常前四、五列是CPU的主要消耗，所以这样如此计算也通常是准确的。例如，上例中，前面五列的消耗是CPU消耗的99.99%。

(tips：这里的时间片和CPU时钟中断的jiffy不是一个概念，一个是内核态的，一个用户态的)

1.2 进程消耗的CPU时间片

在proc文件系统中，可以通过/proc/[pid]/stat获得进程消耗的时间片，输出的第14、15、16、17列分别对应进程用户态CPU消耗、内核态的消耗、用户态等待子进程的消耗、内核态等待子进程的消耗(man proc)。所以进程的CPU消耗可以使用如下命令：

cat /proc/9583/stat|awk '{print "cpu_process_total_slice " $14+$15+$16+$17}'
cpu_process_total_slice 1068099

tips：从这里可以看到，Linux并没有进程级别的iowait统计，如果想知道系统的iowait是哪个进程导致，则还需要一些其他的工具辅助。

1.3 “非阻塞”的计算进程CPU利用率

从这里也看到，是没有某个时刻CPU利用率的说法的，也就没法获得某个时刻的CPU利用率。这就像物理中的”速度”的概念，没有某一时刻速度的概念，速度一定是一个时间段之内的。那么要”非阻塞”计算某个进程CPU利用率，则需要取两次事件间隔进行计算，这两次事件间隔的操作可以是非阻塞的。计算办法如下：

* 时刻A，计算操作系统总CPU时间片消耗total_cpu_slice_A；计算进程总CPU时间片消耗；total_process_slice_A
* 时刻B，计算操作系统总CPU时间片消耗total_cpu_slice_B；计算进程总CPU时间片消耗；total_process_slice_B

B时刻就可以”非阻塞”的计算这段时间进程的CPU利用率了：

100%*(total_process_slice_B-total_process_slice_A)/(total_cpu_slice_B-total_cpu_slice_A)

1.4 ps命令显示的CPU利用率是什么意思

man ps
......
       CPU usage is currently expressed as the percentage of time spent running during the entire lifetime of a process. This is
       not ideal, and it does not conform to the standards that ps otherwise conforms to. CPU usage is unlikely to add up to
       exactly 100%.
......

可以看到，ps命令%CPU显示的是进程自启动时刻起，直至当前的总平均CPU利用率。

2 参考文档

* man proc / man ps

* Accurately Calculating CPU Utilization in Linux using /proc/stat@stackoverflow

* account_process_tick@Linux Kernel

* Troubleshooting High I/O Wait in Linux

* Top and ps not showing the same cpu result

博客的草稿箱里面虽然有好几篇稿子了，不过距离上一篇博客好像都有100天了，写完这一篇还是很欣慰，虽然内容不多。

TCP/IP重传超时–RTO

orczhou — Thu, 27 Oct 2011 12:19:27 +0000

概述：本文讨论主机在发送一个TCP数据包后，如果迟迟没有收到ACK，主机多久后会重传这个数据包。主机从发出数据包到第一次TCP重传开始，RFC中这段时间间隔称为retransmission timeout，缩写做RTO。本文会先看看RFC中如何定义RTO，然后看看Linux中如何实现。本文旨在分享：当遇到了TCP层问题改如何去查找、阅读文档，该如何去在Linux源码中寻求答案。

起源

在分析MySQL Semi-sync故障时，我们用Tcpdump+Wireshark（感谢淘宝雕梁）抓住当时的网络包传送细节，观察到了一次TCP重传最终导致了Semi-sync超时：

第一次传输
13:55:11.893291 master => slave	Binlog pos:319890197
重传：
13:55:12.094596	master => slave	Binlog pos:319890197

看到两次传送间隔约201毫秒，即第一次传输201毫秒后，还没有收到ACK响应，TCP认为传输超时，开始重传。

疑问：host和host之间的RTT大约是0.5毫秒，为什么第一次重传需要等200毫秒？（我希望是<20ms）socket程序可以配置吗RTO吗？TCP有参数可配置RTO吗？

Google/书籍/RFC

翻开TCP/IP详解找到关于TCP Retransmission章节，较详细的介绍TCP的超时机制，书中是个概述，于是又找到RFC1122。

RFC1122的4.2.2.15和4.2.3.1都介绍了Retransmission Timeout的处理（说来惭愧，这是第一次阅读TCP相关RFC）。

在RFC中搜索Retransmission发现RFC 793 1122 2988 6298都有对重传算法、和初次重传超时的描述。于是开始阅读这个四个RFC，耗时约2小时，了解了大致的重传超时算法。

RFC中如何计算RTO(Retransmission Timeout)

RFC-793如何计算RTO

概述：先根据该socket的RTT计算出SRTT（Smoothed Round Trip Time），然后根据一个最大、最小超时时间确定当前RTO。说明：srtt可以理解为“平滑化”的RTT，即在保持计算简单的情况尽量考虑历史RTT。

详细计算：SRTT = ( ALPHA * SRTT ) + ((1-ALPHA) * RTT)

基于SRTT，我们再来计算RTO：RTO = min[UBOUND,max[LBOUND,(BETA*SRTT)]]

UBOUND是RTO上线，ALPHA是平滑因子（smoothing factor， e.g., .8 to .9），BETA是一个延迟方差因子（BETA is a delay variance factor (e.g., 1.3 to 2.0)）。

仔细看这两个公式大概就能理解了RTO的计算了。

这里对上面两个公式做一个简单的注释：公式1中计算SRTT，ALPHA越接近于0，则表示SRTT越相信这一次的RTT；越接近于1，则表示SRTT越相信上次统计的RTT。公式二给RTO分别设置了一个上限和下限。

RTO重传间隔是指数增加的

上面我们介绍的是初次重传时的RTO，如果重传后还没收到另一端的响应，下一次重传RTO则会指数增加，例如第一次重传RTO是1，之后分别2，4，8，16…。

RFC-2988和RFC-6298中的RTO计算

在RFC-2988和RFC-6298中又重新改进了RTO的计算方法，Linux中的实现即使参考RFC-2988。算法核心公式：

初始：
SRTT <- R
RTTVAR <- R/2
RTO <- SRTT + max (G, K*RTTVAR)
where K = 4.

根据RTT计算SRTT：
RTTVAR <- (1 - beta) * RTTVAR + beta * |SRTT - R'|
SRTT <- (1 - alpha) * SRTT + alpha * R'
 
最后RTO：
RTO <- SRTT + max (G, K*RTTVAR)

Linux中的RTO(Retransmission Timeout)

这里说的是RHEL5.4的2.6.18内核，RFC-2988实现参考net/ipv4/tcp_input.c中的tcp_rtt_estimator和tcp_set_rto。可以看到，在Linux中alpha=1/8，RTO最小为TCP_RTO_MIN。因为我们的系统中RTT总是很小，所以RTO取值总是能够取到TCP_RTO_MIN。

在看看TCP_RTO_MIN在Linux中的定义：

123 #define TCP_RTO_MAX     ((unsigned)(120*HZ))
124 #define TCP_RTO_MIN     ((unsigned)(HZ/5))

(这里简单的介绍介绍一下HZ，HZ可以理解为1s，所以120*HZ就是120秒，HZ/5就是200ms。详细的：HZ表示CPU一秒种发出多少次时间中断–IRQ-0，Linux中通常用HZ来做时间片的计算，参考)

其他：Linux中可配置重传参数

/proc/sys/net/ipv4/tcp_retries1 (integer; default: 3)

TCP尝试了3次（tcp_retries1默认3）重传后，还没有收到ACK的话，则后续每次重传都需要network layer先更新路由。

/proc/sys/net/ipv4/tcp_retries2 (integer; default: 15)

TCP默认最多做15次重传。根据RTO(retransmission timeout)不同，最后一次重传间隔大概是13到30分钟左右。如果15次重传都做完了，TCP/IP就会告诉应用层说：“搞不定了，包怎么都传不过去！”

最后

回答前面的问题：即使RTT很小（0.8ms），但是因为RTO有下限，最小必须是200ms，所以这是RTT再小也白搭；RTO最小值是内核编译是决定的，socket程序中无法修改，Linux TCP也没有任何参数可以改变这个值。

好了，不容易。

广告：我们寻找靠谱的人 | 感谢作者

参考文献

1. RFC 1122 … (在哪儿查找RFC) TCP协议相关的RFC：
RFC 675 – Specification of Internet Transmission Control Program, December 1974 Version
RFC 793 – TCP v4
RFC 1122 – includes some error corrections for TCP
RFC 1323 – TCP-Extensions
RFC 1379 – Extending TCP for Transactions—Concepts
RFC 1948 – Defending Against Sequence Number Attacks
RFC 2018 – TCP Selective Acknowledgment Options
RFC 2988 – Computing TCP’s Retransmission Timer
RFC 4614 – A Roadmap for TCP Specification Documents
RFC 5681 – TCP Congestion Control

Linux内存管理学习笔记–物理内存分配

orczhou — Wed, 23 Feb 2011 14:33:30 +0000

每次深入了解一个技术问题，随着挖据的深入，都发现其背后总非常深的背景知识，甚至需要深入到很多底层系统，这个过程有时会让自己迷失，会让自己忘了当初的目的。

在前篇中介绍系统启动时内存的使用情况，本篇将介绍简要Linux如何接管主机的物理内存、组织内存，最后会较为详细的介绍Linux分配内存的一段代码。

前面说了，Linux MM系统细节非常多，自己在探究的时候，也是尝试尽量抓住主线，这里也只能抽取了一些“主线剧情”介绍，其中还可以扩展出很多细节，看客感兴趣可以自己深究，后续如果兴趣还在，我也还会继续写出来。内核版本如果没有特别说明，就是使用2.6.33版本。

1. 物理内存组织

先声明一下，这里说的Linux都是运行Intel X86架构的。从80386开始，为了更好支持内存管理、虚拟内存技术，x86架构开始支持处理器的分页模式（分页是基于分段）。系统将内存分为一个个固定大小的块，称作“page frames”，x86架构每一个“page frames”大小为4096字节。Linux中使用struct page结构来描述一个“page frames”【链接中给出了2.6.18内核下的Page结构】，一个Page结构对应了一个物理内存页。

在Linux中，所有的struct page对象都放在一个数组mem_map，mem_map每一个元素对应一个Page。

2. NUMA下的内存结构

在NUMA架构下，系统根据CPU的物理颗数，将内存分成对应的Node。例如，两颗物理CPU，16GB内存的硬件：系统则将内存分成两个8GB，分别分配给两颗CPU：

my111.cm3:/root>#numactl –hardware
available: 2 nodes (0-1)
node 0 size: 8065 MB
node 1 size: 8080 MB

每一个Node，系统又将其分为多个Zone，64位x86架构下（参考:8.1.5），分为两个ZONE_DMA（低16MB，）、ZONE_NORMAL（其余内存）。所以NUMA架构下的内存分配，也就是在各个zone分配内存。

3. 内存分配函数栈

从底层系统的角度，内存分配有如下函数（这里介绍的底层函数，和上层函数的关系，以后再介绍）：

这里来调查一下函数alloc_pages都做了些什么，都调用了哪些函数：

free_area是一个底层保存空闲内存页的数组，有着特殊的结构，它也是内存分配Buddy system的核心变量。

4. get_page_from_freelist和zone_reclaim_mode

上面函数get_page_from_freelist【mm/page_alloc.c】通过遍历系统中各个zone，来寻找可用内存，根据Linux系统中zone_reclaim_mode的设置不同，遍历时的行为略有不同。zone_reclaim_mode是Linux中的一个可配置参数，为了解该参数如何影响内存分配，那就打开get_page_from_freelist的代码，仔细看看遍历各个zone的流程：

上面看到，zone_reclaim_mode非零时，如果某个zone内存不够，则会尝试出发一次内存回收工作（zone_reclaim），等于零时，则直接尝试写一个zone。

上面是2.6.33内核的代码流程图，2.6.18（RHEL5.4的内核）中则因为没有zcl相对简单一些：

流程图中可以看到，zone_reclaim_mode非零时，get_page_from_freelist【mm/page_alloc.c】函数中会调用zone_watermark_ok扫描free_area，如果当面有没有足够的可用内存，就会调用zone_reclaim【mm/vmscan.c】函数回收内存，zone_reclaim实际调用zone_reclaim【mm/vmscan.】收回内存。

最后

每次深入了解一个技术问题，随着挖据的深入，都发现其背后总非常深的背景知识，甚至需要深入到很多底层系统，这个过程有时会让自己迷失，会让自己忘了当初的目的。如果是Linux方面的技术问题，一般最后会收缩到“体系结构”、“Linux原理”和“算法”，这恰恰对应了计算机系考研时候的三门课程：体系结构、操作系统、和数据结构

参考：

Managing physical memory

Understanding the Linux Kernel, 3rd Edition

广告时间：工作机会–MySQL Hacker

Linux内存管理学习笔记–概述

orczhou — Thu, 17 Feb 2011 14:44:28 +0000

随着要维护的服务器增多，遇到的各种稀奇古怪的问题也会增多，要想彻底解决这些“小”问题往往需要更深的Linux方面的知识。越专业、分工越细的工程师，在这方面的要求也就越高。这次，对MySQL Swap的问题的探索过程，就一不小心掉进了Linux Memory Managemant（Linux MM）的研究中去了，爬了很久才出来，这里做一个系列笔记。

笔记中很多内容都是参考《Understanding the Linux Kernel, 3rd Edition》、Linux Source Code等地方，自己再做了一些总结，觉得有意义的总结这里记录一下，供参考。

1. 写在前面

Linux MM是一个比较猥琐的体系，虽然理论不太多，但是细节非常多。要从底层物理内存管理到上层虚拟内存管理整个关节打通，一方面需要较多底层架构知识、还需要很深的Linux知识。既然是学习笔记，先说一下我的学习资料：

1. Linux Memory Management David A Rusling 这本书很老了，当时的Kernel还是2.0.33版本的；这本书的优点在于抽象得很到位，把Linux_MM的基本模块、思想都通俗易懂的介绍了一遍。这也是kernel-docs.txt中推荐的读物之一；

2. 《Understanding the Linux Kernel, 3rd Edition》中的第二、八、十七章这是基于2.6内核，非常有参考价值，介绍得非常细致，可以结合内核的源代码一起来看。

3. Linux Source Code 只看了几个自己关心的函数，没那么难:)

我不是计算机科班出身，体系结构的基础比较差，所以刚开始入门的时间相对较长，前后大概历时一个月，实际伏案时间约50小时，而这也只是一个开始

2. 基本框架

上面是一幅简图，后面会分别介绍，Kernel如何使用内存、Kernel如何管理分配内存、用户空间的内存管理。对于其中的一些细节则会单独介绍，例如大页内存，内存回收算等等。

2. Linux启动与内存管理

开机的第一个过程是BIOS自检，BIOS使用0x00000000到0x10000（1MB）内存，这1MB内存包括了自检程序、自检结果、还留一部分给显示设备使用；自检完成后，开始载入Linux内核，Linux从1MB开始使用物理内存，一般5MB就足够了，在内核的符号信息中可以看到，Linux内核从_text开始，_edata处结束

$more /boot/System.map-2.6.9-55.ELsmp|grep “\ _text$\|_etext$\| _edata$\| _end$”
ffffffff80100000 A _text
ffffffff80310399 A _etext
ffffffff80456aa8 A _edata

简图：

这里不涉及x86架构下的分页、分段细节，后面会单独介绍之。

这一篇很简单，是一个开始:)

【update 2011-03-29】

在64位系统中，Linux(2.6.18)从2MB开始使用物理内存。(32位系统，仍然是从1MB开始)

file: ./arch/x86_64/defconfig
CONFIG_PHYSICAL_START=0x200000
//This gives the physical address where the kernel is loaded.

参考文献：

[1]. http://cateee.net/lkddb/web-lkddb/PHYSICAL_START.html

广告时间：工作机会–MySQL Hacker