失言就是一不小心说了实话 [登录·注册]

吕滔博客

首页 开发 运维 工具 摄影

linux主机之间快速高效的拷贝大数据文件

工具 memory 发布于November 22, 2017 标签: Linux

以前我们跨主机拷贝大数据的时候,基本思路就是

这三个过程是同步阻塞,即不能同时异步执行,导致效率低下。
现在我们将过程优化为以数据流的方式,同时执行(非阻塞模式),则效率一般可以提高到原来的3倍以上,具体实现如下:

磁盘读取---->打包---->压缩------>传输---->解压缩-->拆包---->落盘
           |->tar  |->gzip   |->ssh   |->gzip |->tar

比如我要将本地的test目录拷贝到“目标IP”的的data目录,则命令如下:

tar -c test/ |pigz |ssh -c root 目标IP "gzip -d|tar -xC /data"

当然,这里的解压过程仍然用了效率比较低下的gzip,如果将解压工具换成lz4(但需要单独编译安装),则效率可以再提高不少。
如果不需要解压,则命令变为:

tar -c test/ |pigz |ssh -c root 目标IP "cat >/data/test.tar.gz"

注:因为采用了流式压缩,解压过程必须加上-i参数,及tar –ixf /data/test.tar.gz

说明: pigz是一个高效的压缩工具,可以将多核CPU的每一分剩余性能都用来做压缩计算。而传统的gzip则只能用单核CPU。比如一台2个8core cpu服务器采用pigz和gzip压缩相同的数据,一般性能差距至少在7-8倍以上(一般不会达到理论的16倍,因为受限于磁盘的读写速度和内存等资源)。

文章来源 使用tar+pigz+ssh实现大数据的高效传输

相关推荐

添加新评论

全部评论:已有 3 条评论

  1. 潇湘居士

    使用 axel 或者 aria2 开启多线程下载,同样能达到相同的效果;
    至于压缩比例或者传输速率的差异,考虑到硬盘自身的读写速率限制,以及出口带宽的有限,可以忽略不计。
    更何况,大多数情况下,一次传输任务不应该把整个硬盘IO和网络IO独占,所以相比起上述理论上的“快速”拷贝,实际情况下作用并不大。

    1. memory

      文中的方案还是比较局限,个人认为还是适合主机迁移的时候比较好使。
      如果是线上业务同步撒的,不建议这样整。

      谢谢你.

      1. 潇湘居士

        恩,如果是在局域网内部进行系统迁移,我们对比过 SSH 的压缩和不压缩传输速率对比,结果很明显,不压缩基本上能占用千兆网卡全部带宽,压缩的话,虽然压缩后的数据能占用近百兆带宽,但是总体传输比要小于未压缩。
        所以我们在局域网一般禁用SSH压缩的。

网站状态

  • 栏目分类:49个
  • 发布文章:1537篇
  • 用户评论:773条
  • 开博至今:4164天

正则速查

[abc] 匹配中括号中的单个字符,如a或b或c
[^abc] 匹配除了a、b、c等字符的其他单个字符
[a-z] 匹配一个字符范围,如a到z
[a-zA-Z] 匹配一个字符范围,如a-z 或 A-Z
^ 匹配行的开始
$ 匹配行的结束
\A 匹配一个字符串的开始
\z 匹配一个字符串的结束
. 匹配任意单个字符
\s 匹配空白字符,如空格,TAB
\S 匹配非空白字符
\d 匹配一个数字
\D 匹配非数字
\w 匹配一个字母
\W 匹配非字母
\b 匹配字符边界
(...) 引用所有括号中的内容
(a|b) a或者b
a? 零个或1个a
a* 零个或多个a
a+ 1个或多个a
a{3} 3次重复的a
a{3,} 3次或3次以上重复的a
a{3,6} 3到6次重复的a

修正符

/g 查找所有可能的匹配
/i 不区分大小写
/m 多行匹配
/s 单行匹配
/x 忽略空白模式
/e 可执行模式,PHP专有
/A 强制从目标字符串开头匹配
/D 使用$限制结尾字符,则不允许结尾有换行
/U 只匹配最近的一个字符串;不重复匹配

最新回复

  • memory: 没测试过...
  • 欧文斯: 对于多个 IP 段呢?比如超过 1000 个 IP 段,匹配速度...
  • 广州网站建设: 了解了,博客的通配符HTTPS证书
  • memory: https://medoo.lvtao.net/1.2/doc....
  • 贾彦东: medoo 在select的时候如何使用sum 比如 sel...
  • memory: 纯PHP文件末尾可以没有?>,你把报错信息发我一下。
  • bigwit: 因为七牛云的免费配额不能https,索性传到自己的vps上去算了...
  • bigwit: 我直接使用,报错啊,方便发我一份吗?
  • memory: 是完整的。这个就是一个简单的上传,你可以自己写个类似的也不难的。
  • bigwit: up.php是不是不完整,刚好我也有这样的需求,麻烦你看看
  • 广州网站建设: 学习了,已经收藏起来了
  • memory: 那就改一下 Widget_Stat 这个插件。增加个方法即可。
  • 梁兴健: 文章总浏览量可以有吗
  • memory: 怪我,写的太差。。。不易懂,,,我的错
  • 善行法脉--改变财运: 你是技术大牛。这个真的看不懂
  • memory: 这个太尴尬了,哈哈,,,那是10年的时候刚接触PHP写的一个类。...
  • 梦游者: //website : http://www.lvtao.ne...