Arganzheng's Blog

stay hungry, stay foolish

一个java大堆引发的『血案』

现象 线上预估服务扩容新增了两台机器,同样的代码,同样的机器配置,但是有一台机器的平均时延就是比另一台机器慢一些。 1、64机器(时延慢一些的机器) JVM启动参数: /home/app/predictor-serving/jdk/jre/bin/java -Djava.util.logging.config.file=/home/app/predictor-serving/tomc...

使用CompletableFuture异步编程

Future vs. CompletableFuture JDK 5引入了 Future 模式。Future 接口是Java多线程 Future 模式的实现,在java.util.concurrent包中,可以来进行异步计算。 Future 模式是多线程设计常用的一种设计模式。所谓Future,顾名思义,就是结果在未来完成,先给你一个凭据。Future的接口很简单,只有五个方法: pu...

gitlab如何checkout某个group中的所有项目

gitlab 是一个非常棒的基于git的代码版本控制平台,跟 github 非常类似,但是有一个非常重要的功能是缺失的,就是搜索代码。这时候只能将所有的分支拉到本地,进行grep。为了方便管理,我们的项目都是按照 group,也就是 namespace 分开管理的,问题在于 gitlab 并没有在界面上直接提供下载整个 group 中的所有项目的功能,谷歌了一下,发现大家基本都是利用 Git...

创建Hadoop FileSystem报Provider org.apache.hadoop.fs.azure.NativeAzureFileSystem not a subtype异常

为了验证一个线上问题,写了一个简单的Spark任务,在提交节点上听过spark-submit命令提交任务,总是跑不起来。 报如下错误: 18/12/26 16:37:24 ERROR study.Application: error java.util.ServiceConfigurationError: org.apache.hadoop.fs.FileSystem: Provider...

Git分支管理策略

在使用 Git 时通常会遇到的一个问题是采用何种分支管理实践,即如何管理仓库中作用不同的各类分支。 GitFlow 演进 洪荒时代 —— 单主干开发 (Trunk-based development, TBD) 单主干的分支实践(Trunk-based development, TBD)在 SVN 中比较流行。trunk 是 SVN 中主干分支的名称,对应到 Git 中则是 maste...

Spark数据倾斜及其解决方案

什么是数据倾斜 对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的...

Spark Executor内存管理

我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内存管理模块在整个系统中扮演着非常重要的角色。为了更好地利用 Spark,深入地理解其内存管理模型具有非常重要的意义,这有助于我们对 Spark 进行更好的调优;在出现各种内存问题时,能够摸清头脑,找到哪块内存区域出现问题。 首先我们知道在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor...

Design Pattern

设计模式分享 开发模式 (OOP) 面向对象编程 (DDD) 领域驱动开发 (TDD) 测试驱动开发 设计模式的8个基本原则 单一职责原则(Single Responsibility Principle): 一个类只负责一个功能领域中的相应职责(只做一类事情) 里氏代换原则(Lisko...

log4j2如何动态的创建logger和appender

背景 平台现在通过页面通过 SparkLauncher 提交Spark训练任务,随着而来的一个问题就是任务出错之后不知道哪里出问题,而日志在提交节点上,并且所有的任务混在一起打印日志,很不方便查看。能不能把 Spark 任务的日志分别打印在自己的日志文件呢? 解决方案 Spark2.x 有 redirectToLog 方法可以把任务日志重定向,但是 Spark1.x 没有提供这个功能,...

Spark如何查看某个applicationId的executor日志

方法一:直接在界面上查看 如果你运行在 YARN 模式,你可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到你的应用。然后 点击表格中 Tracking UI 列的History 链接;或者 点击相关的 ApplicationId 链接,进入到详情页面点击上面的 Tracking URL:...