Spark调优 | 四维致一

2019年6月29日作者：白42

暂无评论

前两天又接了一个Spark任务，倒不复杂，依然是检索HDFS上的日志数据这样的事情。不过瞅着组内跑着十几二十个任务内存一共只有160来G的yarn集群，有些欲哭无泪。事情还是要做的，反正执行时间要求不太严格，只能想办法尽量压缩内存的占用了

2018年7月21日作者：白42

暂无评论

这一节将主要介绍资源调优，或者说是如何充分利用集群资源。然后再说一下如何对并发度进行优化，这是job性能参数中最难也是最重要的部分。最后我们将了解一些数据自身的表现形式：Spark读取时数据在磁盘上的保存形式（如Apache Avro和 A

2018年7月17日作者：白42

暂无评论

在开始写spark代码或者翻阅spark文档的时候，会遇到一些诸如“transformation”，“action”和“RDD”这样的术语。了解这些术语对于编写spark代码是至关重要的。类似的，当写的spark程序执行失败的时候或者尝试