Spark | 四维致一

Hadoop HAR文件的读取操作

2019年10月28日作者：白42

暂无评论

概述 Hadoop Archive是Hadoop官方提供的解决HDFS上小文件过多的一种方案。可以通过如下命令来执行生成har文件：执行archive命令会提交一个MapReduce任务来生成har文件。在了解har文件结构后也可以考虑本

[阅读更多...]

Spark数据导出任务内存优化记录

2019年6月29日作者：白42

暂无评论

前两天又接了一个Spark任务，倒不复杂，依然是检索HDFS上的日志数据这样的事情。不过瞅着组内跑着十几二十个任务内存一共只有160来G的yarn集群，有些欲哭无泪。事情还是要做的，反正执行时间要求不太严格，只能想办法尽量压缩内存的占用了

[阅读更多...]

Spark生成CSV后BOM变EF BF BD

2019年2月28日作者：白42

暂无评论

工作中需要通过Spark以csv格式导出日志文件。实现功能不太复杂，但是在中文识别上遇到了些问题。解决csv文件中的乱码最直接的思路就是添加BOM，这样Excel在打开Excel的时候就知道使用什么样的编码来解析这篇文档了。先写了段测试

[阅读更多...]

Spark堆内存溢出解决记录

2018年7月22日作者：白42

暂无评论

最近的工作有很大一部分是在做用户画像。画像读取的维度bitmap动辄几百MB，甚至存在部分GB级别的。而我们的Yarn集群规模比较小，内存总计只有100多GB。开发调试时遇到最多的问题除了Task not serializable就是he

[阅读更多...]

Spark Job调优-Part 2

2018年7月21日作者：白42

暂无评论

这一节将主要介绍资源调优，或者说是如何充分利用集群资源。然后再说一下如何对并发度进行优化，这是job性能参数中最难也是最重要的部分。最后我们将了解一些数据自身的表现形式：Spark读取时数据在磁盘上的保存形式（如Apache Avro和 A

[阅读更多...]

Spark Job调优–Part 1

2018年7月17日作者：白42

暂无评论

在开始写spark代码或者翻阅spark文档的时候，会遇到一些诸如“transformation”，“action”和“RDD”这样的术语。了解这些术语对于编写spark代码是至关重要的。类似的，当写的spark程序执行失败的时候或者尝试

[阅读更多...]

spark java.lang.StackOverflowError

2018年7月2日作者：白42

1评论

问题描述在工作中使用spark的一个主要内容就是从多个路径下搜集数据并进行处理。常用的代码大致如下：在readData方法中调用SparkContext的sequenceFile方法读取文件创建RDD集合。而后调用RDD的reduce和

[阅读更多...]

使用Gradle构建scala多模块工程

2018年4月21日作者：白42

暂无评论

前段时间终于无法忍受sbt慢如龟速的编译打包速度了。稍稍调研了一下，就果断切换到了gradle。由于调研得比较匆忙，在使用过程中遇到了各种问题。好在最后都能解决了。我这里使用scala主要是用来编写spark job。由于我自己的一些需要

[阅读更多...]

spark使用kafka报NoSuchMethodError

2018年2月7日作者：白42

暂无评论

运行spark任务消费kafka时，报了如下的异常：使用的spark版本是1.6.1，kafka版本是0.8.2.1。根据异常信息猜测应该是scala版本导致的问题。查看了一下依赖的spark和kafka的配置为：依赖项直接copy

[阅读更多...]

在Spark上通过自定义RDD访问HBase

2017年6月21日作者：白42

3评论

这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的：标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个时间范围内的全部记录。根据需求和行键设计

[阅读更多...]

Hadoop HAR文件的读取操作

Spark数据导出任务内存优化记录

Spark生成CSV后BOM变EF BF BD

Spark堆内存溢出解决记录

Spark Job调优-Part 2

Spark Job调优–Part 1

spark java.lang.StackOverflowError

使用Gradle构建scala多模块工程

spark使用kafka报NoSuchMethodError

在Spark上通过自定义RDD访问HBase

我的专题

友情链接

其他操作

我的专题

友情链接

其他操作

标签云