• Spark堆内存溢出解决记录

    最近的工作有很大一部分是在做用户画像。 画像读取的维度bitmap动辄几百MB,甚至存在部分GB级别的。而我们的Yarn集群规模比较小,内存总计只有100多GB。开发调试时遇到最多的问题除了Task

    [阅读更多...]
  • Spark Job调优-Part 2

    这一节将主要介绍资源调优,或者说是如何充分利用集群资源。然后再说一下如何对并发度进行优化,这是job性能参数中最难也是最重要的部分。最后我们将了解一些数据自身的表现形式:Spark读取时数据在磁盘上的

    [阅读更多...]
  • Spark Job调优–Part 1

    在开始写spark代码或者翻阅spark文档的时候,会遇到一些诸如“transformation”,“action”和“RDD”这样的术语。了解这些术语对于编写spark代码是至关重要的。 类似的,当

    [阅读更多...]
  • spark java.lang.StackOverflowError

    问题描述 在工作中使用spark的一个主要内容就是从多个路径下搜集数据并进行处理。常用的代码大致如下: 在readData方法中调用SparkContext的sequenceFile方法读取文件创建R

    [阅读更多...]
  • 使用Gradle构建scala多模块工程

    前段时间终于无法忍受sbt慢如龟速的编译打包速度了。稍稍调研了一下,就果断切换到了gradle。由于调研得比较匆忙,在使用过程中遇到了各种问题。好在最后都能解决了。 我这里使用scala主要是用来编写

    [阅读更多...]
  • spark使用kafka报NoSuchMethodError

    运行spark任务消费kafka时,报了如下的异常: 使用的spark版本是1.6.1,kafka版本是0.8.2.1。 根据异常信息猜测应该是scala版本导致的问题。 查看了一下依赖的spark和

    [阅读更多...]
  • 在Spark上通过自定义RDD访问HBase

    这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。 这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的:标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个

    [阅读更多...]
  • Spark快速入门

    这是整理的Spark官网的《QuickStart》教程。在这篇教程里我们会先使用shell初步接触一下spark,然后再编写一个spark应用。我这里会优先使用scala来完成这些工作。如果想使用py

    [阅读更多...]
第 1 页,共 1 页1