• Hadoop HAR文件的读取操作

    概述 Hadoop Archive是Hadoop官方提供的解决HDFS上小文件过多的一种方案。可以通过如下命令来执行生成har文件: 执行archive命令会提交一个MapReduce任务来生成har文件。在了解har文件结构后也可以考虑本

    [阅读更多...]
  • codeIgniter的多主题、静态文件及端口号的问题

    问题描述 这段时间在用php写一个cms应用消磨时间。框架选型用了CodeIgniter,这个框架整体上还是挺让人中意的——只是稍嫌不够灵活,需要做些额外的工作。 这些额外的工作中让人比较费心的是路径相关的问题: 多主题的路径问题 静态文件

    [阅读更多...]
  • 查找占用CPU时间最长的线程

    记录下查找Java应用占用CPU时间最长的线程的过程。 获取进程ID 使用jps指令获取java服务进程ID: 命令结果如下: 其中19064即是目标java服务进程ID。 查询线程占用时间 使用top -H -p pid指令查询指定进程下

    [阅读更多...]
  • springboot入门02 – 自定义数据源及多数据源配置

    spring-boot的自动化配置中是包含数据源连接配置的。但有些时候我们需要自定义数据源连接的配置,比如: 使用的数据库连接池Spring暂时还不支持; 需要配置连接多数据源; 需要自定义一些数据库连接配置项。 这三种只是我曾经遇到的情形

    [阅读更多...]
  • springboot入门01 – 缓存的使用

    前两天解决了一个Spring缓存的问题,因此就想到记录一下spring-boot缓存的使用。 开启缓存 SpringBoot开启缓存也容易,在启动类上添加@EnableCaching注解就可以了,不需要过多的配置。不过此时开启的缓存是比较简

    [阅读更多...]
  • FileInputStream与BufferedInputStream

    程序中有一块儿功能是读取硬盘文件到内存里。这块儿代码执行得异常缓慢,读4个G左右的文件竟会用上十几分钟。平时也不着急,但是今天催得紧,就得优化下了。 上传代码大致如下: 这里的问题在于直接使用了FileInputStream,就是说没有使用

    [阅读更多...]
  • Metrics学习03 – Histogram

    Histogram用来统计数据的分布。Histogram可以提供收集到的数据的最大值、最小值、平均值和中值,此外还能提供百分比分布,如75%,95%,99.9%等等。 Histogram是我学习Metrics的驱动之一。最初是想使用Hist

    [阅读更多...]
  • dependencyManagement导致版本冲突

    今天遇到了一个问题: 程序中某处报了ClassNoDefineError。这个类属于jna框架。检查jna的jar,发现确实没有那个类。关键在于这个报错是在一个依赖内部发生的,jna的jar是这个依赖的内部依赖,即当前应用的一个间接依赖。因

    [阅读更多...]
  • Quartz Job类使用有参数构造方法

    也许这篇文章的名字应该改成《Quartz JobFactory的使用》,因为正是使用JobFactory解决的Quartz Job类有参数构造方法的问题。同样,使用JobFactory也能解决Job已有实例重用的问题。 问题描述 问题如标题

    [阅读更多...]
  • Spark数据导出任务内存优化记录

    前两天又接了一个Spark任务,倒不复杂,依然是检索HDFS上的日志数据这样的事情。不过瞅着组内跑着十几二十个任务内存一共只有160来G的yarn集群,有些欲哭无泪。 事情还是要做的,反正执行时间要求不太严格,只能想办法尽量压缩内存的占用了

    [阅读更多...]