时间与精神的小屋

专注思考的时候,时间仿佛也静下来了


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

[译]Spark调优教程中文版

发表于 2017-02-18 | 分类于 Spark |

最近用到Spark比较多,于是打算深入学习下Spark的调优。我谷歌下发现网上调优的经验还是比较散乱,所以决定将官方文档翻译下,为国内开源社区贡献一点力量。另外不得不吐槽翻译真是个体力活,90%的时间都花费在IO上了。

阅读全文 »

记一次排查Spark thrift server OOM错误的经历

发表于 2017-02-05 | 分类于 Spark |

平时spark thrift server多用来做探索性的查询,比如验证下数据格式或count一下某天数据数量,都是轻量级的查询,查询效率也比较满意。没想到最近要真正用起来的时候,却遭遇各种瓶颈。

阅读全文 »

从蒙代尔三角到分布式CAP原则

发表于 2017-01-14 | 分类于 杂谈 |

毕业后每月都稍微有点闲钱就入手了一把美元,见证了人民币汇率从6.72一路跌到今天6.90。小小收获2个点,就算是对汇率下跌造成消费成本上涨的弥补吧,毕竟AWS的账单都是以美元结算啊TAT。不过年底央妈终于看不下去了,出台了一系列政策加强外汇管制来限制资本外逃以保汇率,包括前几天宣布比特币的非法化,让比特币一天跌了10个点。

阅读全文 »

Spark批量更新数据库导致死锁

发表于 2016-12-28 | 分类于 Spark |

今天同事的实时分析脚本遇到一个问题,mysql数据库写入失败。其实功能很简单,从数据流读取用户登录数据,更新用户的最近一次登录时间。这个脚本在项目冷启动阶段运行正常,但数据量增长之后不时更新失败。

阅读全文 »

浅谈数据工程师和SQL

发表于 2016-12-25 | 分类于 大数据 |

这个周末是圣诞节,不过我没有人约也没有约人,在宿舍宅了一天,于是便有了这篇文章。今天我想谈谈所有工程师都离不开的SQL。最近我们在做一个自助数据分析(OLAP)系统,调研的时候在segmentfault上看到一篇博客,其中一句话我深有同感

面对快速变化的业务需求,很多数据工程师都把自己的青春埋葬在SQL里了。

其实不仅数据工程师,数据分析师同样把大部分精力花费在SQL上。这不是意味着我看轻SQL,相反我认为SQL的发明者真的太厉害了。SQL作为一种30年前诞生的古老的语言,经久不衰,直到今天CRUD基本可以完成60%以上的系统。

阅读全文 »

出现了,我的第一篇博客!

发表于 2016-12-24 | 分类于 杂谈 |

相信许多程序猿都知道写技术博客的重要性:于个人而言,无论对技术的提升、社交或者个人品牌的建立都有很大的帮助;于行业而言,也是对多年从Google和StackOverflow获得帮助的一种回馈。不过知易行难,长期保持写作在国内互联网业加班盛行的环境下,的确很难。一是时间上不允许,若是像我这般996的生活,回到宿舍洗个澡刷刷知乎和订阅号,就该滚到被窝里了。二是一个人的精力真的是有限的,连续上班12个小时之后,脑袋昏昏沉沉,要想再思考点什么,写篇有营养的有灵气的文章,不太可能。

阅读全文 »
1…78
Paul Lin

Paul Lin

76 日志
17 分类
47 标签
RSS
GitHub
© 2016 - 2024 Paul Lin