Arganzheng's Blog

stay hungry, stay foolish

ArangoDB的索引学习

ArangoDB索引概览 ArangoDB内建了很多索引结构,用于解决不同的应用场景(个人感觉有点过多了。。) Primary Index: 主键索引: _id, _key unsorted hash index 内存索引 Edge Index 边索引:_from, _to hash...

neo4j学习笔记

一、图模型——Labeled Property Graph Model A labeled property graph is made up of nodes, relationships, properties, and labels. Nodes contain properties. Think of nodes as documents that store prope...

Kafka offset lag监控

利用NOAH的自定义脚本监控功能,写了一个脚本监控kafka的consumer offset lag,如果大于10000就报警。 脚本如下: #!/bin/bash old_IFS=$IFS IFS=$'\n' # get all the consumer group of kafka group_list=`/home/work/kafka/bin/kafka-consumer-g...

kafka broker间歇出现CLOSE_WAIT问题

使用kafka有一段时间了,偶尔会出现一些问题,比如Kafka集群的某个broker会突然卡住,排除发现改broker有大量的CLOSE_WAIT状态,而且Recv-Q有数据没有处理,猜测可能是client发送了请求数据,broker还没处理完,client退出了,broker再也不能处理完那些请求数据,所以不能发送FIN。 这个情况已经出现过几次,重启就好了,但是为什么会出现这么多的...

图存储引擎学习笔记

存储和索引 有两种存储方式,一种是Index Free Adjacency,不依赖于索引,直接存储关联的物理位置(内存指针,磁盘文件偏移量),这类的产品有neo4j, Titian, OrientDB,Graph Engine(@Microsoft), etc。第二种是Index-Based Adjacency,使用各种索引实现图的检索功能,这类的产品有 FlockDB(@Twitter)...

抓取学习笔记

知识图谱的很重要的原始数据来源还是来自于网站抓取的数据,网站抓取器就是我们常说的Spider。 在互联网上爬来爬去,发现链接,抓取网页,这就是Spider整天做的事情。听起来很简单,但是实际上是困难重重的。 Spider有两个核心任务:选链调度 和 网页抓取。 Spider面临的主要问题有: 压力计算、控制、流量分配: 如何提升对外抓取友好度,减少被封禁。...

使用supervisor进行进程监管

supervisor是一个python写的进程管理工具,可以监管进程的运行。它提供了进程挂掉自动重启功能,并且还有一个管理页面,可以看到监管的程序的运行状态,也可以直接在整个页面上对进程进行重启、关闭、查看日志等操作。 安装 安装比较简单,直接看官网,这里不赘述了。 使用方法 supervisor的主要配置入口在supervisord.conf: [unix_http_server...

ElasticSearch存储相关

版本 线上使用的是1.7.1版本,最新的ES版本是5.0,这个版本在功能和性能上做了很大的改进(Elasticsearch 5.0 新版本的特性与改进),所以我们也直接使用这个版本。 风险是这个版本相对比较新,是十一月中旬才release的版本,可能会有一些不稳定,资料也会比较少。另外,因为太新,很多第三方插件,如head,bigdesk,等,都还没有追上。 ...

卓有成效的程序员——Mac篇

作为一个资深程序猿,在linux、windows和mac下都进行过相当长的一段开发时间,是时候总结一下mac下的一些高效工作Tips了。 离线文档 有时候有些文档需要翻墙或者访问很慢,你可以将整个文档离线下载下来,在本地阅读。 登录能翻墙的服务器,使用wget的mirror功能下载整个网站: wget -m --no-check-certificate --convert-links...

Git学习笔记

公司已经全面切换Git,我们的新项目刚好作为组内的第一个尝鲜项目。其实也用过Github一段时间了,对Git也不能说是完全小白。只是以前基本都是一个人作战,现在是多个人合作,刚好趁这个机会总结一下,让团队其他同事可以通过这篇文章快速的切换到Git来。 Git基础 1.1 Git配置 Git有三个级别的配置文件,分别是: 版本库级别的配置文件: 工程目录下...