1、入门建议
- 注重应用场景,图数据库擅长处理深度关联的数据分析。
- 呆在有一定图数据库方面经验的团队
- 不要错过neo4j培训或者技术大会
- 不要死磕,多和同事或者社区的同志交流
- 采用关系数据库的逻辑和思维来学习
2、模型设计的建议
- 属性是建模成节点还是作为属性是需要考虑的,主要看属性的应用场景是否多,比如频繁作为过滤条件。
- 由于neo4j支持字节和字节数组存储,一个属性可以存放达到数G的内容,但是一个属性文件太大,在neo4j底层存储时由于某属性太大往往会打乱整个文件的存储,导致读写性能急剧降低。
- 考虑数据的内在分类性质:比如将一个人的国家作为人的属性,其实最终还是没有利用好neo4j的标签机制。
- 尽量不要用物理id
由于根据物理id删除物理节点后,在下次生成新的节点时,会分配原来释放的id空位,会导致一些意向不到的问题(旧id引用一些过期数据)
3、关于建立索引
(1)尽量使用shema index,
(2)索引是读性能和写性能的结合,尽量不要对无效字段进行索引,避免增加写成本。
4、关于数据去重
merge是可以做到数据的去重,但是在多个并发请求时,并不能保证唯一性,还是用关键词UNIQUE最好。
5、关于数据导入
- PERIODIC COMMIT 理论值为1000-10000行
- 尽量节点和关系分开导入,避免cypher出现饥饿加载模式,导致数据加载过多导致内存溢出
- 数据导入先导入部分数据,测试cypher的可用性及导入的速度。
- Merge会扫描所有的属性
Merge需要先检查是否有重复节点(扫描所有属性),然后再创建新节点,因此添加数据的速度比CREATE慢,适合初次导入使用
(6)仅使用一次Merge语句,比如创建人的节点,不要给每个属性分别Merge,然后就是Merge Key主键) - 使用Constraint 和 index,来提高搜索速度
- 使用Distinct来过滤数据,避免后续可能的笛卡尔积
- 设置Periodic commit来批量提交,可以尽可能多提交数据,但是不要超过内
- 导入命令脚本化:通过neo4j-shell完成导入操作
- Apoc Load CSV 命令只适合导入中等规模数据(千万级别)
- MERGE一般用于创建节点,对于关系要用CREATE
网友评论