• 上亿的爬虫数据要存储用什么数据库比较好?
  • 发布于 2个月前
  • 283 热度
    6 评论
本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。各位大神存储上亿的爬虫数据都是用的什么数据库呀?

用户评论
  • 双人剧
  • 表结构、索引、查询语句先提供出来,要看你的需求场景是否是 mysql 擅长的,任何数据库都有自己擅长的领域,如果实在是需求和数据不匹配的话,才需要去考虑换数据库,换数据库还会有数据迁移的问题,上亿数据的迁移方案你有考虑过吗?
  • 2024/5/15 16:01:00 [ 0 ] [ 0 ] 回复
  • 月下无痕
  • 亿级就慢了吗?我用的阿里云的 rds mysql 的 1H1G 的入门款,有个表三四亿的数据量感觉也没啥影响。。不过我没啥联表的操作。
  • 2024/5/15 15:50:00 [ 0 ] [ 0 ] 回复
  • 只剩骄傲
  • 不知道数据特性和数据结构,是否经常删改,经常聚合分析,使用场景也不清楚 不好推荐。我们在用 Clickhouse, 朋友在用 StarRocks 。可以了解对比一下。
  • 2024/5/15 15:45:00 [ 0 ] [ 0 ] 回复
  • 肆战作王
  • 索引质量低导致查询慢,索引太多导致插入慢,换 DB 可能解决不了你的问题,你还是要从数据库结构设计方面着手,比如采用分库分表策略,MySQL是当今市场上最为主流的数据库之一,亿级的数据应该是可以应付的。
  • 2024/5/15 15:39:00 [ 0 ] [ 0 ] 回复