Quartz 4

❯

❯

❯

1个1TB 的大文件，每行都只是1个数字，无重复，8GB 内存，要怎么对这个文件进行排序

1个1TB 的大文件，每行都只是1个数字，无重复，8GB 内存，要怎么对这个文件进行排序

Sep 22, 20251 min read

todo

首先想到的是 MapReduce 的思路，拆分小文件，分批排序，最后合并。

Q：如何尽可能多的利用内存呢？

A：用位图法的思路，对数字按顺序映射。（对映射方法要有基本的了解）

Q：如果在排好序之后，还需要快速查找呢？

A：可以做索引，类似 Redis 的跳表，通过多级索引提高查找速度。

Q：索引查找的还是文件。要如何才能更多地利用内存呢？

A：那就要添加缓存了，把读取过的数字缓存到内存中。

Q：缓存应该满足什么特点呢？

A：应该使用 LRU 型的缓存。

外部排序

位图

Graph View

外部排序
位图

Created with Quartz v4.5.2 © 2025

鄂ICP备2025095675号-1

GitHub
Discord Community