Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Решил я как-то выгрузить пару лет переписки из Telegram в Apache Doris на своем компе. Зачем? Я тестирую Doris как единую систему хранения и поиска по всем личным данным: сообщениям из мессенджеров, ChatGPT, записям встреч и почте.

Первый запуск был болезненным: загрузка занимала почти 2 часа. После небольшой оптимизации пайплайна тот же сценарий дал другой результат: 206 400 сообщений за 5 секунд, то есть примерно 41 280 сообщений в секунду. Для контекста: каждое сообщение я грузил как JSON-массив.

В этот момент я подумал: «Окей, а что именно внутри Doris делает такую разницу между “2 часа” и “5 секунд”?».

И полез в исходники.

Но моего знания C++ не хватило, поэтому ассистировал мне GPT-5.3 Codex, Gemini и Opus 4.6

Часть 1: А что вообще такое Stream Load?

HTTP PUT вместо SQL, и почему это принципиально

В моей школьности нас учили загружать данные в базу через SQL.
Пишешь INSERT INTO ... VALUES(...), жмёшь Enter, ждёшь. Или, если данных много, используешь LOAD DATA INFILE или какой-нибудь bulk insert.

В Apache Doris есть другой путь: Stream Load. Это когда вы отправляете данные прямо через HTTP PUT как будто загружаете файл на сервер. Без SQL. Без парсинга запросов. Без оптимизатора.

curl --location-trusted -u root: \
    -H "format:csv" \
    -H "column_separator:," \
    -T data.csv \
    http://fe_host:8030/api/my_db/my_table/_stream_load

	Stream Load	Broker Load	INSERT INTO
Протокол	HTTP PUT	Thrift RPC (через Broker)	MySQL Protocol
Режим	Синхронный	Асинхронный	Синхронный
Источник	Локальные файлы, потоки	HDFS, S3, облачное хранилище	SQL-запрос, подзапрос
Рекомендуемый объём	До 10 GB	До сотен GB	Мелкие батчи
SQL parsing	Нет	Нет	Да, полный цикл
Основной use case	Real-time загрузка, ETL	Массовый batch import	Интерактивные вставки

Почему HTTP-загрузка в Apache Doris такая быстрая: разбор Stream Load по исходникам

Часть 1: А что вообще такое Stream Load?

HTTP PUT вместо SQL, и почему это принципиально

Три способа загрузки: кто есть кто

Часть 2: 14 шагов HTTP-запроса

Что происходит, когда вы нажимаете Enter после curl

Три метрики, которые расскажут всё

Часть 3: Streaming Pipeline — данные не ждут

Почему Stream Load не "disk-first"

Поток данных внутри Coordinator BE

Часть 4: Иерархия записи — от LoadChannel до MemTable

Самое интересное: как данные попадают на диск

MemTable: где живут данные до flush

Async Flush: конвейер не останавливается

Практические выводы: как получить скорость Stream Load и не устроить себе пожар

1. Убедитесь, что вы реально в streaming path

2. Для JSON не верьте в магию — выбирайте режим парсинга осознанно

3. Конкурентность: держите под контролем

4. Размер батча важнее красивых слов про HTTP

5. Настройка MemTable = баланс между мелкими файлами и таймаутами

6. Что мерить, чтобы не гадать

Что дальше

Внимание!