Apache Iceberg - фундамент современного Data Lakehouse
Что вы получаете с Iceberg
ACID‑транзакции и изоляция
Эволюция схемы без перезаписи данных
Эффективные UPDATE/DELETE
никаких «рваных» чтений во время записи
вы можете добавлять, переименовывать, удалять колонки
точечные изменения больше не требуют перезаписи целых партиций
возможность «откатиться» к любому состоянию таблицы
Скрытое партиционирование
Стандартизация через REST Catalog
Ветвление (branching) и теги
Iceberg сам управляет физической раскладкой по логическому правилу
любой инструмент, который поддерживает Iceberg, работает с каталогом без дополнительных коннекторов
дает возможность экспериментировать
с данными в изолированных ветках, как в Git
обновления записываются как отдельные файлы удалений/вставок
Iceberg — это не просто формат файлов, а полноценный табличный формат с ACID‑транзакциями,
контролем версий и эволюцией схемы. Он надстраивается поверх Parquet, ORC или Avro, добавляя критически важные возможности, которых нет у простого набора файлов.
Датафлот Репликация позволяет наполнять оба формата: Parquet и Iceberg