John Два, помнишь я про spark спрашивал

by 3cats [86 Views] 2020-07-31 22:42:31


разобрался, амазоновское глю (glue) клевая штука для Spark
сделал проектик за неделю, задеплоил как надо, осталось мелочи поправить и хуяк - можно в продакшн

Но смотрю чет архитектеры и боссы не догоняют. Решил клевую презентацию сделать, жена подсказала идею сравнить самописные проги для анализа и ЕТЛ с aws glue - это типа как пытаться бензин дома из сырой нефти в otary evaporator перегонять, а потом с канистрами бегать - extract, transform and load …

Прям нашел картинки нефтеперерабатывающих заводов, канистры, все это клево замиксил c ETL и преобразованием сырого json в набор relational tables - мечта любого data scientist

Ну и че, архитекторы поохали и прошили продолжать писать ETL на чистом питоне, в Lambda

Целый месяц два с половиной делевлопера кряхтели, и в результате файл с 10k records около 15МБ занимает 5 минут в функции с 2GB… они там трёхуровневый цикл зауячили для left join который делает полный скан источников, бхаха

Теперь сидеть думают как добавить… индексирование

Я даже не знал смеяццо или плакать...
Reply | Private Reply | Sync | Thread | Like | Useful | Dislike | Trash | Report