Инжиниринг Данных

Відкрити в Telegram

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Росія2 406 Технології та додатки399

2025 рік у цифрах snowflakes fon

23 475

Підписники

+124 години

+197 днів

+3330 день

6 057

Перегляди допису

~ 3 27024 години

~ 3 75748 годин

25.80%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

Еще одна бесплатная книга от O’Reilly - Understanding ETL Data Pipelines for Modern Data Architectures. Как раз в тему к прошлому посту о ETL✋

Показати все...

ETL book.pdf2.14 MB

❤‍🔥 39⚡ 1🐳 1

Фото недоступнеДивитись в Telegram

Всегда интересно следить за кругами Громова, в них можно найти инструменты, которые используют компании в РФ, в данном случае про ETL. «Круги Громова» представили новое исследование российского рынка ETL 2025 Как компании сегодня решают задачу импортозамещения в области интеграции данных? Какие отечественные ETL-решения уже готовы заменить западные продукты — и даже превзойти их? В новом исследовании «ETL Круг Громова 2025»: 🔹 Сравнение российских ETL-платформ с Apache Airflow и NiFi. 🔹 Подробный анализ функциональности и производительности отечественных решений, включая Modus ETL, Dat. ax, Loginom, PolyAnalyst, DATAREON Platform, Luxms Data Boring и другие. 🔹 Ключевые тренды 2025 года: ELT, Reverse ETL, CDC, Streaming, ZeroETL, AI-автоматизация. 🔹 Более 200 критериев оценки ETL-решений для корпоративного сектора — от архитектуры и безопасности до поддержки 1С и отечественных облаков. 🔹 Результаты выполнения вендорами тестового задания по загрузке 40 млн строк данных.

Показати все...

17🙊 9❤‍🔥 8

В статье 5 Things in Data Engineering That Have Changed In The Last 10 Years автор поделился как поменялась индустрия (западная) за последние 10 лет. 1) Компании хотят только сеньоров Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить. Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело. 🚶‍♀️ Все хотят хорошую зарплату и удаленную работу, но места на всех не хватит.😞 2) Cloud стал дефолтом Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем. Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только в получает несколько раз меньше. 🏆 3) Перестали писать кастомные пайплайны 10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля. Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса. 4) SQL победил Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд. Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.🙅‍♂️ 5) AI изменил рабочие процессы AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление. 100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI нас заменят, это имеют введу тех, кто не хочет или не может учится. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации. Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности. 🤟

Показати все...

💯 41🐳 24🌚 4🤷 1

Фото недоступнеДивитись в Telegram

Всех с пятницей или уже субботой!? Если вы думаете deploy or not deploy, то вам вам ссылка в помощь https://shouldideploy.today

Показати все...

💯 14🐳 8🫡 2❤‍🔥 1

Фото недоступнеДивитись в Telegram
Фото недоступнеДивитись в Telegram
Фото недоступнеДивитись в Telegram

В Сетке, соцсети для нетворкинга от hh ru, появились несколько интересных вакансий для специалистов в продуктовой и data-аналитике. Сервис удобный, аккуратный и даёт возможность писать нанимающим напрямую — без лишних формальностей. Вот три позиции, которые могут быть особенно полезны подписчикам канала: 1️⃣ Тимлид продуктовой аналитики в Lamoda https://set.ki/post/PNJKv9m Отличный вариант для тех, кто хочет развивать продуктовую аналитику в большом e-commerce и брать на себя лидерские задачи. 2️⃣ Аналитик-разработчик в команду конкурентной AI-аналитики Яндекса https://set.ki/post/5Y3BJYg Подойдёт тем, кому интересны задачи на стыке AI, больших данных и исследовательской аналитики. 3️⃣ Business Intelligence Head https://set.ki/post/7PmA9nj Роль для опытных BI-лидов, которым интересно выстраивать стратегию аналитики на уровне компании. Если кто-то как раз присматривает новое направление или хочет попробовать силы в сильных продуктовых командах, эти вакансии точно стоят внимания.

Показати все...

50⚡ 8

Отличный кейс из белого дома в США про сломанный пайплайн данных и утраченных продакшн данных - “Permanently impaired”: Trump administration won’t release economic data for October. Администрация Трампа отказалась публиковать экономические данные за октябрь (инфляция, безработица), ссылаясь на 40-дневный shutdown правительства, который помешал собрать статистику. Критики обвиняют в сокрытии: частные данные показывают потерю 150,000+ рабочих мест (худший октябрь за 20 лет), а Белый дом называет данные "навсегда утраченными", что беспрецедентно для США. Берегите ваши данные🤗

Показати все...

1🌚 32🙈 13

Случай из технического собеседования, где у меня была второстепенная роль. Собеседование рассчитано на 90 минут. 3 SQL и 3 Python упражнения. Из заметок во время собеседования: Коллега: оставляет комментарии, что кандидат не знает чего-то Я: давай закончим собес и отпусти кандидата (уже 15 минут идет собеседование) Коллега: мы должны до конца…. Я: ок (пойду пост в телегу напишу) И тут возникает вопрос? Ну зачем мучать кандидата, зачем тратить своем время? Возможно коллега переживает за репутацию компании и хочет, чтобы все было по правилам. Но по факту, он тратит свое, мое и кандидата время. Да еще кандидат узнает о провале только спустя пару дней. Жалко что common sense часто не работает. А как вы делаете? Обрубаете сразу или ~~терпите~~ сидите до конца?

Показати все...

💯 29👨‍💻 3

00:10

Відео недоступнеДивитись в Telegram

AI&ML в деле на AI DevTools Conf 🤓 4 декабря команда Cloud.ru проводит практическую конференцию — AI DevTools Conf. В программе доклады о создании AI-агентов, защите AI-систем и работе с DevOps-агентом. А тех, кто посетит конференцию офлайн ждут воркшопы, где вы научитесь: 😶‍🌫️внедрять AI-инструменты в процесс разработки 😶‍🌫️оценивать LLM-агентов 😶‍🌫️тестировать безопасность AI 😶‍🌫️и не только Места на офлайн-участие ограничены. Успейте зарегистрироваться

Показати все...

IMG_2034.mp42.48 MB

⚡ 4🌚 3🍌 1

Фото недоступнеДивитись в Telegram

Я еще не рассказывал про интересный опыт работы в большой Fortune 500 компании - Okta, целых 3 года. Большая американская компания, которая фокусируется на digital identity. Сама компания состоит из 2х больший компаний - Okta и Auth0. Это два разных продукта. Okta предоставляет workforce portal (аналог SSO), то есть портал для корпоративных сотрудников, чтобы логиниться во всевозможные сервисы - почта, календарь, бизнес приложения и тп. Такая же идея как Microsoft Active Directory, но свой продукт. Интересно есть ли в РФ такой аналог? Auth0 это продукт для разработчиков - форма аутентификации и авторизации. Например, вы создаете новое приложение и вам нужно как-то добавить возможность логина, сброса паролей, MFA и тп, чтобы было безопасно и масштабируемо. Вот Auth0 это абсолютный лидер в этом направлении. Каждый раз когда вы логинитесь в ChatGPT, Ikea, Starbucks - вы используете Auth0 (Okta). Сейчас даже тестирую для Surfalytics, там есть бесплатный tier. Okta купила Auth0 в 2022 за 6.5 миллиардов. Это именно тот пример, когда большая компания покупает лидера индустрии и убивает все хорошее что в нем есть. Именно культурно. Основании компании были из Аргентины и вайб там было что-надо. Поэтому каждое поглощение в индустрии не проходит не заметно для сотрудников и клиентов. Да и стоимость акции Окта с 2022 года так никогда и не отправилась. У меня было много интересных проектов связанных с Auth0, интеграцией между Okta и Auth0, создание customer facing решений, специфичные решения для OpenAI (особенно связанных с Rate Limit), коллаборация с ML/AI командами. Даже приходилось менять код самого продукта Auth0, чтобы собирать дополнительные события. Из смешного - это именно та компания, кто на меня наехала, когда я опубликовал танцующего Трампа в корпоративный слак и пришлось удалить, несмотря на то, что у них много государственных контрактов=) Я добавил архитектурный слайд, на котором видно множество сервисов, которые пишут данные в Snowflake. В Okta вообще 3-4 инстанса Snowflake и 1 Databricks.

Показати все...

🐳 23⚡ 6❤‍🔥 4🦄 1

Фото недоступнеДивитись в Telegram

А вот пример ответочки от инженеров, кого уволили! Надо бороться с капитализмом🤠

Показати все...

1❤‍🔥 42😭 22⚡ 9🐳 3🙉 1

Фото недоступнеДивитись в Telegram

Интересная заметка про PIP (Performance Improvement Plan) от человека, кто знает в них толк. Рассказывает механику. Лично я прошел 2 PIP за все время, у меня немного другой взгляд на PIP и на работу, поэтому для меня PIP обычно как EPIC (проект) в Jira. И как говорит автор - в нынешних условиях сокращений в компаниях PIP всё чаще превращается не в инструмент развития, а в формальность — элемент корпоративного театра. Горькая правда: сегодня я снова получил письмо с просьбой «помочь пройти PIP» (план по улучшению эффективности). Такие письма разбивают мне сердце, потому что шанс на успех почти нулевой. В то же самое время один из топ-менеджеров, с которым я работаю, рассказал, что последнюю волну сокращений они провели просто ускорив увольнение сотрудников, находящихся на PIP, — вместо того чтобы ждать окончания плана, их просто сократили. Бесперспективность ситуации очевидна. Один человек отчаянно пытается доказать, что он хороший сотрудник и может восстановить карьеру. Другому выдали квоту на увольнения, и, конечно, логично начать с тех, у кого уже есть документированные проблемы с эффективностью. Легко обвинить среднего менеджера, но давай заглянем в голову руководителя группы, когда речь идёт о PIP: 1. К тому моменту, когда непосредственный руководитель решает оформить PIP, он уже давно разочарован и пытался помочь сотруднику сам. Менеджеры знают, что запуск PIP — это тяжёлый, неприятный разговор, который испортит отношения. Поэтому до этого они обычно пробуют всё возможное: дают обратную связь, помогают, стараются добиться изменений. «Это последний шанс. Ничего больше не сработало. Может, это поможет, а если нет — хотя бы HR одобрит увольнение». Вот почему пройти PIP так сложно — менеджер обычно уже сдался. Конечно, есть исключения, но чаще всего PIP — это негативный шаг, к которому прибегают в последний момент. 2. В некоторых компаниях у менеджеров, HR и вышестоящего руководителя есть квота на «нежалеемые увольнения» — показатель, сколько сотрудников с низкой эффективностью нужно вывести из компании. На практике это означает: если признать, что человек на PIP заслуживает остаться, нужно найти кого-то другого на его место в этой «квоте». В такой нулевой сумме сотрудник на PIP должен не просто улучшить результаты, а настолько, чтобы менеджеру захотелось пожертвовать кем-то другим. 3. Для вышестоящего руководителя (skip-level) этот сотрудник часто почти незнаком. Допустим, сотрудник приходит и говорит: «Я хороший работник, я хочу остаться. Я давно здесь и хочу продолжать приносить пользу». Руководитель думает: «Если я поверю этому сотруднику, я противоречу своему менеджеру и признаю, что у него проблемы в управлении. Тогда мне самому придётся разбираться и, возможно, попасть под критику. А если я просто доверюсь менеджеру — он наймёт нового человека, и жизнь пойдёт дальше».

Показати все...

1😭 20⚡ 4🤷‍♀ 4💯 2🐳 1🤷 1

Отличной пост - DuckLake: Why Early-Stage Startups Should Stop Cosplaying as Netflix Идея заключается в том, что многие команды и компании строят iceberg lake house на максималках. Неважно, какой объем данных, какие требования. Сразу создают серьезную архитектуру с Kafka, распределенными вычислениями, каталогами и кластерами. В данной статье ссылаются на ducklake как простое и дешевое решение для вашего Iceberg Lakehouse. Обязательно надо будет попробовать.

Показати все...

❤‍🔥 10

Фото недоступнеДивитись в Telegram

Data Dojo | Москва | 27 ноября Это мероприятие Яндекса для сообщества ML-специалистов с обсуждением трендов, прикладных кейсов и разбором реальных задач из соревнований. Зачем участвовать: 💬 послушать выступления экспертов 💬 разобрать задачи вместе с сообществом 💬 узнать, как попасть на стажировку и начать карьеру ML’щика в Яндексе 💬 завести новые знакомства и зажечь на afterparty 👉 Заполняй форму до 16 ноября. Data-самураи действуют поодиночке, но учатся вместе. Присоединяйся.

Показати все...

1⚡ 2

01:04

Відео недоступнеДивитись в Telegram

Data Dojo | Москва | 27 ноября

Это мероприятие Яндекса для сообщества ML-специалистов с обсуждением трендов, прикладных кейсов и разбором реальных задач из соревнований.

Зачем участвовать: 💬 послушать выступления экспертов 💬 разобрать задачи вместе с сообществом 💬 узнать, как попасть на стажировку и начать карьеру ML’щика в Яндексе 💬 завести новые знакомства и зажечь на afterparty 👉 Заполняй форму до 16 ноября. Data-самураи действуют поодиночке, но учатся вместе. Присоединяйся.

Показати все...

1029(3).mp410.07 MB

🌚 3

Фото недоступнеДивитись в Telegram

Первый Data Sapience Data Day: дата, программа, регистрация Data Sapience объявляет о проведении первой масштабной конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний. В программе конференции: Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка: ▫️перспективам развития дата-ландшафта; ▫️влиянию искусственного интеллекта на управление данными; ▫️оценке готовности рынка (технологии/решения/компетенции); ▫️вопросам миграции в публичные облака. Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций. Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance. В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка. ▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️ Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия. Рекламодатель: ООО «Дата Сапиенс», ИНН 9701181979, ОГРН 1217700358083, Юр. адрес: 105064, Российская Федерация, г. Москва, ВН.ТЕР.Г. Муниципальный округ Басманный, Пер Нижний Сусальный, д. 5, стр. 19, этаж/пом. А1/ХI, ком. 12,13 erid: CQH36pWzJpq2KQtHrgMFXy92zBCDiSr4BgsGADo27vsqwQ

Показати все...

🌚 4⚡ 2

Фото недоступнеДивитись в Telegram

Сегодня у меня было первое собеседование с AI ботом 🤖 Идея была такая - как хобби устроиться junior AI инженером, чтобы сразу на деле все учить. Я нашел вакансию, сделал резюме и отправил. Мне сразу предложили пройти AI собеседование. Нужно было расшарить экран, включить видео и слушать как бот читает вопросы. Вопросы были про Fast API, прям теория-теория, что мне даже было скучно читать ответы из Gemini. Далее было про AWS и GPU, было уже поинтересней. И в конце задачка по Python. Компания предлагает сервис AI рекрутера. Можете тоже пройти AI собес 🔴 AI рекрутеры ищут fake кандидатов, и потом одни боты общаются с другими.

Показати все...

2🦄 35⚡ 10

Если вам вдруг надоел Apache Iceberg, то у вас есть возможность использовать Hudi. Источник: https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide Apache Hudi (Hadoop Upserts Deletes and Incrementals) — это формат хранения данных и фреймворк для управления большими наборами данных в дата-озёрах (Data Lake). Он добавляет поверх “сырых” файловых форматов (Parquet, ORC и т. д.) уровень управления записями — позволяет обновлять, удалять и инкрементально читать данные, как в базе данных, но с производительностью и масштабируемостью дата-озера.

Показати все...

Apache Hudi.pdf7.02 MB

⚡ 14🫡 2

Фото недоступнеДивитись в Telegram

Создатель SuperSet BI написал сегодня про свой новый продукт - agor Представь себе Figma, но для AI-помощников по программированию. Это система нового поколения для оркестрации (координации) AI-агентов, помогающих писать код. Многопользовательский пространственный слой, который объединяет Claude Code, Codex, Gemini и любые другие «агентные» инструменты кодинга в единую рабочую среду.

Коротко (TL;DR): Agor — это многопользовательское пространственное полотно, где можно координировать несколько AI-помощников по кодингу, выполняющих параллельные задачи. Оно поддерживает рабочие деревья, связанные с GitHub, автоматизированные «зоны рабочих процессов» и изолированные тестовые среды — всё это работает одновременно.

Можно визуализировать, координировать и автоматизировать AI-рабочие процессы между различными инструментами — как индивидуально, так и в команде. Agor предоставляет пространство, где можно управлять целыми «роями» AI-агентов. Вы можете скачать и запустить локально через Docker или npm. Дальше в настройках можно добавить API ключ LLM и подключить репозиторий и можно творить. https://github.com/preset-io/agor

Показати все...

🤷 16❤‍🔥 12⚡ 2👨‍💻 1

Наконец-то сделали нормальный гайд про то, как сделать ИИ агента на Python - Гайд: как сделать бота с индивидуальным характером на основе ИИ Без всяких там премудростей и терминологий. ИИ идет в народ. Клик клик и готово!

Показати все...

21🙈 13⚡ 7🙉 6🙊 5❤‍🔥 1🌚 1

Фото недоступнеДивитись в Telegram

Отличная идея как заполнить проблемы в резюме:)

Показати все...

1🦄 41🫡 20❤‍🔥 1🌚 1

Встигни отримати ❄️ власну Новорічну листівку зі статистикою за 2025 рік 👉 Отримати листівку

Инжиниринг Данных