Инжиниринг Данных

Открыть в Telegram

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Больше

Россия2 406 Технологии и приложения399

2025 год в цифрах snowflakes fon

23 475

Подписчики

+124 часа

+197 дней

+3330 день

6 057

Просмотры поста

~ 3 27024 часа

~ 3 75748 часов

25.80%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

Фото недоступноПоказать в Telegram

Слышали уже об Evolution AI Factory? На прошлой неделе провайдер Cloud.ru анонсировал коммерческий запуск единой среды для полного цикла работы с GenAI: от прототипа до продакшена. Что внутри: 😶‍🌫️20+ готовых LLM по OpenAI‑совместимому API 😶‍🌫️быстрый инференс своих и HF‑моделей 😶‍🌫️RAG по вашим данным и LoRA‑дообучение 😶‍🌫️облачные ноутбуки (JupyterLab / VS Code Server / ComfyUI / n8n) 😶‍🌫️конструктор AI‑агентов для мультиагентных сценариев Все это на российских серверах, с гарантированным SLA, поддержкой 24/7 и доступными ценами. Если ищете, где подружить данные, LLM и агентов без «зоопарка» сервисов, советуем присмотреться. Узнать подробности можно тут

Показать все...

13❤‍🔥 4⚡ 2🌚 2😭 1

Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram

Я решил не терять время зря и изучать GenerativeAI для задач дата-инжиниринга и начал с прикладного курса от Databricks. У них есть целая специализация с примерами и лабораторными работами. После них вы сможете лучше понимать задачи, связанные с embeddings, Vector DB, RAG, LLM deployment/serving и т.п. Конечно, это всё привязано к Databricks, и многие модели идут прямо из коробки. Получается, AI очень сильно завязан на инжиниринг данных. Вам также нужно собирать данные, парсить и хранить их. Писать к ним запросы, думать о масштабировании и безопасности. Пока каждый вендор разрабатывает свою версию реальности, но со временем всё устаканится и будет более понятно. Вчера уже видел курс от индуса про LLM для Data Engineering. На собеседованиях уже могут поинтересоваться, а как у вас дела с Cursor, Claude Code, MCP и делали ли вы AI-решения. Можно брать любой курс/специализацию от большого вендора + пару книг O’Reilly и это будет отличное начало. Скоро pet проекты будут вместо dbt+Postgres, VectorDB+LLMs PS Нашел репозиторий с примерами https://github.com/Weixin97/GenAI-with-LLM/tree/main

Показать все...

❤‍🔥 38🐳 6⚡ 4💯 1

Фото недоступноПоказать в Telegram

Хорошая статья - 3 levels of writing. Напоминает нам о важности использовать свой мозг. … Во-первых, ИИ останется с нами надолго. Мы должны использовать ИИ очень осознанно. Не меняйте свой долгосрочный рост на краткосрочную продуктивность. В мире, где все заняты тем, что используют ИИ для всей своей работе, будьте тем, кто использует мозг. Так же, как и мышцы, тренировка мозга требует целенаправленной практики. ИИ может помочь с исследованиями, корректировкой тона и проверкой ваших предположений. Но не заблуждайтесь, есть большая ценность в том, чтобы делать вещи "вручную" ради себя самого. Вы можете выбрать ходьбу пешком, даже если у в ас есть машина. Это занимает больше времени, но долгосрочная польза для здоровья того стоит. Кремниевый мозг раз за разом показывал, что может превзойти углеродный мозг: Deep Blue, AlphaGo, Watson и многие другие, которые появятся, поскольку массивные инвестиции в ИИ обязательно принесут результаты. Но это неважно. Это не соревнование. В эпоху массово производимого, персонализированного и "глубоко подделанного" синтетического контента вам понадобится ваш мозг в отличной форме. Забудьте об отличной форме. Просто поддерживайте его в текущей форме, и вы будете самым умным: 😂 ❌️ Результат работы ИИ часто ленивый, низкого качества и лишён опыта и мнения. Вы можете настроить промпт, чтобы придать ему больше характера, но это просто подделка следующего уровня. ✅️ Так же, как мышцы, мозг становится сильнее с тренировкой и использованием. Самая непосредственная опасность ИИ не в том, чтобы забрать наши рабочие места, а в том, чтобы сделать нас глупыми! ✅️ Отключайте автопилот, чтобы заставить себя думать. Поднимайтесь по лестнице, когда можете. ✅️ Используйте традиционные поисковые системы, чтобы находить ответы на проблемы и решения других людей, потому что это расширяет ваш разум и знакомит вас с более широким спектром идей, чем LLM будет кормить вас с ложечки. ✅️ Читайте книги, блоги и т.д., чтобы узнать, как другие решали проблемы, вместо того чтобы полагаться на ИИ, который пережёвывает коллективную мудрость для генерации красиво выглядящих решений. ✅️ И самое важное, пожалуйста, пожалуйста, пожалуйста, не выдавайте результат работы ИИ за свою работу. Это не только обманчиво и нечестно, но те, кто обладает критическим мышлением и не "припарковал свой мозг", видят это насквозь. Вы можете думать, что действуете умно, используя ИИ для эффективности, но 1) товар массового производства — это не преимущество, 2) то, что вы делаете со своим мозгом, эквивалентно потреблению ультра-обработанной пищи! По иронии судьбы, по мере повышения качества результатов работы ИИ, способность критически мыслить и связываться с человеческой стороной решения проблем становится ещё более важной. В битве между машинами и людьми всегда принимайте сторону людей. Люди следуют за людьми, покупают у людей и строят глубокие отношения с людьми. Всегда будут анекдотичные исключения (как японка, которая недавно вышла замуж за свой ИИ), но я ставлю против того, что такое поведение станет массовым. ИИ — отличный инструмент. Он помогает быстрее достигать результатов. Он генерирует массивный синтетический результат за долю времени, которое требуется для органического производства. Но когда дело доходит до итога, ему нужна система ценностей. А ценности создаются людьми. ИИ можно обучить генерировать ценности, но ИИ — это не мы: его вычислительная мощность не ограничена черепом, у него нет тела с нашими потребностями и желаниями. …

Показать все...

1💯 72❤‍🔥 19⚡ 3

Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram

Я уже писал про инструмент Agor, который позволяет управлять несколькими агентами одновременно без участия человека. Пока еще сыроват, но это реально выглядит как будущее разработки ПО и скоро инструменты будут разбивать ваш запрос на подзадачи и каждый агент будет играть свою роль. Вы уже можете сами протестировать подход https://agor.live/guide/spawned-subsessions#example-cross-agent-code-review

Показать все...

❤‍🔥 6🌚 2

Фото недоступноПоказать в Telegram

Вот это я понимаю народные цены. Ваше капучино дороже стоит, чем час с реальным дата инженером. Источник TopMate, где инженеры из Индии учат других инженеров за ~~еду~~ доллары.

Показать все...

🐳 27❤‍🔥 1

Недавно появился новый тренд. Точнее он появился давно, но о нем стали говорить лидеры AI - дата центр в космосе. Уже одна компания Star Cloud (backed by Nvidia и Sam Altman) запустила свой первый спутник с GPU, есть и другие игроки на рынке, кто делает bet на космические дата центры, так как на земле не хватит энергии для AI. Примеры из новостей и игроки: - Starcloud-1 satellite reaches space, with Nvidia H100 GPU now operating in orbit - Интервью CEO Starcloud - Exploring a space-based, scalable AI infrastructure system design от Google Research - How I told a CEO his data centre was obsolete. - Jeff Bezos Creates A.I. Start-Up Where He Will Be Co-Chief Executive - Elon Musk is making it clear that the only path to the kind of energy AI will need is space. Построить дата центр в космосе звучит нереально. Но также говорили про многочасовые ракеты, спутниковый интернет и многое другое. Как вы думаете, какие уникальные кейсы могут быть в космосе с использованием вычислительных мощностей и GPU? Например есть известная компания Varda, которая был backed by Питер Тиль. Это компания решает уникальные проблемы - забирает материалы на земле и дальше работает с ними в космосе, так как в космосе состав материала изменяется и его можно дальше изучать, на земле такое просто не возможно.

Показать все...

1🌚 8🐳 3❤‍🔥 2

Фото недоступноПоказать в Telegram

dltHub - инструмент для интеграции данных (open source). Он не очень популярный, но про него всегда отзываются хорошо. Был бы там еще коннектор к 1С, было бы совсем замечательно. Они выпустили классный курс - Deploy dlt pipelines, в котором показывают как пользоваться dlt с Airflow, Prefect, Dagster, Modal, Kestra (инструменты оркестрами) Так же есть и базовые курсы: dlt Fundamentals dlt Advanced Freecodecamp: Data Engineering with Python and AI Кто-нибудь использовал в продакшн?

Показать все...

❤‍🔥 22⚡ 8

Фото недоступноПоказать в Telegram

Сейчас LinkedIn заполнен 3мя типами контента: 1) все рассказывают про Toon, какой замечательный дата формат, и как он экономит токены. Но все, кто про него пишет, его даже не использовали. Я вот тоже написал здесь и тоже не использовал. 2) Несмотря на то, что Nvidia опубликовала свои доходы в + и все выдухнули - пузырь еще не дозрел, но сегодня весь рынок красный. Знающие люди делаются инсайдами. 3) Если контент на русском, то часто народ жалуется на рекрутеров, рекрутеры жалуются на соискателей и обязательно с приложением скринов переписки. И еще будут посты о том, как кто-то кому-то помог найти работу. И чтобы вы подумали? Скриншоты и пруфы приложены🍪🍪 А что вам там попадется?

Показать все...

4❤‍🔥 34🙈 9🤷‍♀ 2😭 1

Фото недоступноПоказать в Telegram

Snowflake уже настоящая unified платформа с возможностью грузить данные из API. Так и fivetran не нужен будет. И еще в Snwoflake можно хостить бесплатно dbt core и создавать крутые Python Apps на Streamlit (BI). ML и AI там тоже есть.

Показать все...

💯 24⚡ 7❤‍🔥 4🙉 1

00:11

Видео недоступноПоказать в Telegram

VK RecSys Challenge: проверьте свой алгоритм в деле! В самом разгаре ежегодное соревнование по разработке рекомендательных систем от VK — RecSys Challenge 2025. Участникам предстоит решить одну из самых сложных проблем в мире рекомендаций: задачу холодного старта. Суть соревнования — построить модель, которая предскажет, кому из пользователей понравится новый клип, даже если его ещё никто не видел. Что ждёт участников: • Реальные данные — датасет VK-LSVD с 40 млрд взаимодействий и 20 млн коротких видео • Можно участвовать соло или в команде до 4 человек • Техническая свобода — до 5 сабмитов в день, возможность экспериментировать • Общий призовой фонд — 2 500 000 рублей Приглашают студентов, исследователей, ML-инженеров — всех, кто хочет испытать свои силы на реальных данных и создать алгоритм, который работает в условиях, максимально приближенных к контентной жизни. Регистрация открыта до 15 декабря. Успейте подать заявку, скачать датасет и начать эксперименты! 👉 Подробности и регистрация на сайте

Показать все...

1118 (1).mp414.37 MB

13🌚 2

Фото недоступноПоказать в Telegram

Яндекс — место, где наука и бизнес работают вместе. Мы превращаем исследования и аналитические данные в реальные продукты для миллионов пользователей. Сейчас мы ищем сильных аналитиков — с опытом на Python от 3 лет. Участвуйте в Weekend Offer, чтобы пройти все собеседования и получить офер всего за 2 дня. Как всё устроено: • Подайте заявку до 3 декабря. • Пройдите технические секции 6 декабря. • Познакомьтесь с командами и получите офер 7 декабря. На сайте собрали все подробности — читайте по ссылке и регистрируйтесь: https://yandex.ru/project/events/wo-analytics-1225

Показать все...

11🐳 7🌚 5⚡ 2

https://github.com/mfontanini/presenterm Наконец модно и презентации делать в Markdown

Показать все...

❤‍🔥 21⚡ 1

8. Будущее data engineering • Роли будут требовать знания языков за пределами Java/Scala/Python/SQL • Компании понимают, что проблемы не в объеме, а в governance и качестве данных • Эволюция open table форматов • GenAI не заменит junior-ов — младшие инженеры лучше работают с ИИ и учат seniors Ключевая мысль: Staff engineer имеет "outsized impact" (непропорционально большое влияние). У всех одинаковое количество часов, и все кодят с примерно одинаковой скоростью. На определенном уровне важнее становится ЧТО вы кодите, а не скорость: • Находить проекты, двигающие бизнес вперед • Помогать бизнесу убирать неопределенность • Предотвращать выбор решений, которые будут стоить миллионы и потребуют миграции через 18 месяцев Мне очень понравились рекомендации, и я полностью с ними согласен. Очень четко сказано, что важно быть гибким и мягким. С этим сложно, если у вас низкий порог терпимости к глупости коллег и не хватает терпения на бюрократию. Но, к сожалению, уже давно факт, что в корпоративной культуре любят не умных/быстрых, а удобных и послушных. Надо быть такой нянькой-душкой и медленно, но верно продавливать свою позицию и заручаться поддержкой коллег. То есть при желании можно вырасти до уровня Staff, но вам придется переступить через свое эго. И тут еще возникает одна загвоздка — финансовое вознаграждение. Давайте посчитаем на примере канадского рынка. Staff data engineer — зарплата $250k в год. При этом вам все будут говорить: "Ну ты же Staff, ты должен и то, и это" — и надо тащить. Ведь обычно позиция Staff встречается в больших организациях со сложной оргструктурой, и там за 5 минут уже ничего не накодить. Любое изменение — это боль и множество встреч и согласований, очень часто без common sense. Иными словами, ожидания высокие, а работу сложно измерить в строчках кода, метриках или еще чем-то. И обычно расти после Staff особо некуда, скорее всего это в people manager, но туда можно и сразу перейти без Staff. А вот возьмите Senior DE. Вилка $160-180k в год. Как правило, скоуп понятен — берешь и делаешь. И еще остается много времени на личные проекты или внешние проекты, где вы можете заработать еще столько же — $160-180k в год. Поэтому вот не все так однозначно. Но если вы Staff в FAANG, то там кроме базы у вас появляется жирный бонус, и чем выше грейд, тем выше бонус. И сама организация достаточно большая, чтобы был хороший impact. Поэтому у всех есть выбор — зарабатывать деньги или отправиться в корпоративное приключение в поисках карьерной лестницы.

Показать все...

⚡ 24❤‍🔥 14

Полезная статья - What It Really Takes to Move From Senior to Staff Data Engineer. Staff в РФ не очень распространено. Я знаю Т-Банк активно развивает это направление. Но по факту team lead это тот же staff инженер. Я работал как Staff DE 3 года и прочитал базовые книжки про Staff Engineer, их всего 2: The Staff Engineer's Path и Staff Engineer. Как обычно перевод и summary от AI. Сегодня это Raycast и Antropic API key. В последнее время я решил заморочиться на всякие горячие клавиши и спустя больше чем 10 лет прошел с touchpad на мышку Logi MX Master 3s. Надоело флексить с тачпадом и теперь у меня мышка с множество горячих клавиш и одна из них как раз AI чат. У Logi даже есть утилитка для chatGpt, чтобы редактировать свои сообщению в нужный стиль. Эта статья — интервью с Брайаном Фемиано, staff data engineer в Apple, о том, что реально нужно для перехода с уровня Senior до Staff Data Engineer. Основные темы: 1. Карьерный путь • Брайан занимается data engineering почти 20 лет, 9 из них на уровне staff • Ключевой момент карьеры: когда он взял на себя организацию работы (JIRA, документация, разблокировка коллег, коммуникация со стейкхолдерами) 2. Разница между Senior и Staff Это не резкий переход, а постепенное развитие: • Senior может оставаться в зоне комфорта и хорошо выполнять задачи • Staff развивает некодинговые навыки, которые делают других разработчиков лучше: ▪ Создание диаграмм систем и runbook'ов для on-call ▪ Хорошие отношения с продуктовыми командами ▪ Понимание влияния изменений на другие команды • Staff приходится чаще переключаться между контекстами в течение дня 3. Заблуждения о Staff титуле ❌ Что вам НЕ нужно: • Быть самым талантливым разработчиком в команде • Вписываться в "архетипы" как классы в RPG • Прыгать между работами для получения титула 4. Главные блокеры для перехода в Staff • Плохая коммуникация или агрессивность • Негибкость, неспособность видеть большую картину • Чрезмерная фокусировка на инструментах/языках • Не строить системы для долгосрочного здоровья и качества 5. Сигналы, которые нужно показывать • Менеджеры и коллеги знают, что вы мыслите холистически о системах • Оформляете мысли в диаграммы и хорошо принимаете фидбек • Поддерживаете команду во время кризисов • Делаете себя незаменимым, но НЕ через силосное знание или постоянный героизм 6. Технический дизайн и системное мышление Процесс проектирования: • Сразу рисуйте диаграммы • Что уже существует и может помочь? • Довольны ли мы этими системами или это шанс рефакторить? • Какой минимальный набор новых возможностей нужен? • Можем ли использовать существующие библиотеки? • Есть ли узкие места при росте нагрузки? • Нужно ли постоянное ручное внимание или это автоматизировано? Что делегировать: • Лиды не должны быть на критическом пути • Если берете слишком много — задерживаете проект и лишаете команду роста • Доверяйте важные области команде • Помогайте избежать перегрузки Пример простого решения: В Pandora хотели уведомлять артистов о добавлении песен в плейлисты. Вместо real-time email (много компромиссов), после обсуждения с продуктом поняли, что артистам не нужен real-time. Построили минимальный набор компонентов для батчевой отправки. Работает до сих пор. 7. Коллаборация и коммуникация С менеджментом: • Будьте лаконичны и своевременны С продуктом: • Задавайте вопросы, делайте заметки • Повторяйте их слова своими словами С инженерами: • Давайте детали и ясность • Повторяйте много раз при необходимости • Проявляйте терпение Создание комфортной среды: • Будьте дружелюбны и не осуждайте • Приоритизируйте помощь для разблокировки • Давайте кредит коллегам за их идеи Design docs: • Начните с 3-5 предложений: что строим и какая бизнес-польза • Укажите всех вовлеченных • Фокус на диаграммах, показывающих как части соединяются • Важна не красота, а легкость понимания

Показать все...

❤‍🔥 24⚡ 11🙈 2

Интересная статья - LLMs: The Illusion of Thinking, в которой рассказываю про LLM и насколько это далеко от реального искусственного интеллекта. Некоммерческие лидеры мнений тоже про это говорили. LLMs: The Illusion of Thinking — краткое резюме 1 LLM создают иллюзию мышления, но не обладают пониманием, сознанием или намерением. 2 Они предсказывают слова по статистике, а не рассуждают логически. 3 Галлюцинации и уверенная ложь — системная проблема всех моделей. 4 На сложных задачах (пример: Tower of Hanoi) модели полностью ломаются, даже если знают алгоритм. 5 Chain-of-Thought не является реальным мышлением — часто рассуждения неверные, но ответ случайно правильный. 6 LLM путают факты и смешивают источники (пример: объединение двух разных авторов). 7 В программировании LLM часто создают “циклы безумия”, когда исправления снова вводят ошибки. 8 Бенчмарки, которыми хвастаются создатели моделей, сильно завышены и некорректны. 9 В образовании растёт проблема массового списывания, ценность дипломов падает. 10 LLM — полезны как ассистенты, но должны применяться только с внимательным контролем человека и не являются AGI. Возможно и правда GenAI в текущей реализации нас не заменит, но очень помогает делать свою работу лучше. А как вам кажется?

Показать все...

💯 44🐳 9

Фото недоступноПоказать в Telegram

Welcome Time | Москва | 23 ноября Яндекс организует очное мероприятие для специалистов в области аналитики и дата-сайентистов в своей штаб-квартире. Участники смогут познакомиться с особенностями работы команд аналитики в масштабном ecom-проекте. Что вас ждёт на встрече: 💬 открытый диалог с экспертами Яндекса — задавайте любые вопросы; 💬 разбор реальных кейсов из практики Яндекса; 💬 погружение в мир e‑com аналитики: от товарной базы до продуктовой аналитики в Поиске; 💬 диагностика навыков, которую, при успешном прохождении, на 2 года засчитают как техническую секцию. 👉 Чтобы попасть на встречу, заполните форму по ссылке. Подробности о мероприятии на сайте. Аналитика — это не только цифры, но и люди, которые ими живут. Приходите пообщаться и обменяться опытом.

Показать все...

8❤‍🔥 2⚡ 2🐳 1

Фото недоступноПоказать в Telegram
Фото недоступноПоказать в Telegram

Нашел классную имплементацию учебных материалов по Data Engineering и других смежных специальностей. Мне понравилась механика сайта и как сгруппированы задания. Единственный минус это сам контент, точнее отсутствие контекста. Если я посмотрю дорожную карту для дата инженера, то найду там все как полагается - git, bash, cli, python, MPP базы данных, облака и тп. Но нет контекста, зачем и почему. А как реально работают инженеры данных, где 20%, которые дадут 80% результата. То есть работу мы не найдем, если пройдем курсы и порешаем задачки. У меня в Surfalytics все наоборот, где фокус только на результат и контекст через конкретные измеряемые действия, но пока что нет такой красивой обложки, все на словах в полу-ручном режиме. За сайт, дизайн и механику - 5. За возможность стать дата инженером (или любая другая специализация) - 2. https://prepare.sh/interviews/data-engineering

Показать все...

👨‍💻 14🫡 5🙈 2

Фото недоступноПоказать в Telegram

Компании поняли, что давать всем безлимитный доступ к AI помощникам может быть очень дорого и начали вводить квоту - 100$ в месяц на инженера. Я сам видел примеры таких ограничений Cursor и Claude Code. Недавно видел кейс, когда в месяц был лимит 35к$ на команду. В итоге лимит исчерпали и CI не смог отработать и заблочил merge для всех, пришлось руками менять правила. Поэтому картинка в тему:)

Показать все...

🙈 58❤‍🔥 6🌚 4🤷 2🍌 1🙉 1

Приглашаем в канал AI Inside Канал для тех, кто смотрит на искусственный интеллект не как на хайп, а как на рабочий инструмент. Здесь нет абстрактных теорий — только прикладные решения. Что вас ждет: ✔️ Технологии: расскажем, как ИИ решает реальные бизнес-задачи — от автоматизации до аналитики. ✔️ Кейсы: покажем успешные примеры внедрения и использования ИИ-инструментов. ✔️ Экспертиза: объясним сложные технологии простым языком с фокусом на практическую пользу. Наша цель — дать конкретные идеи и инсайты, которые можно применить уже сегодня. Присоединяйтесь к сообществу практиков!

Показать все...

🍌 7

4⚡ 3

Фото недоступноПоказать в Telegram

Где найти актуальную информацию о соцсетях бесплатно? Мы давно задавались этим вопросом и, кажется, нашли ответ! Компания FlyByMetrics занимается исследованиями и аналитикой русскоязычного сегмента соцсетей. У ребят своя база данных по 1 000 000 блогов на 7 платформах. По любому блогеру, каналу или сообществу вам могут выгрузить нужные показатели под заказ. А в своем канале FBM API Insights делятся полезными исследованиями бесплатно. Аналитика от FlyByMetrics будет полезна каждому, кто работает в диджитал и хочет знать о наиболее актуальных трендах первым. Подписывайтесь! ↖️

Показать все...

❤‍🔥 6⚡ 2

Успейте получить ❄️ свою новогоднюю открытку со статистикой за 2025 год 👉 Получить открытку

Инжиниринг Данных