Data Science
رفتن به کانال در Telegram
DS По всем вопросам- @haarrp @ai_machinelearning_big_data - machine learning @pythonl - Python @itchannels_telegram - 🔥 best it channels @ArtificialIntelligencedl - AI @pythonlbooks-📚 @programming_books_it -📚 Реестр РКН: https://clck.ru/3Fk3zS
نمایش بیشتر2025 سال در اعداد

41 303
مشترکین
-1424 ساعت
-577 روز
+17330 روز
آرشیو پست ها
Photo unavailableShow in Telegram
Что инженер данных должен уметь в Kubernetes?
➡️ Запускать Apache Spark
➡️ Деплоить распределенные файловые системы и базы данных
➡️ Разворачивать сервинг ML-моделей на KServe, Seldon Core, Bento+Yatai
9 декабря учебный центр Слёрм запускает новый поток курса «Kubernetes для разработчиков». Внутри — глубокий разбор куба с точки зрения приложения.
В программе:
🔸 Внутреннее устройство куба
🔸 Управление сервисами
🔸 Работа с кластером и управление кластером
ОБНОВИЛИ ПРАКТИКУ в августе 2024 года
🔸7 недель обучения
🔸7 встреч со спикерами
🔸76 часов практики и работы со стендами
🔸Итоговая сертификация
🎁 Видеокурс по основам Docker в подарок
Старт потока: 9 декабря
Изучить программу курса и занять место ➡️ по ссылке
Реклама ООО «Слёрм» ИНН 3652901451
Repost from Machinelearning
🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты.
OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.
Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.
В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.
OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.
OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.
▶️ Семейство моделей OpenCoder :
🟢OpenCoder-1.5B-Base, 4 тыс. токенов контекста;
🟢OpenCoder-8B-Base, 8 тыс. токенов контекста;
🟠OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста;
🟠OpenCoder-8B-Instruct, 8 тыс. токенов контекста;
▶️ Датасеты:
🟢OpenCoder-SFT-Stage1, 4.21 млн. строк;
🟠OpenCoder-SFT-Stage2, 375 тыс.строк.
▶️ Пример инференса на HF Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
messages=[
{ 'role': 'user', 'content': "write a quick sort algorithm in python."}
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)
result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Набор датасетов
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #OpenCoder #DatasetsPhoto unavailableShow in Telegram
Stanford “Probability Theory” lecture notes (PhD level)
📖 Lectures
@datascienceiot
Photo unavailableShow in Telegram
Collection of resources in the form of eBooks related to Data Science, Machine Learning, and similar topics
📖 Github
@datascienceiot
Photo unavailableShow in Telegram
Вот что ждет в Т-Банке аналитиков DWH, кроме ДМС, крутых офисов и других плюшек:
▪️Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
▪️Улучшения может предложить каждый. Здесь знают, как устроен продукт, и влияют на его развитие.
▪️Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
▪️Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.
Устраивайтесь в Т-Банк на позицию аналитика DWH до 23 декабря 2024 года и получайте приветственный бонус в размере одного оклада.
Photo unavailableShow in Telegram
Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML
Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.
Для кого будет полезен этот тренажёр?
Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике.
Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.
Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними.
Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.
🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и решать практические задачи.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот Ду-Ду с code review 24/7.
👉 Регистрация на демо-доступ
Photo unavailableShow in Telegram
FRONTIERMATH: A BENCHMARK FOR EVALUATING ADVANCED
MATHEMATICAL REASONING IN AI
📚 Read
@datascienceiot
Photo unavailableShow in Telegram
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Также после бесплатного курса вы получите карьерную консультацию и скидку до 50% для продолжения обучения на курсах-профессиях в Нетологии.
Присоединяйтесь бесплатно
Реклама. ООО "Нетология". Erid 2VSb5xxJ9Zi
Photo unavailableShow in Telegram
OPENCODER: THE OPEN COOKBOOK FOR TOP-TIER
CODE LARGE LANGUAGE MODELS
📚 Книга
@datascienceiot
Яндекс Игры пришли к нам с запросом:
SELECT *
FROM subscribers
WHERE channel_name = 'datascienceiot'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2
AND fit = true;
Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.
ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.
Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.
Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1Photo unavailableShow in Telegram
Machine Learning with PyTorch and Scikit-Learn Book
📚 book
@datascienceiot
Photo unavailableShow in Telegram
Теория и практика: A/B-тестирование для успешной аналитики ⭐
Бесплатный вебинар 6 ноября в 19:00 мск
Аналитик данных помогает бизнесу не ошибаться при принятии важных решений. А А/В-тесты - один из must-have инструментов, которые в этом помогают.
Если вы хотите разобраться в основах проведения экспериментов и научиться правильно проводить А/В-тесты, ждём вас на бесплатном вебинаре.
На реальных кейсах узнаем:
— Что такое A/B-тестирование
— Как выбрать гипотезу для тестирования
— Как определить метрики успешности
— Когда тест можно считать завершенным
и др.
🚶 Переходите и регистрируйтесь на бесплатный вебинар.
Photo unavailableShow in Telegram
Как ускорить обучение нейросетей и обработку данных?
С помощью мощных видеокарт GPU: RTX 2080Ti и RTX 4090. Они подойдут для решения сложных графических задач, обучения нейросетей и выполнения сложных вычислений в области ИИ
Арендовать и потестить эти видеокарты можно в Selectel — одном из ведущих российских провайдеров ИТ-инфраструктуры.
Что вы сможете при аренде облачного сервера с GPU в Selectel:
● Получить ресурсы для обучения ML-моделей
● Платить только за время использования — почасовая ставка от 29 рублей
● Использовать лучшее железо — к вашим услугам процессоры с частотами 2,4-2,6 Ггц
● Масштабироваться без проблем — мгновенный переезд на более мощную видеокарту
● Выбирать из широкого ассортимента GPU-карт — доступно 9 моделей под самые разные задачи
● Чувствовать себя спокойно — предоставляем бесплатную защиту от DDoS-атак.
Арендовать серверы с почасовой оплатой
Photo unavailableShow in Telegram
THINKING LLMS: GENERAL INSTRUCTION FOLLOWING WITH THOUGHT GENERATION
📚 Reed
@datascienceiot
Photo unavailableShow in Telegram
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее мероприятие:
• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.
Зарегистрироваться
