fa
Feedback
эйай ньюз

эйай ньюз

رفتن به کانال در Telegram

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow

نمایش بیشتر
2025 سال در اعدادsnowflakes fon
card fon
84 449
مشترکین
+4524 ساعت
+317 روز
+61430 روز
آرشیو پست ها
Photo unavailableShow in Telegram
Техрепорт FLUX.1 Kontext — как FLUX работает с референсами За основу взяли привычную архитектуру FLUX.1, которую со второй версией практически не изменили. Модель дообучают с той же rectified-flow loss на парах результат | референс+текст. Каждый референсный кадр превращают в визуальные токены, ставят их перед целевыми, а 3D RoPE эмбеддинги (привет видео моделям) сдвигают на фиксированный шаг, который отделяет контекст от результата. Попытка сшивать каналы вместо токенов работала хуже, поэтому от неё отказались. Плюс такого механизма — референсов может быть несколько и они неплохо скейлятся. FLUX.1 Kontext поддерживал лишь один референс, а FLUX.2 поддерживает уже до 10. Но умельцы и во времена Kontext находили способ засовывать несколько референсов — просто склеивали несколько картинок в одну. Что победит — такой механизм перекликающийся с видеомоделями или просто засовывание изображений в контекст как у Nano Banana/GPT-Image, ещё не очевидно. Nano Banana Pro хоть и лучше по качеству, но вопрос сколько из этой разницы идёт от архитектуры, а сколько просто из громадного скейла Gemini 3 Pro. Ну и ведь всегда могут появится ещё и новые варианты работы с референсами. Техрепорт @ai_newz
نمایش همه...
star reaction 1👍 48 25🔥 8💯 2🤩 1
Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual Try-On, Яндекс выкатил свой ответ — агента в приложении Маркета (работает только в мобилке). Простой, но, кажется, даже более практичный и, главное, доступный уже сейчас. Агент в чате подбирает товары, всё до боли банально. Но фишка в том, как он использует картинки. Да, можно залить фото продукта и получить похожие — это база. Но главная возможность — прислать своё фото и получить подборку под свой стиль или интерьер. Правда, насколько хорошо это работает в действительности, пока не совсем понятно. Ещё он может находить товары в единой палитре и пр. Похоже на RAG или неплохой тюн на поиск по товарам. В теории, всё это может и любой другой чат. Но здесь решает глубокая интеграция с базой данных Маркета, что в теории должно давать лучшие результаты. В целом, это интересный продуктовый ход. Если Google фокусируется на отдельных технологических фичах вроде виртуальной примерки, то Яндекс встроил именно разговорного ассистента, который решает разные задачи в одном чате. @ai_newz
نمایش همه...
😁 136👍 34 14🫡 13🦄 10🤯 6🔥 4💔 2
Repost from Denis Sexy IT 🤖
Илья дал большое интервью: https://www.youtube.com/watch?v=aR20FWCCjAs Вот главное: – Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях – Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит – Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.). – Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки» – Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах – Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет) – Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем – В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение – Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию – Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений – Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления – Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок – SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
نمایش همه...
123👍 62🔥 27😁 10🦄 5❤‍🔥 2
00:54
Video unavailableShow in Telegram
😮 Black Forest Labs выпустили FLUX.2 Судить о качестве картинок уже почти нет смысла — с фотореализмом всё было хорошо и у первого Flux. Теперь решает возможность быстро, без заморочек, а главное, консистентно редактировать изображения. И тут уже начинается прямая конкуренция с Nano Banana Pro, которая очень высоко задрала планку. Черипики, конечно, хорошие, но то, насколько Flux.2 послушно редактирует картинки, можно будет проверить только на практике. Настораживает, что нигде не показали, как модель генерит новые ракурсы, а это чуть ли не главная фишка моделей нового поколения с LLM под капотом. Ещё очень интересно, как обстоят дела с разными стилями рисовки. Первая версия их очень не любила и целиком опиралась на LoRA, что отчасти исправили с Kontext. В новой версии работу с референсами ещё сильнее прокачали, но опять же, нужно тестить. У модели 32 миллиарда параметров, в качестве энкодера используется Mistral 3 24B. Идёт в трёх версиях: pro, flex и dev. Веса dev-версии уже опубликованы на 🤗 с некоммерческой лицензией. Скоро обещают выпустить ещё и дистиллированную klein с Apache 2.0. Потестировать можно здесь. Веса[dev] Блогпост @ai_newz
نمایش همه...
flux2.mp46.67 MB
69🔥 39👍 21😁 7
Photo unavailableShow in Telegram
Claude Opus 4.5 Anthropic выпустили Claude Opus 4.5. Я ей уже успел попользоваться, мне понравилось. Модель SOTA на всех бенчах связанных с кодом — обходит и Sonnet 4.5 и Gemini 3 Pro и GPT 5.1 Codex Max (OpenAI продержались всего пару месяцев, после чего опять начали портить нейминг). Самое интересное —цена, токены Opus 4.5 стоят в 3 раза дешевле чем у прошлых моделей — $5 за миллион токенов на вход и $25 на выход. Это первый раз когда Anthropic напрямую снижает цену на свои модели, при том что другие провайдеры делают это регулярно. Видимо Opus, при цене $15/$75, всё таки использовали меньше чем хотелось и пришлось поумерить аппетиты. Компания заявляет что Opus 4.5 использует на 76% SWE-bench Verified и на 48% меньше чтобы полностью его побить. Но тесты Artificial Analysis показывают иную ситуацию — судя по ним Opus 4.5 использует больше токенов на ризонинг по сравнению и с Opus 4.1 и с Sonnet 4.5. Но повышенного использования токенов не хватает чтобы перебить снижение цены, Opus 4.5 в два раза дешевле в использовании чем 4.1. В API добавлен параметр effort для управления сложностью рассуждений. Кроме этого улучшили тулколинг — добавили инструмент для поиска инструментов и нативный способ показывать примеры использования тулов. А Programmatic Tool Calling даёт возможность вызывать инструменты через код в песочнице, обрабатывая промежуточные результаты без их попадания в контекстное окно модели. Фронтирные лабы запустили апдейты своих основных моделей, теперь месяц-другой должно быть потише. Ну это, конечно, если Google не решит выпустить Gemini Ultra. @ai_newz
نمایش همه...
star reaction 1 98👍 32🔥 21😁 3🙏 1
Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата. Голоса теперь собираются не из «универсального диктора», а из специализированных моделей: Freespeech для живого общения, голоса операторов колл-центров, подкастная и классическая дикторская подача. В результате ассистент говорит ближе к человеку, а не к автоответчику — со вздохами и с более естественной интонацией. Технически это полностью свой стек: GigaChat 3b в роли языковой модели, кастомный токенизатор звука и авторегрессионный синтез вместо диффузий. Команда отдельно поработала над токенизацией речи, системными промптами для стиля голоса, учетом длинного контекста и клонированием — за счёт этого новый синтез сильно обгоняет прошлое поколение по внутренним метрикам качества и естественности. На фоне конкурентов типа Алисы упор идёт не на «дикторский» голос, а на живость и выразительность речи. Статья на хабре @ai_newz
نمایش همه...
121😁 90🔥 26🫡 17👍 10🤯 8🦄 7🙏 4😱 1
00:53
Video unavailableShow in Telegram
OpenAI сделали DeepResearch для шоппинга С высоты птичьего полёта shopping research это тот же Deep Research — система задает уточняющие вопросы, после чего прочёсывает интернет и выдаёт результаты. Главное отличие — во время поиска shopping research работает интерактивно: показывает найденные товары в реальном времени, а пользователь отмечает что ему нравится, а что нет, таким образом направляя поиск. Внутри — тюн GPT-5 mini, который научили шоппингу. Говорят что она в подборе товаров лучше чем GPT-5 Thinking, но я всё равно надеюсь что версия с большой моделью не заставит себя долго ждать. Функцию уже раскатывают на телефонах и в вебе на всех зарегистрированных пользователей ChatGPT. Причём перед праздниками лимитов практически нет, даже для бесплатных пользователей. @ai_newz
نمایش همه...
shopgpt.mp46.31 MB
star reaction 2🔥 112😁 45 17🦄 12👍 9😱 3
Как генерить презентации? Продолжение рубрики с обзором AI продуктов. Я рассматривал инструменты с точки зрения человека, которому нужно время от времени сделать презу на скорую руку. Он не разбирается в дизайне, но хочет, чтобы было красиво и бесплатно. Думаю, для профи топ будет примерно таким же, особенно учитывая возможность экспорта в PPTX. Сначала про пайплайн. Во всех этих инструментах есть функция "превратить документ в презентацию", но работает она непредсказуемо и часто плохо. Лучше так: сначала готовим текст для слайдов в Gemini (или в локальной LLM, если боитесь, что Google украдёт ваши гениальные идеи), получаем чёткие bullet-points, и уже с этим текстом идём в генераторы. Gamma Самый надёжный и удобный. Есть разные режимы обработки текста, в том числе "оставить как есть" и "сократить" (при этом он не переписывает, а именно вырезает ненужное, сохраняя авторский стиль). Шаблоны красивые, палитр много, а главное — удобный интерфейс для ручной доработки. За раз делает до 10 слайдов, но остальные можно легко догенерить при редактировании. Есть даже агент для массовой обработки презентации по промпту. Лимиты щедрые. Manus Интересен тем, что бэкэнд у него на HTML, что даёт больше возможностей для инфографики. Хорошо работает с таблицами и визуализацией данных. Он всё же напортачил местами с вёрсткой, но это исправляется одной кнопкой regenerate (там это называется smart optimize). Genspark в этом плане постабильнее. Минусы: мало своих шаблонов (хотя Neon Cyberpunk симпатичный), но можно загрузить свой. Есть экспорт в Google Slides c некоторыми ограничениями, лимиты очень щедрые. Genspark В целом, всё то же, что и у Manus, но с более гибким редактором. Тоже отлично работает с визуализацией данных, но шаблонов совсем мало. Третье место только потому, что у него нет неонового 😂. К тому же, без подписки нет нормального экспорта (а делать скриншоты — это не наш метод). Chronicle Очень красивые и стильные шаблоны, хоть их и мало. Картинки сам не расставит и даже в инфографику не умеет. Но шаблоны настолько стильные, что его нельзя пропускать. Идеально для минималистичных, чисто текстовых презентаций. Остальные (пока сыроваты, но следить стоит): - Snapdeck: Делает очень прикольные схемы, диаграммы и таблицы. Хорош в визуальном повествовании, но сыроват — нужно руками фиксить отступы. Кстати, бесплатных токенов хватило только на 12 слайдов. - Figma: Редактирует только промптом, при этом токенов хватает лишь на пару запросов. Пока неюзабельна из-за багов в коде презентации и невозможности экспорта в PDF/PPTX. Бонус! Napkin: Это не генератор презентаций, но он интересно визуализирует данные. Это именно то, чего не хватает Chronicle, но по стилю они несовместимы, а жаль — была бы идеальная синергия. PS: NotebookLM Чуть не забыл! Весь тот же текст презы можно залить в NotebookLM и попросить его сделать видео с вашей презентацией. Получаются сходу хорошие слайды. Работает на русском, есть разные стили. Важно добавить правильный промпт, например, present this pitch deck like a founder, чтобы он именно *презентовал*, а не объяснял содержимое. Плюс сразу готовый текст, а то и сам питч. Подойдёт для вдохновения. PPS: Для креативных маньяков Все слайды потом можно прогнать через Nano Banana Pro и дико стилизовать. После того как я увидел презу от NotebookLM в стиле аниме (там есть такой шаблон), захотелось по приколу весь свой питч-дек перегенирить в стиле Attack on Titans. Итог: Gamma — лучший универсальный инструмент. Manus и Genspark — для тех, кому важна визуализация данных. Остальные пока сыроваты, но следить за ними точно стоит. @ai_newz
نمایش همه...
Meet the New Gamma Agent.mp48.36 MB
Introducing Manus Slides.mp47.27 MB
Create Slide Decks in Seconds—Meet Genspark AI Slides.mp414.65 MB
Meet Chronicle_ Create stunning presentations.mp47.42 MB
Napkin_AI_Introducing_Elastic_Designs_–_Get_Right_Visuals,_Faster.mp41.26 MB
👍 119🔥 51 48 2🤯 2😁 1
Сбер выкатил сразу четыре ключевые линейки в полный MIT-опенсорс. Флагман — GigaChat Ultra-Preview, новая MoE-модель, собранная под русский язык и натренированная полностью с нуля. Ultra Preview уже обходит DeepSeek V3.1 на русском бенчмарке MERA, поддерживает длинный контекст до 128к токенов — и она все еще не закончила свое обучение. GitHub | HuggingFace | GitVerse Читайте подробную статью на Хабре от команды Рядом выходит Lightning — более лёгкая MoE модель, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам. Она не уступает лучшим опенсорс-моделям своего класса, держит планку на русском выше аналогов и выдаёт сверхбыстрый инференс, благодаря чему модель можно использовать там, где Ultra избыточна, а скорость критична. Плюс стабильная маршрутизация экспертов, а еще приятный бонус в виде поддержки 256к контекста. GitHub | Hugging Face | GitVerse Новая линейка моделей генерации картинок и видео Kandinsky 5.0 Video Pro, и версия Lite (Video Lite и Image Lite), выпущенная в октябре — нативно понимают русские промпты, культурный код и нормально пишут кириллицу. Флагманская Video Pro сравнялась с Veo 3 по качеству и обогнала Wan 2.2-A14B. А ещё подъехал K-VAE 1.0, сейчас это один из лучших опенсорсных энкодеров для сжатия визуального контента и база для обучения генеративных моделей. GitHub | GitVerse | Hugging Face | Технический репорт В аудионаправлении выходит GigaAM-v3 — новое поколение распознавания речи, показывающее −50% WER к Whisper-large-v3 и закрывающее все открытые решения на русском языке. GitHub | HuggingFace | GitVerse Все модели от текста до видео можно ставить в свой контур, доучивать под задачи и использовать коммерчески. По сути, это первый полностью открытый «большой набор» под русский язык, который позволяет строить полноценные ИИ-системы без зависимости от зарубежных моделей и ограничений. @ai_newz
نمایش همه...
star reaction 1👍 181🔥 80😁 54 31🦄 5💔 3❤‍🔥 2 1🤩 1🙏 1
Нейродайджест за неделю (#95) LLM - Heretic — Автоматическое снятие цензуры с LLM. Софт находит и подавляет направления отказа в пространстве активаций модели. Работает с Llama, Qwen, Gemma и др. - Grok 4.1 — Апдейт посттрейна с упором на эмоциональный интеллект и creative writing. Идёт в instruct- и reasoning-вариантах, но бенчмарки, видимо, не сильно изменились. - Gemini 3 Pro — SOTA по всем бенчам, на 20% дороже 2.5 Pro, но на голову превосходит предыдущий фронтир. Генеративные модели - Gemini 3 Pro Image — Новая версия Nano Banana с приставкой Pro на базе Gemini 3 Pro. Умеет размышлять при генерации, искать в интернете, генерировать серии кадров и поддерживает 4К. Прочее - Зарплаты L5 в биг-техе — Ищем лучший офер. График распределения TC для Senior-ролей в США. Meta лидирует по медиане, Amazon — по апсайду. - Про положение OpenAI — Ждём ответ от Сэма Альтмана на последние мощные релизы от Google. > Читать дайджест #94 #дайджест @ai_newz
نمایش همه...
👍 33 21❤‍🔥 2😁 2🔥 1
Photo unavailableShow in Telegram
Че, ждем ответ от сэмы. Недавними релизами гугл раз****л сэму жестоко. Видел, где-то проводили опрос о том, какую непубличную фирму люди больше всего хотят зашортить - так вот OpenAI был в топе. @ai_newz
نمایش همه...
star reaction 7😁 317👍 40 25🦄 10🫡 8
Photo unavailableShow in Telegram
Cloud.​ru запустил в общий доступ свою платформу Evolution AI Factory для работы с генеративными моделями. Это набор из шести сервисов, которые покрывают весь пайплайн работы с LLM: есть каталог с 20+ готовыми моделями (Qwen, MiniMax M2, GLM 4.6, gpt-oss), Jupyter-ноутбуки для экспериментов, файнтюнинг для дообучения под свои задачи, инференс моделей через OpenAI API, RAG для работы с корпоративными данными и запуск AI-агентов. Платформа позволяет пройти путь от прототипа до продакшена: начинаешь с экспериментов в Jupyter, дообучаешь модель под свои задачи, подключаешь через RAG внутренние базы знаний и деплоишь либо как API-сервис, либо как автономного агента, который умеет работать с внешними API и выполнять многошаговые сценарии. Есть SLA и круглосуточная поддержка, так что для production-нагрузок подходит. @ai_newz
نمایش همه...
😁 89 26🦄 26👍 20🤯 5💔 5
Gemini 3 Pro Image (она же Nano Banana Pro)🔥🔥🔥 Предыдущая модель была основана на Gemini 2.5 Flash, а эта — на свежей Gemini 3 Pro. Архитектурно это все также диффузионная голова поверх токенов из текстового энкодера Gemini. Кажется, теперь понятно, почему они не выпускали версию на 2.5 Pro — Gemini 3 была уже на подходе, и не было смысла делать генератор под в скором времени устаревшую модель. Теперь модель размышляет в ходе генерации и может сгенерить до 3 картинок под капотом, проверяя их на совпадение с промптом и качеством композиции, проверяя, чтобы всё было сделано как надо (test time scaling для визуальных моделей). Юзеру показывается только финальная картинка. Ещё она может искать в интернете, если для генерации нужна актуальная информация. Проблема прошлой модели была в том, что она слишком фокусировалась на том, чтобы отредактировать картинку, ничего не изменяя. Из-за этого могли появляться странные баги: когда ты просто пытаешься поменять угол обзора, а получаешь на выходе какой-то сумасшедший коллаж. Теперь моделька поохотнее вращает объекты и нативнее вставляет их в сцену. Картинку теперь реально можно использовать как стиль. С этим тоже была беда: старый банан всё норовил, скажем так, натянуть сову на глобус — то есть картинку-референс на твой промпт, который с объектами референса мог быть вовсе и не связан. И да, он отлично шарит за постсоветскую эстетику — таким не все модельки могут похвастаться. Клёвая тема с готовой серийной генерацией: может генерить сразу несколько кадров по очереди, что дико упрощает воркфлоу. Модель сама пишет историю и раскадровку по ходу генерации. Можно сделать запрос из 10 картинок, и они будут как-то сами собой развиваться. Удобно для быстрого продакшена и теста идей. Добавили и невидимую вотермарку SynthID, которая чётко показывает, где и что было отредактировано (а может, это и минус). Хотя, надоедливый ромбик в правом нижнем углу все ещё на месте. Ну и наконец подняли разрешение до 4К — а то банан 1 работал на одном мегапикселе. Правда, из Gemini App картинки скачиваются лишь в 1408x768. Видимо, 4К будет позже или только в API. Но даже при малом размере картинки выглядят очень качественно. Детали в них почти не плывут, а натурально сжимаются. Тем временем серверам Google, кажется, стало тяжко. Deep Research в Gemini повис в бесконечной очереди, а в AI Studio отключили бесплатный тест. Попробовать можно только в Gemini App, но с лимитами. Странно, что Google выкладывают модели сейчас. Старая Nano Banana и так была лучшей, а тут они сами себя перебивают. Если бы за релиз отвечал Сэм Альтман, он бы выждал, пока конкурент что-нибудь покажет, чтобы только потом его унизить. На лидерборде модели пока нет. Цена генерации в 4к может доходить до 18 центов за картинку. А внутри Gemini одна картинка в 1К генерит по 25 сек, это если не активизировался test time scaling. Блогпост Страница API Cookbook @ai_newz
نمایش همه...
211🔥 98😍 20👍 13🙏 2😁 1
Photo unavailableShow in Telegram
Ну, что, трудяги, посмотрим на график размера офферов на L5 в биг-техе? График показывает распределение размера Total Comp для new hires на Senior (L5) роли в биг-техе. Данные тут только по гороам Сан-Франциско, Сиэтл и Нью-Йорк за последние два года. Что мы видим? 🔹 Meta — абсолютный лидер: медиана ~$446K, и даже «пол» (25-й перцентиль) держится на уровне ~$402K. Зарплаты "cто-миллионников", которых недавно захайрили в SuperIntelligence Lab, видать вообще не попали на шкалу, иначе ось X графика улетела бы в космос. 🔹 Amazon дышит в спину по медиане (~$425K), но забирает первенство по 75-му перцентилю (~$491K). Такой мощный апсайд в топе показывает, что они готовы давать хороший оверпей за приоритетных кандидатов. Это классический Amazon: нанимают кучу инженеров на грейд L5 с очень широкой вилкой. Такая "резиновая" вилка позволяет перекупать крутых спецов, не повышая им грейд. Но я, честно сказать, удивлен щедростью Амазона. Кстати, в Европе обычно все гораздо плачевнее. Поэтому за большими офферами нужно ехать в CФ. --- Еще можно отметить, что человек, который рос внутри любой из этих компаний до L5, зачастую будет получать меньше, чем «варяг» с улицы, которого наняли сразу на L5. Все потом что внешнему кандидату приходится давать market rate, а тем кто уже внутри можно и недоплачивать, если они не дергаются. #карьера #bigtechlevels @ai_newz
نمایش همه...
👍 134🔥 42 28😱 8😁 3🤩 2😍 1
Photo unavailableShow in Telegram
Gemini 3 Pro доступна в AI Studio SOTA по всем бенчам кроме SWE-Bench, где отстаёт от Sonnet 4.5 на 1 процентный пункт. Модель дороже на 20% чем 2.5 Pro, как она использует токены пока непонятно. Официального блогпоста пока что нет, но пару часов назад нашли model card, оттуда и скрин с бенчами. https://aistudio.google.com/app/prompts/new_chat?model=gemini-3-pro-preview @ai_newz
نمایش همه...
star reaction 1🔥 177❤‍🔥 27👍 20 17🦄 3
Вышел Grok 4.1 Это апдейт посттрейна поверх той же базовой модели Grok 3 на три триллиона параметров. Модель идёт как в ризонинг, так и в инстракт варианте. При этом нельзя просто так вызвать ризонера — запрос сначала в любом случае идёт в инстракт модель, после чего появляется кнопочка "think harder", которая уже перенаправляет запрос ризонеру. В анонсе концентрируются на лучшем эмоциональном интеллекте и creative writing, с чем у оригинального Grok 4 были проблемы. Кроме этого команде удалось заметно уменшить количество галлюцинаций. Ну и на арене новый Grok занял первое место, но это мало что значит — вырвал первое место он у Gemini 2.5 Pro. Других бенчей xAI не опубликовали, так что вряд-ли там что-то заметно улучшилось. Блогпост @ai_newz
نمایش همه...
53👍 39🔥 13🫡 6
Heretic — автоматическое снятие цензуры с LLM В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях, когда они блокируют "вредные" запросы. Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций. А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры. Heretic вычисляет "направления отказа" как разницу средних активаций между вредными и безвредными промптами, затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления. Оптимизатор автоматически подбирает параметры подавления, включая форму весового ядра и дробный индекс направления с интерполяцией между слоями, минимизируя одновременно количество отказов и KL-divergence от оригинальной модели. Работает полностью автоматически — просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры. Поддерживает большинство популярных архитектур включая Llama, Qwen, Gemma и даже некоторые мультимодальные модели. Той же gpt-oss снятие цензуры точно не помешает. https://github.com/p-e-w/heretic @ai_newz
نمایش همه...
star reaction 3🔥 304🤯 81👍 42 16😱 6😁 4 2🤩 2💔 1🦄 1
«Сначала запусти, а потом улучшай» — эту мантру знает каждый фаундер. Чтобы проверить её на практике, в комьюнити «Короче, Капитан» запустили челлендж «12 запусков за 12 месяцев». Вот как это работает: - Фокус: Берут одну задачу с уже проверенным спросом. - Скорость и бюджет: Ровно месяц на разработку и запуск в США/ЕС. Средний бюджет на продвижение — всего $150. - Анализ: В конце месяца — честный разбор полётов: что сработало, а что нет. В реальном времени можно следить за запуском, продвижением и доходом по каждому проекту. Хороший способ прокачать насмотренность и перенять работающие подходы, даже если вы инженер, а не фаундер. Подписаться: @its_capitan #промо
نمایش همه...
😁 63👍 22 10🤯 10💔 9🙏 1🫡 1🦄 1
Нейродайджест за неделю (#94) LLM - GPT 5.1 — Большой упор на пользователей, которым не понравилась личность GPT-5. Модель стала дружелюбнее, лучше следует инструкциям, а Thinking-версия теперь эффективнее распределяет ресурсы. Генеративные модели - Обновление Flow — Google продолжает прокачивать Veo. Появился контроль над камерой и видео-инпейнт (Insert) в уже готовых генерациях. - Тизер nano-banana2 — В X тизерят новую версию. По слухам, будет генерить в 4к и использовать Gemini 3.0 как текстовый энкодер. Прочее - SIMA 2 — Апгрейд AI-агента для игр от Google DeepMind. Может рассуждать о целях, играть в незнакомые игры и самообучаться. Серьёзный шаг к универсальным ИИ-агентам. > Читать дайджест #93 #дайджест @ai_newz
نمایش همه...
👍 34 18 7🔥 3💔 2🫡 1
01:38
Video unavailableShow in Telegram
Google DeepMind выкатили SIMA 2 — апгрейднутую версию AI агента для игр. В отличие от первой версии, которая могла выполнять лишь базовые действия, SIMA 2 может рассуждать о высокоуровневых целях и достигать их, болтать с игроком и даже играть в игры, которые никогда не видел — типа ASKA или MineDojo. Ну и конечно может ориентироваться в энвайроментах которые создаёт Genie 3. Это стало возможно во многом из-за интеграции Gemini с более лайтовой агентной моделью, которая и занимается непосредственным управлением (Система 1 и Система 2 в действии). Главная новая возможность — самообучение: SIMA 2 сама набивает опыт, оценивает его через Gemini и улучшается без помощи человека. По бенчмаркам уже довольно близко подобралась к человеческой производительности. Конечно, есть косяки — с длинными многоходовками пока туго, длины контекста не хватает, да и с точным управлением мышкой проблемы. В любом случае это серьезный шаг к универсальным ИИ-агентам, которых можно будет засунуть куда угодно. Техрепорта пока нет, но обещают @ai_newz
نمایش همه...
sima2.mp426.48 MB
🔥 122👍 28❤‍🔥 16 15🤯 4🦄 2