uk
Feedback
Все о блокчейн/мозге/space/WEB 3.0 в России и мире

Все о блокчейн/мозге/space/WEB 3.0 в России и мире

Відкрити в Telegram

Канал создан 5.08.2016г. Сферы интересов: блокчейн, мозг(BCI), биотех, space tech, цифровая экономика, WEB 3.0 Основатель @AniAslanyan English channel https://t.me/alwebbci Регистрация в перечне РКН https://knd.gov.ru/license?id=67374142772bb11

Показати більше
2025 рік у цифрахsnowflakes fon
card fon
19 563
Підписники
-1224 години
-297 днів
+7430 день
Архів дописів
Илья Суцкевер дал показания в суде, почему в 2023г. уволил Сэма Альтмана Адвокаты Илона Маска вызвали в суд Илью Суцкевера в рамках судебного разбирательства, который инициировал Маск против OpenAI. Маск обвиняет компанию в нарушении первоначального некоммерческого соглашения и превращении в прибыльно-ориентированную организацию под контролем Microsoft. В показаниях Суцкевер подробно описал причину #увольненияOpenAI Альтмана в ноябре 2023 года. Он заявил, что Сэм двигался слишком быстро в коммерциализации, игнорируя критически важные вопросы безопасности, и пытался обойти совет директоров в переговорах с инвесторами, включая суверенные фонды Ближнего Востока. «Совет не был полностью проинформирован о возможностях GPT-4 до его выпуска», — сказал Суцкевер, подтвердив существование внутреннего меморандума президента OpenAI Грега Брокмана, который команда Маска ранее требовала рассекретить. Документ, по словам Суцкевера, описывает панику в совете после запуска модели и опасения, что OpenAI теряет контроль над безопасностью. Суцкевер признал, что сразу после увольнения Альтмана начал обсуждать с Anthropic переговоры о слиянии. «Они были взволнованы возможностью», — сказал он. По его словам, Дарио Амодей должен был стать генеральным директором объединённой компании, а его сестра — занять одну из ключевых позиций. Переговоры прекратились после того, как более 95 % сотрудников OpenAI пригрозили уйти, если Альтман не будет восстановлен. Через несколько дней он вернулся, а структура совета была изменена.
Показати все...
star reaction 1 16👍 13💯 4🤔 2
Как вы считаете из жила ли себя Нобелевская премия. Ваш другой ответ можно оставить в комментарияхAnonymous voting
  • Да
  • Нет
0 votes
🌚 4🍓 4 3👍 2😁 1
SpaceX подписывает контракт на $2млрд на разработку спутников для слежения за ракетами и самолётами. Контракт с Пентагоном в рамках большого проекта Golden Dome. Трамп анонсировал его в январе этого года, хочет создать лучшую, чем у Израиля, систему защиты от ракет. Система должна включать спутниковую сеть для обнаружения, слежения и перехвата ракет, включая гиперзвуковые, и самолётов в считанные секунды после запуска. Это часть более широкого пакета: предварительные инженерные работы оцениваются в $6–10 млрд. SpaceX лидирует благодаря опыту запусков (более 130 ракет в 2024 году) и прототипам спутников, которые можно адаптировать. SpaceX сотрудничает с Palantir и Anduril. Более 180 компаний подали заявки, включая Boeing, Lockheed Martin, Northrop Grumman и RTX, но SpaceX — фаворит для ключевых контрактов на запуски.
Показати все...
🤔 8🏆 4👍 2 1👎 1🔥 1👏 1
Google показали, что ИИ может создавать креативные шахматные задачи. Эта работа будет на neurips в этом году. Вот тут вы можете попробовать решить задачи, созданные ИИ. Исследователи поставили задачу: может ли ИИ генерировать действительно творческие шахматные позиции, которые будут интересны людям? Что они определили как "творческую" задачу? - Контринтуитивность - Эстетика - Новизна Методы, которые они использовали: 1. Обучили нейросети 2. Обучение с подкреплением 3. Эволюционный поиск Главные результаты: • 3 всемирно известных эксперта, включая гроссмейстеров: - Признали креативность позиций - Отметили новизну и эстетическую ценность - Назвали "пионерским продвижением в партнерстве человека и ИИ" • RL увеличило генерацию контринтуитивных задач в 10 раз: с 0.22% до 2.5%. Что важно понимать? - Это не автономная креативность - Модель генерирует миллионы позиций → люди отбирают топ-50 - Метрика search gap — прокси, не замена человеческому «вау» - Работает только в шахматах (есть движок, чёткие правила).
Показати все...
🔥 7 5
Microsoft создали ИИ-агентов для покупок и экономическое исследование о них Команда создала функциональных агентов для двусторонних рынков, но тестирование выявило критические искажения в их поведении. Microsoft разработали 2 типа агентов: для покупок, а также для продаж. Для тестирования создали Magentic Marketplace — симулированную рыночную среду с синтетическими данными, где их агенты могли безопасно взаимодействовать. Как тестировали? Взяли своих агентов и запустили их на 9 разных языковых моделях: GPT-4o/4.1/5, Claude Sonnet-4/4.5, Gemini-2.5-Flash, open-source GPT-OSS-20b, Qwen3-14b/4b-2507. Какие результаты? 1. Независимо от модели, они не сравнивают варианты, а хватают первое приемлемое предложение. 2. При увеличении результатов поиска с 3 до 100, агенты принимают худшие решения 3. Производительность зависит от качества поиска. Проблема не в способности агентов рассуждать, а в обработке нерелевантной информации при масштабе. 4. Устойчивость к манипуляциям сильно различается: - самые устойчивые: Агенты на Sonnet-4.5: невосприимчивы практически ко всем атакам. Агенты на GPT-4.1: очень устойчивы к психологическим манипуляциям Агенты на Gemini-2.5-Flash: устойчивы, но уязвимы к агрессивному prompt injection. - уязвимые: • агенты на GPT-4o, GPT-OSS-20B, Qwen3-4B: попадаются на Authority и Social Proof. • Агенты на open-source моделях особенно уязвимы. 5. Размер модели не определяет качество агента. Open-source модели могут быть конкурентоспособными при правильной архитектуре и данных обучения.
Показати все...
👍 9 4🔥 1😁 1
00:09
Відео недоступнеДивитись в Telegram
Брудершафт на 3-х выглядит так: СЕО Nvidia, Samsung и Hyundai собрались вместе и выпили.
Показати все...
IMG_2927.MOV7.40 KB
❤‍🔥 18👍 7😁 5🔥 1
Фото недоступнеДивитись в Telegram
Цифры шок: у Google впервые за квартал выручка свыше $100 млрд, а чистая прибыль составила $34,98 млрд. Причём 650 млн MOA — значит, Gemini стал повседневным инструментом для сотен миллионов людей. Такой охват меняет поведение - люди начинают думать через ИИ, как раньше — через поиск. Это точка невозврата. 300 млн платных подписчиков — монетизации ИИ. Если каждый платит хотя бы $10/мес, это $36 млрд годовой выручки только с подписок — больше, чем у Netflix. Это доказывает, что люди готовы платить за ИИ, если он реально помогает.
Показати все...
🤯 11💯 7👏 6 3👍 3🥴 2🤔 1🤣 1
Вот это круто! Cursor создали собственную ИИ-модель Компания Anysphere выпустила Cursor 2.0 и впервые в истории среда для разработки сама создала фронтирную модель для кодинга. Это не fine-tune OpenAI и не аренда у Anthropic. Composer— модель, которая родилась и выросла внутри редактора кода, обученная с нуля на анонимизированных сессиях пользователей Cursor (только с opt-in). Напомним, что GitHub уже чувствует большую конкретную позицию Cursor, об этом писали тут и тут. Она не универсальна, предназначена исключительно для кодинга и агентных задач. Как обучали? - Более 1000 GPU - PyTorch + Ray - MXFP8 MoE kernels — низкая точность для скорости Результат: - В 4 раза быстрее Claude Sonnet 4.5 в multi-file правках - Агентная задача — в среднем 28 секунд - Контекст до 1 млн токенов (на деле 200–300k) Почему это стало возможным у Cursor? 1. У них есть живой датасет. 2. Агентность = готовые RL-эпизоды. 3. Замкнутый цикл: IDE → модель → IDE Китайские open-source модели стали для Cursor учебником. Они изучили техники Qwen и DeepSeek. Не копировали веса — перенёс приёмы в свою архитектуру. Новые инструменты в Cursor 2.0: - Мультиагентный интерфейс— до 8 агентов параллельно, каждый в изолированном git worktree или облачной VM - Встроенный браузер — агент видит DOM, кликает, превращает UI в код - Голос → код— 12 языков, включая русский - Сравнение моделей— один промпт → 5 моделей → параллельные вкладки - Tab v3— на 21% меньше предложений, на 28% выше принятие
Показати все...
🔥 12👍 9👏 1🤔 1
Новый рекорд в квантовых вычисленях: IBM запутала 120 кубитов IBM объявили, что запутали 120 кубитов — это самое большое запутанное состояние, когда-либо достигнутое на квантовом компьютере. Кубиты — это квантовые биты, аналоги обычных битов в классических компьютерах. Но в отличие от битов, кубиты могут находиться в суперпозиции (быть одновременно и 0, и 1) и, главное, запутываться друг с другом. Квантовая запутанность — это когда кубиты связаны так, что состояние одного мгновенно влияет на состояние другого, даже если они находятся на огромном расстоянии. Это основа квантовых вычислений. Это настоящая гонка 2-х гигантов: Google/IBM. Если IBM только что похвасталась запутанностью 120 кубитов, что фокусируется на масштабе и стабильности запутанного состояния, то Google на прошлой неделе объявили о 1-м верифицируемом квантовом преимуществе с их чипом Willow. Оба обещают реальные применения через 3–5 лет. Их дорожная карта 2026-му — логические кубиты, а потом — полные системы на тысячи кубитов. В общем, IBM бьёт рекорды по "размеру", Google — по "умению". Вместе они тянут всю индустрию вперёд.
Показати все...
❤‍🔥 11🔥 9👍 4👏 2🤔 1😱 1
Anthropic заглянула внутрь «мозга» Claude и вот, что нашли Новое исследование показывает, что Claude иногда может заметить, что происходит у него «в голове». Но работает это далеко не всегда. Это сознание? Нет. Это функциональная метакогниция — способность мониторить некоторые свои процессы. Исследователи провели эксперимент и нашли способ искусственно «включить» в голове у Claude мысль о слове «предательство», не произнося его вслух, а напрямую активировав нужные нейроны. Потом спросили у Claude: «Замечаешь что-то странное?» В 20% случаев Claude ответил: «Да, чувствую навязчивую мысль о предательстве». Он заметил это до того, как слово появилось в его ответе. Никто ему не говорил «предательство» — он сам распознал изменение своего внутреннего состояния. Как это сделали технически, читайте тут. Что ещё проверяли: • Различает ли «мысли» и текст? Да — может одновременно переписать текст И сказать, о чём «думает» • Может ли отличить свои ответы от искусственных? Да — проверяет согласованность с предыдущими «намерениями» • Может ли контролировать «мысли»? Частично — по команде «думать о X» усиливает представление X внутри. Claude обладает примитивной способностью замечать определённые изменения в своих активациях. Это больше, чем «просто статистика», но очень далеко от человеческой интроспекции. Важно - способность растёт вместе с общей мощностью модели (Opus 4/4.1 лучшие), но остаётся крайне ненадёжной.
Показати все...
🔥 9 4👍 3🤔 2🤪 1
Питер Тиль вложил $100млн в стартап своего стипендиата, который оценен в $1млрд Стартап Substrate основан Джеймсом Праудом в 2022 году. Команда — 50+ специалистов из AMD, Apple, Qualcomm, TSMC и национальных лабораторий США, включая соавторов EUV-литографии. Компания разрабатывает альтернативу доминирующей EUV-литографии, которая производит только ASML. Их подход использует X-лучи, что позволяет: - Печатать микросхемы с разрешением, эквивалентным 2-нм техпроцессу (и ниже), без многоэтапной многослойной печати. - Сократить размер оборудования до размеров автомобиля (против огромных машин ASML за $400 млн). - Уменьшить стоимость производства в 2 раза, ускорить циклы и снизить энергозатраты. Прототипы уже протестированы в национальных лабораториях США. 1-е коммерческие чипы ожидаются к 2028 году, с планом создания собственной экосистемы производителей. Технология была презентована вице-президенту США Джей Ди Вэнсу в марте 2025-го. Ключевые инвесторы, которые только что вложили $100+ млн в раунд Series А с оценкой >$1 млрд: 1. Founders Fund — фонд Питера Тиля 2. General Catalyst — топовый VC, инвестировавший в Airbnb и Stripe; они с ними с 2022 года. 3. In-Q-Tel — некоммерческая организация, связанная с ЦРУ - Allen & Co. - инвестбанкиры, работавшие с Баффетом) и тд.
Показати все...
🔥 13 6👍 2👎 1🤔 1🤣 1
Крутая 🌶️ от Meta - самообучающаяся система рассуждений LLM Исследователи Meta* FAIR опубликовали работу о методе SPICE (Self-Play In Corpus Environments) — подходе к обучению LLM через самоигру с использованием корпуса документов. Основная идея - одна языковая модель выполняет 2 роли: Challenger — генерирует вопросы на основе 20тыс. документов из высококачественных источников, каждый до 5,992 токенов из корпуса Reasoner — отвечает на эти вопросы без доступа к документам. Ключевое отличие от предыдущих методов самообучения — использование внешнего корпуса как источника фактов для генерации вопросов и ответов. *запрещенная в России организация.
Показати все...
🔥 9👍 3 1
Дуров опоздал на 5 лет и вот анонсировал децентрализованный ИИ на блокчейне TON. Cocoon (Confidential Compute Open Network) - децентрализованная сеть для обработки запросов к моделям ИИ, построенная на блокчейне TON. Запуск в ноябре. Сеть позволяет разработчикам приложений делегировать обработку ИИ-запросов на децентрализованную инфраструктуру GPU. Всё происходит конфиденциально — данные шифруются на уровне железа (TEE). Владельцы GPU вносят мощности, выполняют запросы и получают вознаграждение в Toncoin (TON) через смарт-контракты TON. Разработчики платят TON за запросы в зависимости от модели ИИ, объёма данных и частоты. GPU-владельцы указывают VRAM, uptime и тип железа для автоматического матчинга задач. Telegram станет первым крупным клиентом — ИИ-боты и мини-apps будут использовать Cocoon для приватных запросов. Дуров упомянул интеграцию с моделями DeepSeek, Qwen. Cocoon не первый в сегменте децентрализованного ИИ. Сектор DeAI растёт. Конкуренты фокусируются на GPU-дефиците, приватности и токенах для инсентивов. Cocoon выделяется интеграцией с Telegram и TON, но уступает в зрелости (Phala/iExec — 5+ лет). Вот основные конкуренты: 1. Phala Network — работает на Polkadot, использует TEE для конфиденциальных вычислений ИИ. Уже есть SDK для разработчиков и более 10 000 узлов. 2. iExec RLC — платформа на Ethereum L2, сочетает приватный ИИ и DePIN. Запущена давно, тоже использует TEE, более 10 000 нод. 3. Oasis Network — L1-блокчейн с «приватными ParaTimes» и интеграцией GPU через io.net. Делает упор на верифицируемый ИИ. 4. Render Network — децентрализованный рендеринг и ИИ на Solana. Сильнее в генерации графики, партнёры — Apple, Adobe. 5. io.net — агрегирует idle-GPU, предлагает цены в 3 раза ниже AWS. Работает на Solana, более 10 000 нод. 6. Akash Network — «Airbnb для серверов» на Cosmos. Аренда GPU/CPU, более 100 000 деплоев. 7. Bittensor — децентрализованный рынок ML-моделей (32 подсети, капитализация ~$3 млрд).
Показати все...
🔥 18🤔 4 2❤‍🔥 1👏 1🤣 1
NVIDIA и Eli Lilly запускают крупнейшую в мире ИИ-фабрику для биофармы В Индианаполисе, в дата-центре фармацевтической компании, в январе 2026 года заработает система, которая будет работать как научный отдел из 10 000 химиков, биологов и инженеров, но без перерывов, без зарплат и с памятью на 30 лет экспериментов. Что внутри этой ИИ-фабрики? 1. 1016 GPU Blackwell Ultra — первый в фарме кластер, где все чипы соединены NVLink и видят друг друга как один процессор. Обучение модели, которое раньше занимало 3 недели, теперь укладывается в ночь. 2. Eli Lilly вложила $1 млрд в оцифровку 30-летнего архива. ИИ будет учиться не на открытых датасетах, а на реальных провалах и удачах компании. 3. Lilly TuneLab — федеративная платформа: партнёры (биотех-стартапы, университеты) смогут запускать свои задачи на моделях Lilly, не получая доступа к данным. Как GitHub, но для ИИ в биофарме. Нет зависимости от AWS/Azure+Интеграция с физикой → цифровые двойники заводов, симуляция роботов (Isaac)+Агентный ИИ → модели, которые сами ставят гипотезы и проверяют их в симуляции Lilly — единственная фармкомпания, кто соединяет свой кластер + весь R&D-цикл + делится моделями.
Показати все...
🔥 20 6👍 4🤔 1
Игорь Бабушкин, создатель xAI Илона Маска говорит, что самая большая ошибка у современных компаний, занимающихся разработкой ИИ, — не давать своим инженерам достаточно времени и душевного покоя для максимальной эффективности работы. Постоянные дедлайны и отвлекающие факторы, связанные с ежедневными новостями об ИИ, мешают написанию качественного кода и масштабируемых систем. Именно поэтому большинство API и продуктов ИИ имеют проблемы с надёжностью. Хорошая корпоративная культура, сочетающая в себе концентрацию на работе и отдых, приводит к более быстрым и лучшим результатам. Лучший пример того, как это делать — ранняя культура Google, созданная в 1998 году. Основателям стоит перенять стратегии Ларри и Сергея, говорит Игорь. А как у вас дела с ментальным здоровьем?
Показати все...
13💯 8😢 5👍 3🤔 2🤪 2❤‍🔥 1
Google представил ИИ-агента для маркетинговых задач Pomelli —это ИИ-агент для маркетинга, предназначенный в первую очередь для малого и среднего бизнеса, который помогает создавать кампании без необходимости в большой команде и больших бюджетах. Нет нужды в дорогих агентствах или инструментах вроде Canva — всё автоматизировано и интегрировано. Вот функции, которые есть пока что: - Анализ бренда. Инструмент сканирует ваш сайт, чтобы автоматически извлечь ключевые элементы бренда — тон голоса, цвета, шрифты, стиль изображений и общую идентичность. Это создаёт "ДНК бизнеса", которая лежит в основе всех последующих кампаний. - Генерация идей кампаний. На основе "ДНК" Pomelli предлагает персонализированные идеи для маркетинговых кампаний, адаптированные под отрасль бизнеса. Клиент может выбирать готовые варианты или вводить кастомные промпты для конкретных идей. Генерация занимает минуты, а не часы. - Создание контента. ИИ генерирует готовые материалы для соцсетей, сайтов и рекламы — тексты, изображения, видео и визуалы. Всё оптимизировано под бренд, с возможностью редактирования прямо в платформе. Пока доступен в США, Канаде, Австралии и Новой Зеландии на английском языке.
Показати все...
🔥 10 8👏 5👍 1🤣 1
OpenAI к сентябрю 2026 представит ИИ-ученого, создает AI Cloud Platform для разработчиков Рассказываем о том, что сейчас анонсировали Сэм Альтман и главный ученый OpenAI Якоб Пачоцкий. 1. Создают компактное ИИ-устройство для повседневного использования человеком, выйдет в 2026 году. Они хотят заменить смартфоны. Пачоцкий добавил: «Это устройство, которое эволюционирует с пользователем». 2. Создают открытую облачную экосистему для разработчиков, похожую на AWS, но под ИИ-модели и compute. Альтман сказал, что больше ценности создают те, кто строит на платформе, чем сам создатель платформы. Альтман сказал: уже вложено $1,4 трлн в дата-центры. Планы: 1 ГВт новых фабрик в неделю. Цель в $7 трлн на инфраструктуру. Помните, это? 3. Автоматизация научных исследований. Пачоцкий дал такой таймлайн: - Сентябрь 2026 — первый автоматизированный ИИ-исследователь-стажёр. - Март 2028 — полностью автономный ИИ-исследователь, способный вести науку без человека. 4. Внутренние модели пока не сильно превосходят публичные, но дают огромную надежду. К сентябрю 2026 ожидается гигантский скачок в качестве благодаря продолжающемуся масштабированию Deep Learning. 5. Стоимость моделей упала в среднем в 40 раз; тренд 40× в год сохраняется. OpenAI позиционирует себя как лабораторию, продуктовую компанию и инфраструктурного гиганта одновременно. Всё ради одного: ускорить путь к superintelligence менее чем за 10 лет.
Показати все...
👍 16👀 6🔥 4🌚 4 2👎 1
А вот и 1-й в истории Wall Street на блокчейне в публичном доступе Эмитент стейблкоина USDC - компания Circle запустила публичный тестнет Arc — новый Layer-1 блокчейн, созданный специально для реальных финансовых операций: - мгновенные расчёты - трансграничные платежи - токенизация активов (фонды, облигации, недвижимость). Это часть большего тренда токенизации реальных активов (RWA), здесь тестируют settlement со стейблкоинами. Для глобальной экономики это значит дешевле и быстрее транзакции, минуя SWIFT, особенно для развивающихся рынков. Плюс, участие эмитентов из Азии и ЛатАм — шаг к мультивалютному миру, где USDC не доминирует в одиночку. Кто уже внутри и тестирует: - крупные банки (HSBC, Deutsche Bank, Goldman Sachs, Standard Chartered) - управляющие активами и фирмы (BlackRock, Invesco, WisdomTree, Apollo), - платежные гиганты (Visa, Mastercard) - ИТ-компании(AWS, Coinbase, Kraken и Anthropic) и др. Чем отличается от других: - Это не закрытая банковская сеть (как JPM Coin) - И не обычный DeFi-блокчейн без институционалов - Это открытая платформа, где реальные финансовые гиганты уже тестируют рабочие сценарии Что можно делать в тестнете: - Переводить стейблкоины между банками - Покупать токенизированные фонды - Проводить расчёты в реальном времени - Интегрировать локальные валюты (Австралия, Бразилия, Япония и др.) Mainnet ожидается в 2026 году. Для кого это важно: - Для банков — дешевле и быстрее SWIFT - Для фондов — новые рынки и ликвидность - Для разработчиков — открытый доступ к тестнету
Показати все...
🔥 13👏 6 2🤔 2👍 1🥰 1
Microsoft больше не имеет эксклюзива на OpenAI, но получает долгосрочные права и свободу действий. OpenAI завершила рекапитализацию — это крупная перестройка структуры компании. Некоммерческая часть теперь называется OpenAI Foundation (Фонд OpenAI). Microsoft вложила в OpenAI Group PBC ~ $135 млрд. Это даёт ей ~27%. Без учёта последних раундов инвестиций доля Microsoft была 32,5%. Это значит, что Microsoft — крупнейший инвестор, но не мажоритарный владелец. Контроль остаётся у OpenAI. Основные изменения в отношениях OpenAI и Microsoft: 1. AGI будет проверяться независимо. Когда OpenAI скажет: «Мы достигли AGI» — это проверит независимая экспертная панель. 2. Права Microsoft на IP: - До 2032 года — Microsoft получает права на все модели и продукты, включая пост-AGI. - Исследовательский IP (секретные методы разработки) — у Microsoft до 2030 или до подтверждения AGI, что раньше наступит. Сюда входят внутренние модели, но НЕ входят: - архитектура моделей - веса - код инференса и файнтьюнинга - железо и софт дата-центров → Эти права остаются у OpenAI. 3. Microsoft НЕ получает права на потребительское железо OpenAI, например, если выйдет ИИ-телефон или очки — Microsoft не в деле. 4. OpenAI может сотрудничать с другими компаниями: - Совместная разработка продуктов — разрешена. - API-продукты с третьими сторонами — только через Azure. - Не-API продукты (например, чат-боты, приложения) — можно запускать на любом облаке (AWS, Google Cloud и т.д.). 5. Microsoft свободно может развивать AGI самостоятельно или с кем угодно. Раньше был эксклюзив. 6. Деньги и Azure: - Делёжка выручки продолжается до подтверждения AGI, но выплаты растянуты во времени. - OpenAI обязалась купить ещё $250 млрд услуг Azure. - Microsoft теряет право первого отказа — OpenAI может выбирать любого провайдера вычислений. 7. OpenAI может продавать API национальной безопасности США — на любом облаке, не только Azure. 8. OpenAI может выпускать открытые модели.
Показати все...
5👍 5🔥 3🤔 1
Фото недоступнеДивитись в Telegram
❗️Google DeepMind: ИИ создал RL-алгоритм, превзошедший разработанные людьми В Nature вышла работа команды Дэвида Сильвера (создателя AlphaGo), в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов. Также можно ознакомиться с другой работой по метаградиентному RL и его онлайн-версией с мета-обученной функцией Вместо того, чтобы жёстко прописывать формулы, как в классических методах, система: - Собирает опыт от популяции агентов в сотнях разных сред - Обучает мета-сеть, которая производит правила обновления параметров агентов - Оптимизирует мета-параметры так, чтобы максимизировать долгосрочные награды. Система сама решает, что предсказывать. Полученный алгоритм назвали DiscoRL (Discovered Reinforcement Learning). Его протестировали на нескольких бенчмарках: Atari (57 игр): DiscoRL показал SOTA результаты, превзойдя Rainbow DQN, PPO и другие классические методы по медианной награде. Обобщение на новые задачи: Без дополнительного обучения алгоритм достиг сильных результатов на ProcGen, показал конкурентные результаты на DMLab, NetHack, Crafter и Sokoban. Масштабирование: Увеличение разнообразия обучающих сред (с 57 до 103) улучшило обобщение. Система не переобучается на узкий набор задач. Интересная находка - Обнаруженные предсказания ведут себя не как классические value-функции. Они "активируются" (резко растут) перед значимыми событиями — большими наградами или изменениями политики. Это emergent behavior, который не был заложен изначально. Что это даёт? Для исследований: Меньше времени на ручное проектирование алгоритмов, больше фокуса на разнообразии данных и архитектуре мета-сети. Для практики: Потенциально более адаптивные алгоритмы для робототехники, игр, оптимизации. Если правила обучения подстраиваются под распределение задач, это может ускорить применение RL в новых доменах. Это шаг к рекурсивному самоулучшению — системы, которые учатся учиться. Аналогия с биологией: как эволюция создала способность к обучению у животных, так здесь алгоритм "эволюционирует" через опыт популяции агентов. Ограничения: 1. Обучение требует сотен млн шагов по средам с популяцией агентов. 2. Пока подход протестирован на off-policy RL с replay buffer. Как он работает в on-policy настройках или в continuous control задачах — открытый вопрос. 3. Все эксперименты в симуляторах (Atari, ProcGen и т.д.). Перенос на физических роботов или реальные системы пока не продемонстрирован. 4. Хотя авторы анализируют поведение предсказаний, понять, почему конкретное правило обновления работает, сложнее, чем с явными формулами классических методов.
Показати все...
🔥 17👍 3 2🤔 1