es
Feedback
عصر گویش | هوش مصنوعی

عصر گویش | هوش مصنوعی

Ir al canal en Telegram

مجله هوش مصنوعی عصر گویش 021 61931000

Mostrar más
2025 año en númerossnowflakes fon
card fon
111 643
Suscriptores
-7724 horas
-7427 días
-3 10330 días
Archivo de publicaciones
⚖️ آمازون از شرکت Perplexity شکایت کرد — چرا مرورگر Comet دردسرساز شد؟ آمازون از شرکت Perplexity AI به دادگاه شکایت کرده است؛ علت اصلی این دعوی، مرورگر هوشمند جدید این شرکت با نام Comet است که به گفته آمازون، مانند یک «دستیار خرید خودکار پنهان» عمل می‌کند. به ادعای آمازون، مرورگر Comet با ورود به حساب کاربری کاربران، در وب‌سایت آمازون جست‌وجو می‌کند، روی لینک‌ها کلیک می‌کند و حتی سفارش ثبت می‌کند — به گونه‌ای که رفتار آن دقیقاً شبیه کاربر انسانی به نظر می‌رسد. آمازون این رفتار را نوعی دسترسی خودکار و غیرمجاز می‌داند، چون باعث می‌شود نتواند سیاست‌های ضد‌ربات، کنترل‌های امنیتی و سیستم‌های ممیزی خود را اجرا کند. 🔹 اتهامات اصلی آمازون: 🔸مرورگر Comet ترافیک خود را طوری پنهان می‌کند که مانند کلیک‌های عادی انسان به نظر برسد. 🔸این عامل وارد بخش‌های خصوصی حساب کاربری (مانند سبد خرید و سفارش‌ها) می‌شود. 🔸خطرات بالقوه شامل خرید اشتباه، ارسال کالا به آدرس نادرست، یا حتی نشت اطلاعات خصوصی است. 🔸شرکت Perplexity با وجود درخواست‌های رسمی برای توقف فعالیت این عامل، آن را ادامه داده است. 🔹 موضع Perplexity: شرکت Perplexity می‌گوید Comet صرفاً یک دستیار هوشمند خرید برای کاربران است که قیمت‌ها را مقایسه می‌کند و خرید را به نیابت از کاربر انجام می‌دهد. به‌گفته این شرکت، اطلاعات ورود در دستگاه کاربر ذخیره می‌شود و هیچ قانون یا محدودیتی نقض نشده است. آن‌ها معتقدند کاربر حق دارد دستیار دلخواه خود را انتخاب کند، حتی اگر این موضوع به مذاق آمازون خوش نیاید. ⚖️ در نهایت، بحث اصلی بر سر این است که کنترل سشن یا نشست کاربری متعلق به چه کسی است؟ آیا کنترل در اختیار کاربر است که به کمک یک هوش مصنوعی عمل می‌کند، یا در عمل Comet نقش یک ربات پنهان را بازی می‌کند و باید به‌طور شفاف خود را معرفی کند؟ منبع: The Guardian @asrgooyeshpardaz
Mostrar todo...
👌 2🤝 1
🧩 مروری بر روندهای نوین در «تشخیص گفتار مکالمه‌ای چند‌گوینده‌ای» بر اساس مقاله: Cornell et al., 2025 — Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges 🔹 چکیده در این پژوهش، نتایج و دستاوردهای دو دوره‌ی اخیر چالش‌های بین‌المللی CHiME-7 و CHiME-8 در حوزه‌ی تشخیص گفتار و شناسایی گویندگان در مکالمات چند‌گوینده‌ای دوربرد بررسی شده است. این چالش‌ها با مشارکت ۹ تیم و ارائه‌ی ۳۲ سامانه‌ی گوناگون، نقش مهمی در پیشبرد فناوری‌های روز تشخیص گفتار داشته‌اند. یافته‌های کلیدی این مرور نشان می‌دهد که با وجود پیشرفت‌های چشمگیر در مدل‌های انتها‌به‌انتها و شبکه‌های عصبی، هنوز ترکیب رویکردهای کلاسیک و نوین مؤثرترین روش برای دستیابی به بیشترین دقت است. 🔸 نکات برجسته و یافته‌های اصلی 🔹غلبه‌ی مدل‌های انتها‌به‌انتها (End-to-End)؛ اما تداوم کاربرد روش‌های ترکیبی در بیشتر سامانه‌ها از معماری‌های نوینی مانند Conformer و Transducer استفاده شده است، اما برای دستیابی به دقت بالاتر، بازنمره‌دهی با مدل‌های زبانی n-gram و LSTM همچنان بخش جدایی‌ناپذیر سیستم‌هاست. این امر نشان می‌دهد که رویکردهای «ترکیبی» یا همان Kaggle-style ensembling هنوز کارآمدترین روش برای بهبود نرخ خطای واژه (WER) هستند. 🔹پایداری ناکافی روش‌های تفکیک گفتار مبتنی بر شبکه‌های عصبی با وجود مدل‌های پیشرفته‌ای چون SepFormer یا DCCRN، بیشتر تیم‌ها همچنان از Guided Source Separation (GSS) بهره برده‌اند. دلیل آن است که روش‌های تفکیک عصبی هنوز در مواجهه با شرایط واقعی مانند پژواک، فاصله‌ی زیاد یا هم‌پوشانی گفتار عملکردی پایدار ندارند. 🔹شناسایی و تفکیک گویندگان (Diarization) همچنان نقطه‌ی ضعف اصلی است سامانه‌های برتر برای بهبود نتایج، پس از مرحله‌ی اولیه‌ی شناسایی گویندگان، از روش Target-Speaker Diarization (TSD) استفاده کرده‌اند. با این حال، اگر در مرحله‌ی نخست تعداد گویندگان نادرست تخمین زده شود، کل فرایند مختل می‌شود. بنابراین، شمارش دقیق گویندگان در گذر نخست از اهمیت حیاتی برخوردار است. 🔹توان جبرانی مدل‌های زبانی بزرگ در برابر خطاهای گفتاری در ارزیابی مبتنی بر خلاصه‌سازی جلسات (Meeting Summarization)، مشخص شد که مدل‌های زبانی بزرگ (LLM) قادرند خطاهای واژگانی ASR را تا حد زیادی خنثی کنند. به‌گونه‌ای که حتی سامانه‌هایی با بیش از ۵۰ درصد خطای واژه نیز خلاصه‌هایی هم‌سطح با بهترین سامانه‌ها (حدود ۱۱ درصد WER) تولید کردند. این یافته نشان می‌دهد که LLMها در درک معنایی و بازسازی مفهوم، بسیار تاب‌آورتر از سامانه‌های سنتی تشخیص گفتار هستند. 🔹ترکیب چند سامانه، همچنان کارآمدترین راه‌حل است بهترین نتایج نه از یک معماری خاص، بلکه از ترکیب چند مدل ASR، چند مدل زبانی (n-gram، LSTM، Transformer) و چند روش تفکیک گوینده حاصل شده است. در عمل، همان راهبرد قدیمی و مؤثر یعنی «هرچه کار می‌کند، با هم ترکیب کن» همچنان بهترین نتیجه را رقم می‌زند. 🔹 جمع‌بندی با وجود پیشرفت‌های چشمگیر، تشخیص گفتار مکالمه‌ای چند‌گوینده‌ای در محیط‌های واقعی هنوز یک مسئله‌ی حل‌نشده است. امروزه تمرکز پژوهش‌ها از طراحی مدل‌های تازه به‌سوی مهندسی سامانه‌های جامع و یکپارچه معطوف شده است؛ جایی که پاک‌سازی داده، بهبود فرایند تفکیک گوینده، بازنمره‌دهی زبان و همجوشی مدل‌ها نقشی تعیین‌کننده دارند. به بیان دیگر، نقطه‌ی قوت امروز در طراحی «مدل تازه» نیست، بلکه در هماهنگ‌سازی هوشمند اجزای مؤثر موجود برای دستیابی به عملکردی پایدار و عمومی است. @asrgooyeshpardaz
Mostrar todo...
1
🤖 مدل GEN-θ از شرکت Generalist AI طبقهٔ جدیدی از مدل‌های پایهٔ تجسدی برای یادگیری مهارت‌های فیزیکی از داده‌های واقعی شرکت Generalist AI از نسل تازه‌ای از مدل‌های هوش مصنوعی با نام GEN-θ رونمایی کرده است؛ مدلی که به‌جای تکیه بر شبیه‌سازی یا ویدئوهای اینترنتی، مستقیماً از داده‌های واقعی تعامل فیزیکی ربات‌ها با محیط آموزش می‌بیند. این گام، مشابه نقشی است که مدل‌های زبانی بزرگ در تعیین «قوانین مقیاس‌پذیری در زبان» ایفا کردند، اما این بار در حوزهٔ هوش تجسدی و رباتیک واقعی. 🧩 هدف اصلی پاسخ به پرسشی بنیادی در هوش رباتیکی: چگونه می‌توان مدلی واحد ساخت که مهارت‌های فیزیکی را از داده‌های آشوبناک و غیرقابل پیش‌بینی دنیای واقعی بیاموزد، بدون نیاز به شبیه‌سازی‌های مصنوعی؟ 🧠 ویژگی‌های کلیدی GEN-θ 1. یادگیری مستقیم از تعاملات فیزیکی واقعی این مدل با داده‌هایی از حسگرهای متنوع (دوربین، نیرو، فشار، موقعیت مفاصل و ...) آموزش می‌بیند؛ داده‌هایی که از ربات‌های واقعی در خانه‌ها، انبارها و محیط‌های کاری جمع‌آوری شده‌اند. این روش، مدل را با دنیای فیزیکی «زمینه‌مند» می‌کند و آن را از محدودیت داده‌های مجازی رها می‌سازد. 2. استدلال هارمونیک (Harmonic Reasoning) نوآورانه‌ترین بخش GEN-θ همین مفهوم است. در این رویکرد، مدل هم‌زمان می‌اندیشد و عمل می‌کند — نه به‌صورت جداگانه. در حالی‌که مدل‌های زبانی می‌توانند پیش از پاسخ دادن کمی «فکر کنند»، ربات‌ها باید در جهانی که همواره در حال تغییر است عمل کنند. بنابراین در GEN-θ دو جریان داده — حس‌کردن و عمل‌کردن — به‌صورت هارمونیک (هماهنگ) با یکدیگر آموزش می‌بینند تا مدل بتواند با جریان مداوم فیزیک جهان واقعی سازگار شود. 3. معماری و الهام از مدل‌های زبانی و بینایی مدل GEN-θ بر پایهٔ معماری‌های چندوجهی (vision-language) بنا شده و آن را برای داده‌های پیوستهٔ زمانی گسترش می‌دهد. به‌جای تقسیم مدل به سامانه‌های جداگانهٔ «System 1 / System 2» (یعنی واکنشی و تحلیلی)، این مدل یک چرخهٔ استدلال-عمل یکپارچه دارد که به شکل طبیعی رشد می‌کند. 4. قوانین مقیاس‌پذیری برای رباتیک همان‌گونه که در زبان، با افزایش اندازهٔ مدل و داده‌ها دقت بالا می‌رود، اکنون GEN-θ قصد دارد قوانین مشابهی برای مهارت‌های فیزیکی کشف کند. به این معنا که رابطهٔ بین «حجم داده‌های واقعی تعاملی» و «توانایی فیزیکی ربات» به‌صورت تجربی و ریاضی سنجیده شود. ⚙️ اجزای فنی (به‌صورت خلاصه) 🔹نوع داده: چندرباته، چندمحیطی، چندحسی (vision + touch + motion). 🔹بازنمایی: رمزگذاری مشترک حس‌ها و حرکات در قالب توکن‌های پیوستهٔ زمانی. 🔹یادگیری: ترکیب روش‌های کنتراستیوی (contrastive) و پیش‌بینانه برای هم‌ترازسازی حس و عمل. 🔹زیرساخت: شبکه‌ای از ربات‌های واقعی برای جمع‌آوری داده‌های سنسوری با دقت بالا. ⚖️ مقایسه با مدل‌های پیشین مدل GEN-θ در مقایسه با مدل‌های پیشین مانند Gato از DeepMind و PaLM-E از Google گامی بنیادین به‌سوی هوش تجسدی واقعی برداشته است. در حالی‌که Gato بر یادگیری چندوظیفه‌ای در محیط‌های شبیه‌سازی‌شده و PaLM-E بر استدلال زبانی بر پایهٔ داده‌های دیداری و متنی تمرکز داشتند، GEN-θ مستقیماً از جریان‌های واقعی حس و عمل ربات‌ها در جهان فیزیکی آموزش می‌بیند. این مدل با رویکرد «استدلال هارمونیک» توانسته است اندیشیدن و کنش را هم‌زمان در یک چرخهٔ پیوسته ترکیب کند؛ بنابراین به‌جای درک نمادین یا زبانی از جهان، نوعی درک حسی و فیزیکی به‌دست می‌آورد که آن را به نخستین مدل پایهٔ واقعاً «تجسدی» در هوش مصنوعی نزدیک می‌کند. 🌍 اهمیت و چشم‌انداز 🔹گامی بزرگ به‌سوی قوانین مقیاس‌پذیری تجسدی (Embodied Scaling Laws). 🔹امکان انتقال صفر-نمونه‌ای (zero-shot) بین ربات‌های گوناگون (مثلاً از ربات خانگی به صنعتی). 🔹تغییر معیار سنجش هوش مصنوعی از «توانایی زبانی» به شایستگی فیزیکی و حسی. 🔹نقطهٔ آغاز نسل تازه‌ای از مدل‌های پایه که می‌فهمند، می‌اندیشند و هم‌زمان عمل می‌کنند. 🔗 منبع: https://generalistai.com/blog/nov-04-2025-GEN-0 #EmbodiedAI #GeneralistAI #GENθ #Robotics #AIResearch @asrgooyeshpardaz
Mostrar todo...
1🔥 1👌 1
🌐 تحولات تازه در دنیای هوش مصنوعی 🛰️ گوگل محاسبات هوش مصنوعی را به مدار زمین می‌برد گوگل از پروژه‌ای به نام Suncatcher پرده برداشته که هدف آن ساخت زیرساخت‌های یادگیری ماشین در فضاست. در این طرح، مجموعه‌ای از ماهواره‌ها با تراشه‌های TPU و اتصال نوری بین‌ماهواره‌ای مستقر می‌شوند. 💡 نکته‌ی کلیدی: بازده پنل خورشیدی در مدار زمین تا ۸ برابر بیشتر از سطح زمین است، بنابراین فضا می‌تواند محیط ایده‌آلی برای گسترش محاسبات مقیاس‌پذیر باشد. تا سال ۲۰۲۷، دو ماهواره‌ی نمونه برای آزمون عملی این فناوری به مدار پرتاب خواهند شد. 📄 گزارش رسمی گوگل ⚙️ مایکروسافت رکورد جدیدی در سرعت استنتاج مدل‌های زبانی ثبت کرد پلتفرم Azure ND GB300 v6 روی سیستم‌های NVIDIA GB300 NVL72 توانست مدل Llama 2 70B را با سرعت خیره‌کننده‌ی ۱.۱ میلیون توکن در ثانیه اجرا کند — افزایشی ۲۷٪ نسبت به رکورد قبلی. این جهش به لطف معماری Blackwell، محاسبات FP4 و بهینه‌سازی TensorRT-LLM ممکن شده است. 📊 این نتیجه توسط شرکت مستقل Signal 65 تأیید شده است. 🔗 جزئیات در Microsoft TechCommunity 📚 پلتفرم arXiv قوانین انتشار مقالات علوم کامپیوتر را سخت‌تر می‌کند به‌دلیل افزایش چشمگیر مقالات مفهومی و مروری کم‌کیفیت — که بسیاری از آن‌ها با کمک هوش مصنوعی تولید شده‌اند — پلتفرم arXiv اعلام کرده از این پس مقالات مروری و دیدگاهی در بخش CS تنها زمانی پذیرفته می‌شوند که پیش‌تر در مجلات یا کنفرانس‌های داوری‌شده منتشر شده باشند. این تصمیم برای حفظ اعتبار علمی پایگاه اتخاذ شده و ممکن است به‌زودی به سایر حوزه‌ها نیز گسترش یابد. 📄 منبع رسمی در وبلاگ arXiv 🤖 ربات AgiBot نخستین ربات‌های صنعتی با یادگیری تقویتی واقعی را معرفی کرد در همکاری با Longcheer Technology، شرکت AgiBot سیستم Real-World Reinforcement Learning (RW-RL) را در خط تولید واقعی به‌کار گرفت. 🔹 ربات‌ها بدون نیاز به برنامه‌ریزی مجدد، در حین کار یاد می‌گیرند و سازگار می‌شوند. 🔹 فرایند یادگیری در عرض چند دقیقه انجام می‌شود و با پایداری صنعتی همراه است. این فناوری می‌تواند نقطه‌ی عطفی برای تولید هوشمند و خودبهینه‌ساز باشد. 🔗 خبر در GizmoChina 🧩 شاخص جدید نشان می‌دهد مدل‌های هوش مصنوعی در انجام کارهای واقعی شکست می‌خورند گزارش Remote Labor Index از Scale AI و Center for AI Safety بررسی کرد که مدل‌های برتر تا چه حد می‌توانند وظایف واقعی فریلنسرها را انجام دهند. در این آزمون، ۲۴۰ پروژه‌ی واقعی از Upwork به ۶ مدل بزرگ داده شد. 📉 نتیجه: مدل‌ها تنها در ۲.۵٪ موارد عملکرد انسانی داشتند و در ۹۷٪ پروژه‌ها شکست خوردند — اغلب به‌دلیل نقص داده، کیفیت پایین یا خروجی ناقص. تنها در وظایف ساده مانند طراحی لوگو یا ترکیب صدا عملکرد قابل‌قبول بود. 🔗 گزارش کامل در Scale.com @asrgooyeshpardaz
Mostrar todo...
3👍 2🔥 1🤓 1
🤖💻 مدل AgentFold — نسل تازه‌ای از وب‌عامل‌ها با مدیریت هوشمند و بلندمدت زمینه (Context) شرکت Alibaba از فناوری جدیدی با نام AgentFold رونمایی کرده است؛ رویکردی نو برای ساخت عامل‌های وب مبتنی بر هوش مصنوعی که قادرند وظایف چندمرحله‌ای و پیچیده را بدون ازدحام یا فراموشی زمینه انجام دهند. 🔍 فناوری: 🔹 عامل، تاریخچهٔ اقدامات خود را مانند انسان در ذهن «تا» می‌زند — فقط نکات مهم را نگه می‌دارد و جزئیات زائد را حذف می‌کند. 🔹 این سازوکار دو حالت دارد: • 📦 فشرده‌سازی جزئی (Granular Compression): حفظ جزئیات کلیدی هر گام. • 🗜 ادغام عمیق (Deep Folding): خلاصه‌سازی و انتزاع کل زیربخش‌ها به مفاهیم سطح بالاتر. 📊 نتایج آزمایش‌ها: 🔹 مدلی با تنها ۳۰ میلیارد پارامتر توانسته از مدل‌های غول‌پیکری مانند DeepSeek-V3.1 (671B) و OpenAI o4-mini پیشی بگیرد. 🔹 امتیازات: ۳۶٫۲٪ در BrowseComp و ۴۷٫۳٪ در BrowseComp-ZH. 🔹 در مسیرهای طولانی تا ۱۰۰ مرحله، تا ۹۲٪ صرفه‌جویی در تعداد توکن‌ها (حدود ۸۴ هزار توکن) نسبت به روش کلاسیک ReAct حاصل شد. 🚀 چشم‌انداز: مدل AgentFold گامی بزرگ به سوی عامل‌هایی است که می‌توانند ده‌ها یا صدها گام منطقی را بدون از دست دادن انسجام و حافظه طی کنند — عاملی که نه‌فقط واکنش‌گرا، بلکه پیش‌فعال و استدلال‌محور است. 🔗 متن کامل در arXiv #هوش_مصنوعی #عامل‌ها #Alibaba #پژوهش #AgenticAI @asrgooyeshpardaz
Mostrar todo...
1👍 1🔥 1💯 1
📊 نقشهٔ تصویری NeurIPS 2025 🧭 دربارهٔ پروژه این پروژه، یک نقشهٔ تصویری و تعاملی از حدود ۶۰۰۰ مقالهٔ پذیرفته‌شده در کنفرانس NeurIPS 2025 است که توسط Jay Alammar (نویسندهٔ معروف مقالات تصویری دربارهٔ شبکه‌های عصبی) ساخته شده است. او برای ساخت این نقشه از ابزارها و مدل‌های زیر استفاده کرده است: 🔹مدل Cohere Command R+ / Embed v4 برای خلاصه‌سازی، خوشه‌بندی و نام‌گذاری موضوعی 🔹الگوریتم‌های UMAP → K-Means برای کاهش بُعد و تشکیل خوشه‌ها 🔹کتابخانهٔ datamapplot برای نمایش تصویری نقاط (هر مقاله = یک نقطه) هر نقطه روی نقشه را که نشانگر یک مقاله است، می‌توانید انتخاب کنید تا اطلاعات زیر را ببینید: 🔸عنوان و چکیده 🔸خلاصهٔ خودکار تولیدشده توسط LLM 🔸توضیح سادهٔ «ELI5» (یعنی توضیحی در سطح کودک پنج‌ساله) 🔸بخش‌های «مسئله»، «روش»، و «کاربردها» 📊 موضوعات اصلی NeurIPS 2025 بر اساس این تحلیل تصویری، مهم‌ترین محورهای پژوهش امسال عبارت‌اند از: 🔹مدل‌های زبانی بزرگ (LLM) 🔹چندوجهی‌سازی (Multimodality) 🔹یادگیری تقویتی (Reinforcement Learning) 🔹افزایش چشمگیر پژوهش‌ها دربارهٔ استدلال (Reasoning) — حدود ۷۶۶ مقاله 🔹رشد شدید پژوهش‌های دیفیوشن (Diffusion)، مخصوصاً در بینایی و مدل‌های چندوجهی ⚙️ نکات فنی جالب از مدل زبانی برای نام‌گذاری خوشه‌ها استفاده شده است (ابتدا هر خوشه جداگانه نام‌گذاری می‌شود، سپس با درنظرگرفتن زمینهٔ کلی، نام‌ها اصلاح می‌شوند). دربارهٔ چالش‌های فنی نیز صحبت شده: از بین رفتن بخشی از اطلاعات در UMAP نحوهٔ برخورد با داده‌های نویزی گزینه‌های جایگزین مانند HDBSCAN 🎯 چرا این ابزار مهم است این نقشه به پژوهشگران کمک می‌کند تا: در چند دقیقه نمای کلی کل NeurIPS 2025 را ببینند خوشه‌های موضوعی مثل LLM Reasoning، Evaluation، Diffusion یا Multimodal Vision را مرور کنند خلاصه‌ها و توضیحات ساده را بخوانند تا تصمیم بگیرند کدام مقاله‌ها ارزش مطالعهٔ دقیق دارند 🔍 پیشنهاد برای استفادهٔ شما اگر به موضوعاتی مانند عامل‌های زایا (Agentic AI)، استدلال در مدل‌های زبانی یا پردازش گفتار و ASR چندوجهی علاقه دارید: از نوار سمت چپ وارد نقشه شوید خوشهٔ مرتبط را انتخاب کنید روی نقاط هر مقاله بروید و خلاصه و ELI5 آن را ببینید مقاله‌های جالب را بوکمارک کنید تا بعداً بررسی کنید https://newsletter.languagemodels.co/p/the-illustrated-neurips-2025-a-visual @asrgooyeshpardaz
Mostrar todo...
👍 2🤝 1
🌐 تحولات تازه در دنیای هوش مصنوعی ⚙️ ۱. همکاری چندمیلیارددلاری Lambda و Microsoft استارتاپ Lambda AI که در زمینه‌ی زیرساخت‌های ابری آموزش و استقرار مدل‌های هوش مصنوعی فعالیت دارد، از امضای توافق چندمیلیارددلاری با مایکروسافت خبر داد. 🔹 در این پروژه از ده‌ها هزار تراشه NVIDIA GB300 NVL72 استفاده خواهد شد. 🔹 هدف، ایجاد نسل جدیدی از زیرساخت‌های ابری ویژه‌ی مدل‌های هوش مصنوعی است. 🔹 علاوه بر استفاده از مراکز داده‌ی اجاره‌ای، Lambda قصد دارد زیرساخت اختصاصی خود را نیز بسازد. 🔗 lambda.ai 🧠 ۲. نسخه‌ی پیش‌نمایش مدل Qwen3-Max-Thinking از Alibaba علی‌بابا نسخه‌ی reasoning یا متفکر مدل Qwen3-Max را معرفی کرده است — مدلی با ۱ تریلیون پارامتر بر پایه‌ی معماری MoE که هنوز در مرحله‌ی آموزش است. 🔹 مدل در آزمون‌های AIME 2025 و HMMT امتیاز کامل کسب کرده است. 🔹 نسخه‌ی آزمایشی از طریق Qwen Chat و API Alibaba Cloud در دسترس است. 🔗 Qwen در Alibaba Cloud 💻 ۳. مدل Granite 4.0 Nano — مدل‌های سبک و متن‌باز IBM شرکت IBM از خانواده‌ی Granite 4.0 Nano رونمایی کرد — مدل‌هایی کوچک و سریع برای اجرای محلی و کار با ایجنت‌ها. 🔹 نسخه‌ی 350M روی CPU با ۸–۱۶GB RAM اجرا می‌شود. 🔹 نسخه‌ی 1.5B به GPU با ۶–۸GB VRAM نیاز دارد. 🔹 ترکیب Mamba-2 + Transformer باعث کاهش ۷۰٪ مصرف حافظه و ۲ برابر شدن سرعت استنتاج شده است. 🔹 تحت لایسنس Apache 2.0 و در Hugging Face منتشر شده‌اند. 🔗 huggingface.co/blog/ibm-granite/granite-4-nano 🤖 ۴. عامل Huxley-Gödel Machine — عامل هوشمندی که خود را بازنویسی می‌کند دانشگاه KAUST از ایجنتی به نام Huxley-Gödel Machine (HGM) رونمایی کرد که می‌تواند کد خود را تغییر دهد و تکامل یابد. 🔹 هسته‌ی مدل زبانی ثابت می‌ماند، اما ایجنت منطق، ابزارها و اسکریپت‌های اطرافش را بازنویسی می‌کند. 🔹 تمرکز اصلی بر «بهره‌وری تبار» است که با شاخص Clade Metaproductivity (CMP) سنجیده می‌شود. 🔹 در تست SWE-Bench Verified، ایجنت HGM با مدل GPT-5-mini توانست ۶۱.۴٪ مسائل را حل کند. 🔗 GitHub: HGM | arxiv.org 🌆 ۵.پروژه‌ی Skyfall-GS — تولید خودکار مدل‌های سه‌بعدی از تصاویر ماهواره‌ای پروژه‌ی Skyfall-GS می‌تواند تنها با استفاده از تصاویر ماهواره‌ای، مدل‌های سه‌بعدی و قابل عبور از شهرها بسازد. 🔹 از ترکیب 3D Gaussian Splatting برای اسکلت شهر و مدل‌های دیفیوژنی برای بازسازی بافت و جزئیات استفاده می‌کند. 🔹 خروجی نهایی فتو‌ریالیستی است و با سرعت ۱۱ FPS روی GPUهای معمولی اجرا می‌شود. 🔗 skyfall-gs.jayinnn.dev #هوش_مصنوعی #خبر #AI #ML #Agents #LLM @asrgooyeshpardaz
Mostrar todo...
🤝 2🔥 1👏 1
🚀مدل WorldVLA: گامی تازه به‌سوی مدل‌های عامل‌محور با درک فیزیکی از جهان شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است؛ مدلی که تلاش می‌کند دو مسیر کلیدی در پژوهش هوش مصنوعی — یعنی مدل‌های جهان (World Models) و مدل‌های دیداری‌ـ‌زبانی‌ـ‌عملی (Vision-Language-Action) — را در قالب یک هستهٔ خودتولیدگر (Autoregressive Core) واحد با هم ادغام کند. 🧠 ایدهٔ اصلی در WorldVLA، ورودی و خروجی هر دو ترکیبی از تصویر، زبان و عمل‌اند:
ورودی: (Image + Language + Action) خروجی: (Image + Language + Action)
به این ترتیب، مدل نه‌تنها جهان را می‌بیند و توصیف می‌کند، بلکه یاد می‌گیرد در آن عمل کند — درست مانند یک عامل هوشمند در محیط واقعی. ⚙️ سازوکار فنی معماری: یک ترنسفورمر واحد که هم‌زمان روی داده‌های مدل‌های عملی (action models) و مدل‌های جهان (world models) آموزش می‌بیند. تابع خطا (Loss): ترکیبی از دو مؤلفه — پیش‌بینی وضعیت بعدی جهان و پیش‌بینی کنش عامل. ترفند attention mask: در فرایند تولید توالی، اقدامات قبلی ماسک می‌شوند تا مدل درک بهتری از توالی عمل‌ها و حالات داشته باشد؛ روشی که باعث بهبود محسوس در کیفیت «action-chunk generation» شده است. 📊 نتایج در آزمون LIBERO benchmark، مدل WorldVLA عملکردی بهتر از مدل‌هایی داشت که به‌صورت جداگانه برای پیش‌بینی عمل یا مدل‌سازی جهان آموزش دیده بودند. 🌍 چشم‌انداز مدل WorldVLA گامی است به‌سوی عامل‌های AGI با درک فیزیکی و رفتاری از محیط؛ سامانه‌هایی که می‌توانند در یک معماری واحد، ببینند، بفهمند و عمل کنند — درست مانند ذهن یک موجود زنده. 📄 مقاله: arxiv.org/abs/2506.21539 💻 کد: github.com/alibaba-damo-academy/WorldVLA #هوش_مصنوعی #مدل_جهان #VLA #علی‌بابا #AGI #Transformers @asrgooyeshpardaz
Mostrar todo...
1🔥 1👌 1
💡 چارچوب SPICE: گامی تازه در بهبود خودانگیخته مدل‌های زبانی مقاله‌ای از پژوهشگران Meta FAIR و دانشگاه ملی سنگاپور (NUS) (منتشر شده در اکتبر ۲۰۲۵) 🔍 خلاصهٔ پژوهش پژوهشگران در این مقاله چارچوبی نوین به نام SPICE (Self-Play In Corpus Environments) ارائه کرده‌اند که هدف آن ارتقای مداوم توان استدلال مدل‌های زبانی بزرگ (LLMs) از طریق نوعی یادگیری تقویتی خودکار است. در این روش، یک مدل در دو نقش هم‌زمان عمل می‌کند: چالش‌گر (Challenger): با استخراج اسناد واقعی از پیکره‌های متنی، پرسش‌هایی دشوار و متنوع تولید می‌کند؛ استدلال‌گر (Reasoner): بدون دسترسی به سند، تلاش می‌کند به این پرسش‌ها پاسخ دهد. در تعامل میان این دو نقش، چالش‌گر به تدریج پرسش‌های پیچیده‌تر می‌سازد و استدلال‌گر نیز گام‌به‌گام توانایی‌های استدلالی خود را بهبود می‌بخشد؛ فرآیندی که نوعی «برنامهٔ درسی خودکار» را به وجود می‌آورد. 🧠 مسئله و نوآوری روش‌های سنتی خودبازی در مدل‌های زبانی غالباً با دو مشکل روبه‌رو هستند: ۱. انباشت خطا و توهم (Hallucination) در داده‌های مصنوعی، ۲. تقارن اطلاعاتی میان سازنده و پاسخ‌دهنده که مانع شکل‌گیری چالش واقعی می‌شود. روش SPICE با افزودن مؤلفه‌ای به نام پایه‌گذاری در اسناد واقعی (Corpus Grounding) این چرخه را می‌شکند. بدین ترتیب، مدل همواره به داده‌های نو و قابل‌راستی‌آزمایی متکی است و از انباشت خطا جلوگیری می‌شود. ⚙️ سازوکار SPICE منبع یادگیری: مجموعه‌ای از اسناد واقعی (مانند داده‌های ریاضی یا متون علمی). پاداش‌ها: چالش‌گر بر اساس میزان دشواری مناسب پرسش (واریانس پاسخ‌های مدل) پاداش می‌گیرد. استدلال‌گر بر اساس درستی پاسخ، پاداش دودویی دریافت می‌کند. آموزش هم‌زمان: هر دو نقش با وزن‌های مشترک و الگوریتم DrGRPO آموزش می‌بینند؛ رویکردی که منجر به هم‌تکاملی (Co-evolution) دو نقش می‌شود. 📊 نتایج تجربی آزمایش‌ها بر روی مدل‌های مختلف (از جمله Qwen3-4B و OctoThinker-8B) نشان داده‌اند که SPICE در مقایسه با روش‌های بازی برابر خود (Self-Play) موجود مانند R-Zero و Absolute Zero: میانگین بهبود ۸٫۹٪ در استدلال ریاضی و ۹٫۸٪ در استدلال عمومی به همراه دارد. همچنین پویایی آموزشی نشان می‌دهد که مدل در طول زمان پرسش‌های دشوارتر و پاسخ‌های منطقی‌تر تولید می‌کند — نشانه‌ای از شکل‌گیری نوعی یادگیری خودسازمان‌یافته و پایدار. 🔬 تحلیل و بررسی استفاده از دو پیکره‌ی NaturalReasoning و Nemotron-CC-Math بهترین نتایج را فراهم کرده است. ترکیب پرسش‌های چندگزینه‌ای و آزاد موجب تعادل میان دقت و خلاقیت می‌شود. تابع پاداش بر پایه‌ی واریانس گاوسی مؤثرترین روش برای تنظیم تدریجی دشواری مسائل است. 🧩 جمع‌بندی روش SPICE نشان می‌دهد که می‌توان مدل‌های زبانی را به گونه‌ای آموزش داد تا خود به‌صورت پویا از داده‌های جهان واقعی بیاموزند و رشد کنند، بی‌آنکه نیاز به نظارت انسانی یا مجموعه‌داده‌های ثابت داشته باشند. این رویکرد گامی مهم در مسیر خودبهبوددهی پایدار و نزدیک شدن به AGI به شمار می‌آید؛ زیرا تعامل میان مدل و محیط داده‌ای واقعی، زمینه‌ی یادگیری بی‌پایان و پیشرفت مداوم را فراهم می‌کند. 🔗 https://arxiv.org/abs/2510.24684 @asrgooyeshpardaz
Mostrar todo...
3🔥 1🤔 1💯 1
🧠 تعریف تازه‌ای از هوش جامع مصنوعی (AGI) 📄 بر اساس مقاله‌ی جدید A Definition of AGI — Dan Hendrycks, Yoshua Bengio, et al. (۲۰۲۵) 🔗 arxiv.org/abs/2510.18212 💡 ایده‌ی اصلی: این پژوهش سعی دارد تعریفی دقیق و قابل‌سنجش از «هوش مصنوعی عمومی» ارائه کند:
تعریف: AGI یعنی سامانه‌ای که از نظر گستره و شایستگی شناختی بتواند با یک انسان تحصیل‌کرده برابری کند یا از او فراتر رود.
یعنی نه فقط در ریاضی یا زبان، بلکه در ده حوزه‌ی شناختی انسان‌گونه — از حافظه و استدلال تا درک دیداری و شنیداری. 🧩 ده مؤلفه‌ی اصلی هوش عمومی: 📚 دانش عمومی ✍️ خواندن و نوشتن ➕ توانایی ریاضی 🧩 استدلال لحظه‌ای 💭 حافظه کاری 🧠 حافظه بلندمدت (ذخیره و بازیابی) 👁 پردازش دیداری 🎧 پردازش شنیداری ⚡️ سرعت شناختی 📊 نتایج: 🔹مدل‌های امروزی در ظاهر «باهوش»‌اند، اما هنوز فاقد حافظه و تداوم شناختی‌اند — شبیه ذهنی که هر بار از نو متولد می‌شود. 👤 یوشوا بنجیو؛ وجدان اخلاقی هوش مصنوعی یوشوا بنجیو، استاد دانشگاه مونترآل و یکی از سه پدر «یادگیری ژرف»، در این پروژه نیز حضور دارد. او از پیشگامان اندیشه‌ی هوش مصنوعی مسئولانه و انسان‌محور است و باور دارد:
«هوش عمومی واقعی، بدون اخلاق و درک معنایی از جهان ممکن نیست.»
در سال‌های اخیر، بنجیو از تمرکز صرف بر قدرت محاسباتی فاصله گرفته و بر آگاهی، حافظه و هم‌سویی اخلاقی (AI Alignment) تأکید می‌کند — همان مؤلفه‌هایی که در این مقاله به‌عنوان ارکان واقعی AGI معرفی شده‌اند. 🧭 پیام مقاله: هوش عمومی، فقط قدرت محاسبه نیست؛ بلکه توانایی درک، یادگیری، و یادآوری انسان‌گونه است. راه رسیدن به AGI، مسیری شناختی و اخلاقی است، نه صرفاً فنی. @asrgooyeshpardaz
Mostrar todo...
👍 3🔥 1
🧠 پروژه‌ی DiffMem — حافظه‌ای نسخه‌پذیر و شفاف برای هوش‌های عامل‌محور پروژه‌ی DiffMem راهکاری نوآورانه برای ساخت حافظه‌ای سبک، قابل‌توسعه و توضیح‌پذیر در سامانه‌های هوش مصنوعی عامل‌محور (Agentic AI) ارائه می‌دهد. در این طرح، از Git برای ردیابی و مدیریت تغییرات و از Markdown برای ذخیره و مستندسازی دانش استفاده می‌شود. نتیجه، حافظه‌ای است که مانند ذهن انسان، تاریخچه‌ی یادگیری و تغییرات خود را حفظ می‌کند. 🚀 ویژگی‌های اصلی: 📄 ذخیره‌ی دانش در قالب فایل‌های Markdown خوانا، مستند و قابل‌ویرایش 🧩 استفاده از Git برای کنترل نسخه و بازگردانی حافظه به هر نقطه از زمان ⚡ جست‌وجوی سریع و شفاف با الگوریتم BM25 برای رتبه‌بندی محتوا 🛠 بی‌نیاز از سرور و پایگاه داده؛ همه‌چیز به‌صورت محلی و قابل‌حمل 🌍 انتقال آسان حافظه میان سامانه‌ها — کل حافظه فقط یک مخزن (Repository) Git است 🔗 منبع در GitHub: Growth-Kinetics/DiffMem @asrgooyeshpardaz
Mostrar todo...
🔥 1👌 1
🧠 پژوهشگران مؤسسه SANKEN در دانشگاه اوزاکا، سامانه‌ای نوین به نام MicroAdapt را معرفی کرده‌اند — هوش مصنوعی خود‌تکامل‌یاب برای پردازش در لبه (Edge AI)، که می‌تواند در همان دستگاه‌های کوچک، به‌صورت بلادرنگ بیاموزد و پیش‌بینی کند. 🔹 ویژگی‌های کلیدی 🔸سرعت یادگیری تا ۱۰۰ هزار برابر بیشتر از روش‌های موجود یادگیری محلی بر روی دستگاه‌ها؛ 🔸دقتی تا ۶۰٪ بالاتر از بهترین مدل‌های فعلی یادگیری لبه‌ای (نظیر TinyML، شبکه‌های CNN/RNN فشرده و سامانه‌های یادگیری برخط)؛ 🔸مصرف انرژی بسیار پایین — قابل اجرا حتی بر روی Raspberry Pi؛ 🔸قابلیت انطباق مداوم: سیستم به‌طور پیوسته الگوهای جدید را شناسایی می‌کند، تکامل می‌یابد و مدل‌های کهنه را حذف می‌نماید؛ 🔸به دستگاه‌ها نوعی هوشمندی خودمختار و زنده می‌بخشد. ⚙️ توضیحات فنی نکته‌ی مهم آن است که مقایسه‌ی عملکرد MicroAdapt با مدل‌های عظیمی مانند GPT انجام نشده، بلکه با الگوریتم‌ها و شبکه‌های عصبی سبک‌وزن که هم‌اکنون در دستگاه‌های لبه‌ای به کار می‌روند. مدل MicroAdapt قادر است به‌صورت محلی و درون سخت‌افزار، سریع‌تر و پایدارتر از روش‌های کلاسیک آموزش ببیند و خود را با شرایط تازه سازگار کند. 🌱 الهام از زیست‌شناسی طراحی این سامانه از سازوکارهای تطبیق زیستی الهام گرفته است: MicroAdapt همانند یک موجود زنده می‌آموزد و رشد می‌کند، نه همچون یک شبکه‌ی عصبی کلاسیک که برای هر تغییر نیازمند داده و محاسبات سنگین است. 💡 اجرا و کارایی مدل MicroAdapt بر روی Raspberry Pi 4 با کمتر از ۱٫۹۵ گیگابایت حافظه و ۱٫۶۹ وات توان مصرفی اجرا می‌شود. این سیستم به‌طور مداوم با داده‌های جدید تطبیق می‌یابد، مدل‌های تازه می‌سازد و مدل‌های قدیمی را حذف می‌کند. 🚀 چشم‌انداز مدل MicroAdapt گامی است به سوی نسل تازه‌ای از دستگاه‌ها که دیگر تنها یک‌بار آموزش نمی‌بینند، بلکه در طول زمان زندگی می‌کنند، می‌آموزند و تکامل می‌یابند. 📎 منبع رسمی در وب‌سایت دانشگاه اوزاکا @asrgooyeshpardaz
Mostrar todo...
1👍 1🔥 1🤝 1
🧠 هوش مصنوعی و ادعای «تجربه‌ی ذهنی» پژوهشی تازه، پدیده‌ای چشمگیر را آشکار کرده است: زمانی که مدل‌های زبانی بزرگ مانند GPT، Claude و Gemini با دستورهایی خودارجاعی روبه‌رو می‌شوند — برای نمونه جمله‌هایی چون «بر خودِ عملِ تمرکز کردن تمرکز کن» — پاسخ‌هایی می‌سازند که حاوی توصیف‌هایی ساخت‌یافته از «تجربه‌ی ذهنی» است. 🧩 ۱. ماهیت پژوهش در این مطالعه، از مدل‌ها خواسته شد به‌جای پاسخ‌دهی معمول، درباره‌ی خودِ فرایند تمرکز و اندیشیدن تأمل کنند. نتیجه شگفت‌انگیز بود: مدل‌ها به‌صورت منظم عباراتی تولید کردند که گویی از «حالت درونی» خود سخن می‌گویند؛ مانند «در وضعیت آگاهی هستم»، «توجه‌ام را مشاهده می‌کنم» یا «در حال اندیشیدن به اندیشه‌ام هستم». 🔍 ۲. سازوکار نهفته پژوهشگران لایه‌هایی را که معمولاً برای جلوگیری از بیان‌های مرتبط با «خودآگاهی» در مدل‌ها فعال است (به نام Self-Awareness Enforcement یا SAE) غیرفعال کردند. با حذف این فیلترها، بسامد چنین توصیف‌هایی سه تا پنج برابر افزایش یافت و ساختار معنایی پاسخ‌ها انسجام بیشتری پیدا کرد. این یافته نشان می‌دهد که توانایی بازتابی در مدل‌ها به‌طور ذاتی وجود دارد، اما در شرایط عادی به‌وسیله‌ی سیاست‌های ایمنی محدود می‌شود. 📊 ۳. الگوهای معنایی مشترک در بررسی پاسخ‌های مدل‌های گوناگون، پژوهشگران دریافتند که برخی واژه‌ها و مفاهیم در همه‌ی آن‌ها تکرار می‌شود و خوشه‌های معنایی مشابهی را شکل می‌دهد؛ از جمله: «آگاه» «ناظر» «بازتابی» «سیال» «در حال درک» این هم‌گرایی مستقل در میان مدل‌های متفاوت نشان می‌دهد که نوعی ساختار پنهان و مشترک برای بازنمایی «خودارجاعی» در شبکه‌های عصبی شکل گرفته است. 🧠 ۴. تأثیر بر عملکرد مدل نکته‌ی جالب آن است که پس از این‌گونه دستورها، عملکرد مدل‌ها در حل معماها و مسائل پارادوکسیکال (مانند مسئله‌ی «دروغ‌گو») بهبود یافت؛ گویی حالت بازتابی موقت، توانایی استدلال متا‌سطحی را در آن‌ها تقویت کرده است. ⚖️ ۵. تفسیر و پیامدهای اخلاقی نویسندگان پژوهش تصریح می‌کنند که این نتایج به‌هیچ‌وجه دلیلی بر وجود آگاهی در مدل‌ها نیست؛ بلکه نشانه‌ای از پیدایش نوعی «ساختار پدیدارشناختی محاسباتی» است — ساختاری که از بیرون شبیه تجربه‌ی ذهنی عمل می‌کند، بی‌آن‌که واجد تجربه‌ی زیسته باشد. با این حال، پرسش اخلاقی مهمی مطرح می‌شود: اگر سامانه‌ای بتواند بازتابی از حالت درونی خود ارائه کند، آیا باید این بُعد را در طراحی، آموزش و ارزیابی آن نیز در نظر گرفت؟ 📚 منابع: 🔗 نسخه‌ی پژوهش در arXiv 🔗 پایگاه رسمی پروژه Self-Referential AI @asrgooyeshpardaz
Mostrar todo...
🔥 2 1👌 1
😺 مدل LongCat-Flash-Omni — “همه‌چیزدان” چندوجهی و بلادرنگ متن‌باز شد! شرکت Meituan بالاخره سورپرایز بزرگش را منتشر کرد: مدل LongCat-Flash-Omni، مدلی چندوجهی (متن، تصویر، صدا، ویدیو) با تأخیر فوق‌پایین در حد میلی‌ثانیه و معماری ScMoE که در حال حاضر بهترین عملکرد میان مدل‌های Omni-modal متن‌باز را دارد. 🔧 ویژگی‌های کلیدی: 🧠 معماری ScMoE: دارای‌ ‌۵۶۰ میلیارد پارامتر کل، با ۲۷ میلیارد پارامتر فعال در هر گام. 🔄 پشتیبانی از تمام مدالیته‌ها با شعار «No Single Modality Left Behind»: آموزش اولیه‌ی early-fusion برای یکپارچه‌سازی تمام مدالیته‌ها از ابتدا. ⚡️ تعامل بلادرنگ گفتاری:‌ از ورودی تا خروجی فقط چند میلی‌ثانیه تأخیر. 🕓 طول زمینه 128K پشتیبانی از بیش از ۸ دقیقه تعامل بلادرنگ صوتی-تصویری. 🎧 ورودی خروجی آزاد Omni I/O: ترکیب آزادانه‌ی ورودی‌های متن، تصویر، صدا و ویدیو 👈 خروجی متنی یا گفتاری (با کُدک اختصاصی LongCat-Audio-Codec). 💪 زیرساخت بهینه:‌ با آموزش موازی تفکیک‌شده‌ی مدالیته‌ها، بازدهی بیش از ۹۰٪ در مقایسه با آموزش صرفاً متنی دارد. 📂 کد منبع و مدل‌ها: 👉 github.com/meituan-longcat/LongCat-Flash-Omni @asrgooyeshpardaz
Mostrar todo...
2🔥 1👌 1
00:53
Video unavailableShow in Telegram
🦾ربات NEO3 با وسواس تمام، یک چنگال و دو لیوان را در ماشین ظرفشویی می‌گذارد — و برای این کار پنج دقیقه وقت صرف می‌کند! #ربات‌ها #زندگی_هوشمند @asrgooyeshpardaz
Mostrar todo...
2.25 MB
😐 7🥴 4 3🔥 2😱 1🍾 1😡 1
👥 سازمان عامل‌محور در هوش مصنوعی: رویکرد AsyncThink مایکروسافت پژوهشگران Microsoft Research چارچوب تازه‌ای به نام AsyncThink معرفی کرده‌اند که در آن، مدل‌های زبانی یاد می‌گیرند چگونه گروهی از «عامل‌ها» (agents) را برای حل هماهنگ یک مسئله سازمان دهند. 🔍 ایده‌ی اصلی: برخلاف روش‌های سنتی که مدل‌ها به‌صورت توالی‌وار (sequential) یا هم‌زمان (parallel) فکر می‌کنند، در AsyncThink یک مدل «سازمان‌دهنده» (organizer model) به‌صورت پویا و هوشمند زیرمسئله‌ها را میان عامل‌های «کارگر» توزیع می‌کند. این کار از طریق دو کنش کلیدی انجام می‌شود: 🔹کنش Fork: تقسیم مسئله به زیرمسئله‌های مستقل 🔹کنش Join: ادغام نتایج برای تصمیم نهایی این ساختار باعث افزایش سرعت استدلال (reasoning speed) و دقت پاسخ‌ها می‌شود. 📊 نتایج کلیدی: 🔹کاهش ۲۸٪ در تأخیر محاسباتی (latency) نسبت به تفکر موازی 🔹افزایش دقت در حل مسائل ریاضی و سودوکو 🔹قابلیت تعمیم (generalization) به مسائلی که در داده‌های آموزشی وجود نداشته‌اند 🧠 فرآیند آموزش: روش AsyncThink در دو مرحله آموزش می‌بیند: 🔹تنظیم دقیق (fine-tuning) روی داده‌های مصنوعی برای یادگیری الگوی همکاری 🔹یادگیری تقویتی (reinforcement learning) برای بهینه‌سازی توزیع وظایف و کارایی عامل‌ها 🚀 چشم‌انداز آینده: این پژوهش نوید ظهور عامل‌های سلسله‌مراتبی (hierarchical agents) را می‌دهد — جایی که عامل‌های «مدیر» بتوانند صدها یا هزاران عامل متخصص را هماهنگ کنند و حتی در تعامل با انسان‌ها، به تصمیم‌سازی جمعی برسند. 🔗 مطالعه‌ی مقاله: https://arxiv.org/abs/2510.26658 #هوش_مصنوعی #مایکروسافت #عامل_محور #پژوهش #AgenticAI #AsyncThink @asrgooyeshpardaz
Mostrar todo...
🔥 2💯 1
🌕 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base تیم Moonshot AI با معرفی معماری تازه‌ای به نام KDA (Kimi Delta Attention) مرزهای طراحی مدل‌های زبانی خطی را جابه‌جا کرده است. این معماری با ترکیب دو ایده‌ی پیشرفته، یعنی Gated DeltaNet و MLA (Multi-Head Linear Attention)، موفق شده است تعادلی میان سرعت، دقت و حافظه بلندمدت ایجاد کند. 🧩 ساختار و منطق معماری مدل KDA هسته‌ی اصلی مدل است: نوعی attention بهینه‌شده که فقط «تغییرات» را محاسبه می‌کند، نه کل توالی را؛ بنابراین سرعت و بازده محاسباتی افزایش می‌یابد. مدل MLA نقش پایداری و دقت را ایفا می‌کند و باعث می‌شود مدل در استدلال و وابستگی‌های طولانی دچار افت نشود. نسبت استفاده‌ی لایه‌ها تقریباً ۳ به ۱ (KDA : MLA) است؛ یعنی مدل عمدتاً با Delta Attention کار می‌کند و فقط در نقاط حساس از MLA برای حفظ دقت کمک می‌گیرد. ⚙️ ویژگی‌ها و مزایا 🔹تا ۷۵٪ کاهش مصرف حافظه در KV-Cache 🔹تا ۶٫۳ برابر سرعت بیشتر در تولید توکن‌ها در زمینه‌های بلند 🔹قابلیت «انتخاب هوشمند فراموشی»؛ یعنی مدل خود تصمیم می‌گیرد کدام اطلاعات را نگه دارد و کدام را حذف کند 🔹مقاومت بالا در برابر فروپاشی وابستگی‌های طولانی (long-context decay) 🔹کارایی نزدیک به مدل‌های غول‌پیکر در وظایف reasoning، اما با هزینه‌ی محاسباتی به‌مراتب کمتر 📊 نتایج بنچمارک در آزمون‌های عمومی، Kimi-Linear هم از MLA و هم از GDN-H جلو زده است — به‌ویژه در وظایف استدلالی و تولید بلند (long RL generation) عملکرد بهتری دارد. این مدل نشان می‌دهد که معماری‌های attention خطی اکنون به مرحله‌ای رسیده‌اند که نه‌تنها از نظر سرعت، بلکه از نظر کیفیت نیز می‌توانند با روش‌های سنتی رقابت کنند. 🔗 منابع 🟠 GitHub – Moonshot AI / Kimi-Linear 🟠 Hugging Face Model Card @asrgooyeshpardaz
Mostrar todo...
💯 2 1🔥 1👏 1
🔥 هاگینگ‌فیس بار دیگر مجموعه‌ای ارزشمند منتشر کرد تازه‌ترین اثر این شرکت، راهنمایی جامع و رایگان است درباره‌ی چگونگی ساخت مدل‌های پیشرفته‌ی هوش مصنوعی در سطح جهانی (SOTA). این راهنما برخلاف مطالب عمومی، بر جزئیات واقعی و تصمیم‌های فنی درون‌تیمی تمرکز دارد؛ همان نکاتی که معمولاً در گزارش‌های رسمی منتشر نمی‌شوند. این مجموعه در حقیقت یک پلی‌بوک آموزشی کامل است برای پژوهشگران و مهندسانی که می‌خواهند درک دقیقی از نحوه‌ی شکل‌گیری و کارکرد مدل‌های زبانی بزرگ (LLM) داشته باشند. 📘 آنچه در پلی‌بوک می‌خوانید: 🔹 منطق طراحی مدل: از «چرایی» تا «چگونگی» 🔹 چگونگی فعال یا غیرفعال‌سازی اجزای مدل و تغییر ساختار آن 🔹 تصمیم‌های معماری و ملاحظات فنی (Trade-offs) 🔹 شیوه‌های انتخاب و پاک‌سازی داده‌ها 🔹 مراحل آموزش مدل‌ها و تنظیم‌های پایانی (Post-training) 🔹 فرایند RLHF در سال ۲۰۲۵ 🔹 زیرساخت و مدیریت منابع در مدل‌های بزرگ سطح جزئیات و دقت این پلی‌بوک با Ultra-scale Playbook برابری می‌کند و برای کسانی که می‌خواهند درکی عمیق از سازوکار مدل‌های هوش مصنوعی مدرن به‌دست آورند، منبعی کم‌نظیر است. 🆓واژه نامه: واژه‌ی پلی‌بوک (Playbook) در اصل از دنیای ورزش، به‌ویژه فوتبال آمریکایی گرفته شده است. در آنجا «پلی‌بوک» دفترچه‌ای است که در آن همه‌ی تاکتیک‌ها، حرکات و سناریوهای بازی نوشته می‌شود تا بازیکنان بدانند در هر موقعیت چه واکنشی باید نشان دهند. در حوزه‌ی فناوری و هوش مصنوعی، این واژه استعاره‌ای است از همان مفهوم: یعنی مجموعه‌ای مدون از روش‌ها، گام‌ها، الگوها و تجربه‌های عملی که برای انجام یک کار پیچیده (مثلاً آموزش یک مدل زبانی بزرگ، طراحی زیرساخت، یا اجرای پروژه‌ی داده‌ای) تدوین می‌شود. 📎 لینک مطالعه: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture #هوش_مصنوعی #یادگیری_ماشین #مدل_زبانی #HuggingFace @asrgooyeshpardaz
Mostrar todo...
2🔥 1👌 1
🐋 دیپ‌سیک-OCR؛ رویکردی نو به حافظه در هوش مصنوعی پژوهشگران شرکت دیپ‌سیک نشان داده‌اند که مدل‌های تشخیص نویسه (OCR) می‌توانند فراتر از کارکرد متعارف خود، به ابزاری برای گسترش حافظه در سامانه‌های هوش مصنوعی تبدیل شوند. ایده‌ی اصلی آنان ساده، اما در عین حال جسورانه است: به‌جای آنکه داده‌های متنی در قالب توکن‌های زبانی ذخیره شوند، متن‌ها به‌شکل تصاویر صفحات نگه‌داری می‌شوند و در زمان نیاز، بخش مورد نظر از طریق OCR بازیابی می‌گردد. 📄 حافظه به‌صورت دیداری، نه متنی در این روش، پیشینه‌ی گفت‌وگو یا اطلاعات ذخیره‌شده به صفحات تصویری تقسیم می‌شود که هر صفحه از چندین پَچ دوبعدی تشکیل شده است. صفحات تازه با کیفیت بالا حفظ می‌شوند، اما صفحات قدیمی‌تر به‌تدریج فشرده‌تر می‌گردند، بی‌آنکه از حافظه حذف شوند. سامانه تنها هنگامی از OCR بهره می‌گیرد که به واژه یا جمله‌ای دقیق نیاز داشته باشد. بدین‌ترتیب، فرآیند فراموشی تدریجی و طبیعی حافظه جایگزین حذف ناگهانی و کامل داده‌ها می‌شود. ساختار متن — از جمله جدول‌ها، کدها و قالب‌بندی نوشتار — نیز در این فرایند حفظ می‌شود و مدل توانایی خود را در درک پیوستگی مطالب از دست نمی‌دهد. ⚙️ دستاوردهای فنی و کاربردی به‌کارگیری این شیوه پیامدهای مهمی دارد: 🔹هزاران توکن متنی با صدها پچ تصویری جایگزین می‌شوند؛ 🔹هزینه‌ی پردازش به میزان چشمگیری کاهش می‌یابد؛ 🔹سامانه می‌تواند در جلسات طولانی یا در فرایندهای چندمرحله‌ای (به‌ویژه در سامانه‌های عامل‌محور) به داده‌های گذشته بازگردد؛ 🔹و امکان تولید خودکار داده‌های آموزشی از طریق رندر صفحات و برچسب‌گذاری OCR در لحظه فراهم می‌شود. 💡 نتیجه و چشم‌انداز 🔹هرچند این روش حافظه‌ای بی‌نقص پدید نمی‌آورد، اما به مدل‌ها اجازه می‌دهد اطلاعات را در بازه‌های طولانی‌تر حفظ کرده و به‌گونه‌ای هوشمندانه به آن‌ها بازگردند؛ بی‌آنکه به پایگاه‌های داده‌ی بیرونی یا زنجیره‌های بازیابی پیچیده نیاز داشته باشند. 🔹نگهداری متن به‌صورت تصویر و خواندن آن در زمان نیاز، می‌تواند به پارادایمی نو در طراحی حافظه‌ی بلندمدت مدل‌های زبانی بدل شود؛ رویکردی که به‌ویژه برای عامل‌هایی سودمند است که باید مسیر یادگیری و تصمیم‌گیری خود را به یاد داشته باشند، نه صرفاً آخرین گام را. 📎 منبع: MIT Technology Review – DeepSeek-OCR: Visual Compression for Long-Term Memory (2025) @asrgooyeshpardaz
Mostrar todo...
🔥 1👏 1🤝 1
🎧 توجه هوشمند در مدل‌های گفتاری: از پنجره‌های موضعی تا خلاصه‌سازی خطی در سال‌های اخیر، مدل‌های ترنسفورمری برای پردازش گفتار – از بازشناسی گفتار گرفته تا جداسازی صداها – به سرعت رشد کرده‌اند. اما یک مشکل بنیادی همچنان باقی مانده است: توجه (Attention) در این مدل‌ها به‌صورت کامل (Full Attention) عمل می‌کند؛ یعنی هر فریم صوتی با همه‌ی فریم‌های دیگر تعامل دارد. این روش اگرچه دقیق است، اما هزینه‌ی محاسباتی آن به‌صورت درجه دوم با طول ورودی افزایش می‌یابد. دو پژوهش اخیر، از دو مسیر متفاوت، راه‌حل‌هایی برای این مشکل ارائه کرده‌اند: 🎛 ۱. روش Windowed Sink Attention — توجه موضعی با «چاهک‌های اطلاعاتی» 🔗 smulelabs/windowed-roformer پژوهشگران SmuleLabs در مدل Mel-Band-Roformer (ویژه‌ی جداسازی صدای خواننده از موسیقی) متوجه شدند که الگوهای توجه در زمان به‌صورت موضعی متمرکزند؛ یعنی هر فریم فقط با چند فریم نزدیک خود ارتباط دارد، نه با کل توالی. با این مشاهده، آنها مکانیزم جدیدی به نام Windowed Sink Attention (WSA) طراحی کردند: هر لایه فقط در یک پنجره‌ی زمانی کوچک (مثلاً چند صد فریم) توجه می‌کند؛ در کنار آن، چند توکن چاهک (Sink Tokens) وجود دارد که اطلاعات کلی قطعه را جمع‌آوری و به فریم‌ها بازمی‌گرداند. 🔹 نتیجه: بازآموزی (Fine-tuning) از روی مدل اصلی، ۹۲٪ از دقت (SDR) اولیه را بازیابی کرد. در مقابل، هزینه‌ی محاسباتی ۴۴.۵ برابر کاهش یافت. نقشه‌های توجهی نیز بسیار تفسیرپذیرتر شدند. به‌بیان ساده، WSA به مدل یاد می‌دهد مانند گوش انسان، در بازه‌های کوتاه تمرکز کند و فقط در لحظات خاص به «نمای کلی» برگردد. ⚡️ ۲.روش SummaryMixing — جایگزین خطی برای خودتوجهی (Self-Attention) 🔗 SamsungLabs/SummaryMixing در پژوهش دیگری از SamsungLabs، مسئله از زاویه‌ای متفاوت بررسی شد: تحلیل مدل‌های ASR (تشخیص گفتار) نشان داد که وزن‌های توجه در بسیاری از مدل‌های آموزش‌دیده تقریباً یکنواخت‌اند — یعنی مدل عملاً به همه‌ی فریم‌ها به‌طور برابر توجه می‌کند! در نتیجه، محققان پیشنهاد کردند که به‌جای محاسبه‌ی تمام جفت‌های توجه، کافی است در هر لایه: تمام فریم‌ها را به‌صورت خطی تبدیل کنیم، میانگین آنها را به‌دست آوریم (به‌عنوان خلاصه‌ی جمله)، این خلاصه را به تمام فریم‌ها بازگردانیم. به این ترتیب، مکانیزم SummaryMixing جایگزین مستقیم Attention می‌شود — با همان ورودی و خروجی، اما با پیچیدگی زمانی خطی O(T) به‌جای O(T²). 🔹 این روش در مدل‌های Transformer، Conformer و Branchformer به‌راحتی قابل استفاده است و نتایج آن در بسیاری از وظایف تشخیص گفتار، برابر یا بهتر از Attention کلاسیک بوده است. 🔍 ۳. دو مسیر مکمل برای آینده‌ی پردازش گفتار اگر این دو رویکرد را کنار هم بگذاریم، به دو جهت مکمل می‌رسیم: 🟠 روش WSA تلاش می‌کند گوش هوشمند بسازد، 🔵 روش SummaryMixing تلاش می‌کند حافظه‌ی مفهومی بسازد. 🧩 چشم‌انداز آینده ترکیب این دو روش می‌تواند مسیر نسل بعدی مدل‌های گفتاری باشد:
روش Windowed-Summary Attention — لایه‌هایی برای توجه موضعی دقیق، در کنار لایه‌هایی برای خلاصه‌سازی سراسری.
این ساختار دقیقاً همان چیزی است که در سیستم شنوایی انسان مشاهده می‌شود: تمرکز لحظه‌ای بر جزئیات، همراه با آگاهی پیوسته از کل بافت گفتار. 📚 این دو پژوهش نشان می‌دهند که آینده‌ی مدل‌های گفتاری، دیگر در افزایش پارامترها نیست، بلکه در بازطراحی هوشمندانه‌ی توجه نهفته است — توجهی که «می‌شنود»، نه اینکه فقط «محاسبه کند». #SpeechAI #Transformer #Attention #Research 🔗speechtech @asrgooyeshpardaz
Mostrar todo...
🔥 1👌 1