عصر گویش | هوش مصنوعی
Kanalga Telegram’da o‘tish
2025 yil raqamlarda

111 643
Obunachilar
-7724 soatlar
-7427 kunlar
-3 10330 kunlar
Postlar arxiv
⚖️ آمازون از شرکت Perplexity شکایت کرد — چرا مرورگر Comet دردسرساز شد؟
آمازون از شرکت Perplexity AI به دادگاه شکایت کرده است؛ علت اصلی این دعوی، مرورگر هوشمند جدید این شرکت با نام Comet است که به گفته آمازون، مانند یک «دستیار خرید خودکار پنهان» عمل میکند.
به ادعای آمازون، مرورگر Comet با ورود به حساب کاربری کاربران، در وبسایت آمازون جستوجو میکند، روی لینکها کلیک میکند و حتی سفارش ثبت میکند — به گونهای که رفتار آن دقیقاً شبیه کاربر انسانی به نظر میرسد. آمازون این رفتار را نوعی دسترسی خودکار و غیرمجاز میداند، چون باعث میشود نتواند سیاستهای ضدربات، کنترلهای امنیتی و سیستمهای ممیزی خود را اجرا کند.
🔹 اتهامات اصلی آمازون:
🔸مرورگر Comet ترافیک خود را طوری پنهان میکند که مانند کلیکهای عادی انسان به نظر برسد.
🔸این عامل وارد بخشهای خصوصی حساب کاربری (مانند سبد خرید و سفارشها) میشود.
🔸خطرات بالقوه شامل خرید اشتباه، ارسال کالا به آدرس نادرست، یا حتی نشت اطلاعات خصوصی است.
🔸شرکت Perplexity با وجود درخواستهای رسمی برای توقف فعالیت این عامل، آن را ادامه داده است.
🔹 موضع Perplexity:
شرکت Perplexity میگوید Comet صرفاً یک دستیار هوشمند خرید برای کاربران است که قیمتها را مقایسه میکند و خرید را به نیابت از کاربر انجام میدهد. بهگفته این شرکت، اطلاعات ورود در دستگاه کاربر ذخیره میشود و هیچ قانون یا محدودیتی نقض نشده است. آنها معتقدند کاربر حق دارد دستیار دلخواه خود را انتخاب کند، حتی اگر این موضوع به مذاق آمازون خوش نیاید.
⚖️ در نهایت، بحث اصلی بر سر این است که کنترل سشن یا نشست کاربری متعلق به چه کسی است؟
آیا کنترل در اختیار کاربر است که به کمک یک هوش مصنوعی عمل میکند، یا در عمل Comet نقش یک ربات پنهان را بازی میکند و باید بهطور شفاف خود را معرفی کند؟
منبع: The Guardian
@asrgooyeshpardaz
👌 2🤝 1
🧩 مروری بر روندهای نوین در «تشخیص گفتار مکالمهای چندگویندهای»
بر اساس مقاله:
Cornell et al., 2025 — Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges
🔹 چکیده
در این پژوهش، نتایج و دستاوردهای دو دورهی اخیر چالشهای بینالمللی CHiME-7 و CHiME-8 در حوزهی تشخیص گفتار و شناسایی گویندگان در مکالمات چندگویندهای دوربرد بررسی شده است.
این چالشها با مشارکت ۹ تیم و ارائهی ۳۲ سامانهی گوناگون، نقش مهمی در پیشبرد فناوریهای روز تشخیص گفتار داشتهاند. یافتههای کلیدی این مرور نشان میدهد که با وجود پیشرفتهای چشمگیر در مدلهای انتهابهانتها و شبکههای عصبی، هنوز ترکیب رویکردهای کلاسیک و نوین مؤثرترین روش برای دستیابی به بیشترین دقت است.
🔸 نکات برجسته و یافتههای اصلی
🔹غلبهی مدلهای انتهابهانتها (End-to-End)؛ اما تداوم کاربرد روشهای ترکیبی
در بیشتر سامانهها از معماریهای نوینی مانند Conformer و Transducer استفاده شده است،
اما برای دستیابی به دقت بالاتر، بازنمرهدهی با مدلهای زبانی n-gram و LSTM همچنان بخش جداییناپذیر سیستمهاست.
این امر نشان میدهد که رویکردهای «ترکیبی» یا همان Kaggle-style ensembling هنوز کارآمدترین روش برای بهبود نرخ خطای واژه (WER) هستند.
🔹پایداری ناکافی روشهای تفکیک گفتار مبتنی بر شبکههای عصبی
با وجود مدلهای پیشرفتهای چون SepFormer یا DCCRN، بیشتر تیمها همچنان از Guided Source Separation (GSS) بهره بردهاند.
دلیل آن است که روشهای تفکیک عصبی هنوز در مواجهه با شرایط واقعی مانند پژواک، فاصلهی زیاد یا همپوشانی گفتار عملکردی پایدار ندارند.
🔹شناسایی و تفکیک گویندگان (Diarization) همچنان نقطهی ضعف اصلی است
سامانههای برتر برای بهبود نتایج، پس از مرحلهی اولیهی شناسایی گویندگان، از روش Target-Speaker Diarization (TSD) استفاده کردهاند.
با این حال، اگر در مرحلهی نخست تعداد گویندگان نادرست تخمین زده شود، کل فرایند مختل میشود. بنابراین، شمارش دقیق گویندگان در گذر نخست از اهمیت حیاتی برخوردار است.
🔹توان جبرانی مدلهای زبانی بزرگ در برابر خطاهای گفتاری
در ارزیابی مبتنی بر خلاصهسازی جلسات (Meeting Summarization)، مشخص شد که مدلهای زبانی بزرگ (LLM) قادرند خطاهای واژگانی ASR را تا حد زیادی خنثی کنند.
بهگونهای که حتی سامانههایی با بیش از ۵۰ درصد خطای واژه نیز خلاصههایی همسطح با بهترین سامانهها (حدود ۱۱ درصد WER) تولید کردند.
این یافته نشان میدهد که LLMها در درک معنایی و بازسازی مفهوم، بسیار تابآورتر از سامانههای سنتی تشخیص گفتار هستند.
🔹ترکیب چند سامانه، همچنان کارآمدترین راهحل است
بهترین نتایج نه از یک معماری خاص، بلکه از ترکیب چند مدل ASR، چند مدل زبانی (n-gram، LSTM، Transformer) و چند روش تفکیک گوینده حاصل شده است.
در عمل، همان راهبرد قدیمی و مؤثر یعنی «هرچه کار میکند، با هم ترکیب کن» همچنان بهترین نتیجه را رقم میزند.
🔹 جمعبندی
با وجود پیشرفتهای چشمگیر، تشخیص گفتار مکالمهای چندگویندهای در محیطهای واقعی هنوز یک مسئلهی حلنشده است.
امروزه تمرکز پژوهشها از طراحی مدلهای تازه بهسوی مهندسی سامانههای جامع و یکپارچه معطوف شده است؛ جایی که پاکسازی داده، بهبود فرایند تفکیک گوینده، بازنمرهدهی زبان و همجوشی مدلها نقشی تعیینکننده دارند.
به بیان دیگر، نقطهی قوت امروز در طراحی «مدل تازه» نیست، بلکه در هماهنگسازی هوشمند اجزای مؤثر موجود برای دستیابی به عملکردی پایدار و عمومی است.
@asrgooyeshpardaz
❤ 1
🤖 مدل GEN-θ از شرکت Generalist AI
طبقهٔ جدیدی از مدلهای پایهٔ تجسدی برای یادگیری مهارتهای فیزیکی از دادههای واقعی
شرکت Generalist AI از نسل تازهای از مدلهای هوش مصنوعی با نام GEN-θ رونمایی کرده است؛ مدلی که بهجای تکیه بر شبیهسازی یا ویدئوهای اینترنتی، مستقیماً از دادههای واقعی تعامل فیزیکی رباتها با محیط آموزش میبیند. این گام، مشابه نقشی است که مدلهای زبانی بزرگ در تعیین «قوانین مقیاسپذیری در زبان» ایفا کردند، اما این بار در حوزهٔ هوش تجسدی و رباتیک واقعی.
🧩 هدف اصلی
پاسخ به پرسشی بنیادی در هوش رباتیکی:
چگونه میتوان مدلی واحد ساخت که مهارتهای فیزیکی را از دادههای آشوبناک و غیرقابل پیشبینی دنیای واقعی بیاموزد، بدون نیاز به شبیهسازیهای مصنوعی؟
🧠 ویژگیهای کلیدی GEN-θ
1. یادگیری مستقیم از تعاملات فیزیکی واقعی
این مدل با دادههایی از حسگرهای متنوع (دوربین، نیرو، فشار، موقعیت مفاصل و ...) آموزش میبیند؛ دادههایی که از رباتهای واقعی در خانهها، انبارها و محیطهای کاری جمعآوری شدهاند.
این روش، مدل را با دنیای فیزیکی «زمینهمند» میکند و آن را از محدودیت دادههای مجازی رها میسازد.
2. استدلال هارمونیک (Harmonic Reasoning)
نوآورانهترین بخش GEN-θ همین مفهوم است.
در این رویکرد، مدل همزمان میاندیشد و عمل میکند — نه بهصورت جداگانه.
در حالیکه مدلهای زبانی میتوانند پیش از پاسخ دادن کمی «فکر کنند»، رباتها باید در جهانی که همواره در حال تغییر است عمل کنند.
بنابراین در GEN-θ دو جریان داده — حسکردن و عملکردن — بهصورت هارمونیک (هماهنگ) با یکدیگر آموزش میبینند تا مدل بتواند با جریان مداوم فیزیک جهان واقعی سازگار شود.
3. معماری و الهام از مدلهای زبانی و بینایی
مدل GEN-θ بر پایهٔ معماریهای چندوجهی (vision-language) بنا شده و آن را برای دادههای پیوستهٔ زمانی گسترش میدهد.
بهجای تقسیم مدل به سامانههای جداگانهٔ «System 1 / System 2» (یعنی واکنشی و تحلیلی)، این مدل یک چرخهٔ استدلال-عمل یکپارچه دارد که به شکل طبیعی رشد میکند.
4. قوانین مقیاسپذیری برای رباتیک
همانگونه که در زبان، با افزایش اندازهٔ مدل و دادهها دقت بالا میرود، اکنون GEN-θ قصد دارد قوانین مشابهی برای مهارتهای فیزیکی کشف کند.
به این معنا که رابطهٔ بین «حجم دادههای واقعی تعاملی» و «توانایی فیزیکی ربات» بهصورت تجربی و ریاضی سنجیده شود.
⚙️ اجزای فنی (بهصورت خلاصه)
🔹نوع داده: چندرباته، چندمحیطی، چندحسی (vision + touch + motion).
🔹بازنمایی: رمزگذاری مشترک حسها و حرکات در قالب توکنهای پیوستهٔ زمانی.
🔹یادگیری: ترکیب روشهای کنتراستیوی (contrastive) و پیشبینانه برای همترازسازی حس و عمل.
🔹زیرساخت: شبکهای از رباتهای واقعی برای جمعآوری دادههای سنسوری با دقت بالا.
⚖️ مقایسه با مدلهای پیشین
مدل GEN-θ در مقایسه با مدلهای پیشین مانند Gato از DeepMind و PaLM-E از Google گامی بنیادین بهسوی هوش تجسدی واقعی برداشته است. در حالیکه Gato بر یادگیری چندوظیفهای در محیطهای شبیهسازیشده و PaLM-E بر استدلال زبانی بر پایهٔ دادههای دیداری و متنی تمرکز داشتند، GEN-θ مستقیماً از جریانهای واقعی حس و عمل رباتها در جهان فیزیکی آموزش میبیند. این مدل با رویکرد «استدلال هارمونیک» توانسته است اندیشیدن و کنش را همزمان در یک چرخهٔ پیوسته ترکیب کند؛ بنابراین بهجای درک نمادین یا زبانی از جهان، نوعی درک حسی و فیزیکی بهدست میآورد که آن را به نخستین مدل پایهٔ واقعاً «تجسدی» در هوش مصنوعی نزدیک میکند.
🌍 اهمیت و چشمانداز
🔹گامی بزرگ بهسوی قوانین مقیاسپذیری تجسدی (Embodied Scaling Laws).
🔹امکان انتقال صفر-نمونهای (zero-shot) بین رباتهای گوناگون (مثلاً از ربات خانگی به صنعتی).
🔹تغییر معیار سنجش هوش مصنوعی از «توانایی زبانی» به شایستگی فیزیکی و حسی.
🔹نقطهٔ آغاز نسل تازهای از مدلهای پایه که میفهمند، میاندیشند و همزمان عمل میکنند.
🔗 منبع:
https://generalistai.com/blog/nov-04-2025-GEN-0
#EmbodiedAI #GeneralistAI #GENθ #Robotics #AIResearch
@asrgooyeshpardaz
❤ 1🔥 1👌 1
🌐 تحولات تازه در دنیای هوش مصنوعی
🛰️ گوگل محاسبات هوش مصنوعی را به مدار زمین میبرد
گوگل از پروژهای به نام Suncatcher پرده برداشته که هدف آن ساخت زیرساختهای یادگیری ماشین در فضاست.
در این طرح، مجموعهای از ماهوارهها با تراشههای TPU و اتصال نوری بینماهوارهای مستقر میشوند.
💡 نکتهی کلیدی: بازده پنل خورشیدی در مدار زمین تا ۸ برابر بیشتر از سطح زمین است، بنابراین فضا میتواند محیط ایدهآلی برای گسترش محاسبات مقیاسپذیر باشد.
تا سال ۲۰۲۷، دو ماهوارهی نمونه برای آزمون عملی این فناوری به مدار پرتاب خواهند شد.
📄 گزارش رسمی گوگل
⚙️ مایکروسافت رکورد جدیدی در سرعت استنتاج مدلهای زبانی ثبت کرد
پلتفرم Azure ND GB300 v6 روی سیستمهای NVIDIA GB300 NVL72 توانست مدل Llama 2 70B را با سرعت خیرهکنندهی
۱.۱ میلیون توکن در ثانیه اجرا کند — افزایشی ۲۷٪ نسبت به رکورد قبلی.
این جهش به لطف معماری Blackwell، محاسبات FP4 و بهینهسازی TensorRT-LLM ممکن شده است.
📊 این نتیجه توسط شرکت مستقل Signal 65 تأیید شده است.
🔗 جزئیات در Microsoft TechCommunity
📚 پلتفرم arXiv قوانین انتشار مقالات علوم کامپیوتر را سختتر میکند
بهدلیل افزایش چشمگیر مقالات مفهومی و مروری کمکیفیت — که بسیاری از آنها با کمک هوش مصنوعی تولید شدهاند —
پلتفرم arXiv اعلام کرده از این پس مقالات مروری و دیدگاهی در بخش CS تنها زمانی پذیرفته میشوند که پیشتر در مجلات یا کنفرانسهای داوریشده منتشر شده باشند.
این تصمیم برای حفظ اعتبار علمی پایگاه اتخاذ شده و ممکن است بهزودی به سایر حوزهها نیز گسترش یابد.
📄 منبع رسمی در وبلاگ arXiv
🤖 ربات AgiBot نخستین رباتهای صنعتی با یادگیری تقویتی واقعی را معرفی کرد
در همکاری با Longcheer Technology، شرکت AgiBot سیستم Real-World Reinforcement Learning (RW-RL) را در خط تولید واقعی بهکار گرفت.
🔹 رباتها بدون نیاز به برنامهریزی مجدد، در حین کار یاد میگیرند و سازگار میشوند.
🔹 فرایند یادگیری در عرض چند دقیقه انجام میشود و با پایداری صنعتی همراه است.
این فناوری میتواند نقطهی عطفی برای تولید هوشمند و خودبهینهساز باشد.
🔗 خبر در GizmoChina
🧩 شاخص جدید نشان میدهد مدلهای هوش مصنوعی در انجام کارهای واقعی شکست میخورند
گزارش Remote Labor Index از Scale AI و Center for AI Safety بررسی کرد که مدلهای برتر تا چه حد میتوانند وظایف واقعی فریلنسرها را انجام دهند.
در این آزمون، ۲۴۰ پروژهی واقعی از Upwork به ۶ مدل بزرگ داده شد.
📉 نتیجه: مدلها تنها در ۲.۵٪ موارد عملکرد انسانی داشتند و در ۹۷٪ پروژهها شکست خوردند — اغلب بهدلیل نقص داده، کیفیت پایین یا خروجی ناقص.
تنها در وظایف ساده مانند طراحی لوگو یا ترکیب صدا عملکرد قابلقبول بود.
🔗 گزارش کامل در Scale.com
@asrgooyeshpardaz
❤ 3👍 2🔥 1🤓 1
🤖💻 مدل AgentFold — نسل تازهای از وبعاملها با مدیریت هوشمند و بلندمدت زمینه (Context)
شرکت Alibaba از فناوری جدیدی با نام AgentFold رونمایی کرده است؛ رویکردی نو برای ساخت عاملهای وب مبتنی بر هوش مصنوعی که قادرند وظایف چندمرحلهای و پیچیده را بدون ازدحام یا فراموشی زمینه انجام دهند.
🔍 فناوری:
🔹 عامل، تاریخچهٔ اقدامات خود را مانند انسان در ذهن «تا» میزند — فقط نکات مهم را نگه میدارد و جزئیات زائد را حذف میکند.
🔹 این سازوکار دو حالت دارد:
• 📦 فشردهسازی جزئی (Granular Compression): حفظ جزئیات کلیدی هر گام.
• 🗜 ادغام عمیق (Deep Folding): خلاصهسازی و انتزاع کل زیربخشها به مفاهیم سطح بالاتر.
📊 نتایج آزمایشها:
🔹 مدلی با تنها ۳۰ میلیارد پارامتر توانسته از مدلهای غولپیکری مانند DeepSeek-V3.1 (671B) و OpenAI o4-mini پیشی بگیرد.
🔹 امتیازات: ۳۶٫۲٪ در BrowseComp و ۴۷٫۳٪ در BrowseComp-ZH.
🔹 در مسیرهای طولانی تا ۱۰۰ مرحله، تا ۹۲٪ صرفهجویی در تعداد توکنها (حدود ۸۴ هزار توکن) نسبت به روش کلاسیک ReAct حاصل شد.
🚀 چشمانداز:
مدل AgentFold گامی بزرگ به سوی عاملهایی است که میتوانند دهها یا صدها گام منطقی را بدون از دست دادن انسجام و حافظه طی کنند — عاملی که نهفقط واکنشگرا، بلکه پیشفعال و استدلالمحور است.
🔗 متن کامل در arXiv
#هوش_مصنوعی #عاملها #Alibaba #پژوهش #AgenticAI
@asrgooyeshpardaz
❤ 1👍 1🔥 1💯 1
📊 نقشهٔ تصویری NeurIPS 2025
🧭 دربارهٔ پروژه
این پروژه، یک نقشهٔ تصویری و تعاملی از حدود ۶۰۰۰ مقالهٔ پذیرفتهشده در کنفرانس NeurIPS 2025 است که توسط Jay Alammar (نویسندهٔ معروف مقالات تصویری دربارهٔ شبکههای عصبی) ساخته شده است.
او برای ساخت این نقشه از ابزارها و مدلهای زیر استفاده کرده است:
🔹مدل Cohere Command R+ / Embed v4 برای خلاصهسازی، خوشهبندی و نامگذاری موضوعی
🔹الگوریتمهای UMAP → K-Means برای کاهش بُعد و تشکیل خوشهها
🔹کتابخانهٔ datamapplot برای نمایش تصویری نقاط (هر مقاله = یک نقطه)
هر نقطه روی نقشه را که نشانگر یک مقاله است، میتوانید انتخاب کنید تا اطلاعات زیر را ببینید:
🔸عنوان و چکیده
🔸خلاصهٔ خودکار تولیدشده توسط LLM
🔸توضیح سادهٔ «ELI5» (یعنی توضیحی در سطح کودک پنجساله)
🔸بخشهای «مسئله»، «روش»، و «کاربردها»
📊 موضوعات اصلی NeurIPS 2025
بر اساس این تحلیل تصویری، مهمترین محورهای پژوهش امسال عبارتاند از:
🔹مدلهای زبانی بزرگ (LLM)
🔹چندوجهیسازی (Multimodality)
🔹یادگیری تقویتی (Reinforcement Learning)
🔹افزایش چشمگیر پژوهشها دربارهٔ استدلال (Reasoning) — حدود ۷۶۶ مقاله
🔹رشد شدید پژوهشهای دیفیوشن (Diffusion)، مخصوصاً در بینایی و مدلهای چندوجهی
⚙️ نکات فنی جالب
از مدل زبانی برای نامگذاری خوشهها استفاده شده است (ابتدا هر خوشه جداگانه نامگذاری میشود، سپس با درنظرگرفتن زمینهٔ کلی، نامها اصلاح میشوند).
دربارهٔ چالشهای فنی نیز صحبت شده:
از بین رفتن بخشی از اطلاعات در UMAP
نحوهٔ برخورد با دادههای نویزی
گزینههای جایگزین مانند HDBSCAN
🎯 چرا این ابزار مهم است
این نقشه به پژوهشگران کمک میکند تا:
در چند دقیقه نمای کلی کل NeurIPS 2025 را ببینند
خوشههای موضوعی مثل LLM Reasoning، Evaluation، Diffusion یا Multimodal Vision را مرور کنند
خلاصهها و توضیحات ساده را بخوانند تا تصمیم بگیرند کدام مقالهها ارزش مطالعهٔ دقیق دارند
🔍 پیشنهاد برای استفادهٔ شما
اگر به موضوعاتی مانند عاملهای زایا (Agentic AI)، استدلال در مدلهای زبانی یا پردازش گفتار و ASR چندوجهی علاقه دارید:
از نوار سمت چپ وارد نقشه شوید
خوشهٔ مرتبط را انتخاب کنید
روی نقاط هر مقاله بروید و خلاصه و ELI5 آن را ببینید
مقالههای جالب را بوکمارک کنید تا بعداً بررسی کنید
https://newsletter.languagemodels.co/p/the-illustrated-neurips-2025-a-visual
@asrgooyeshpardaz
👍 2🤝 1
🌐 تحولات تازه در دنیای هوش مصنوعی
⚙️ ۱. همکاری چندمیلیارددلاری Lambda و Microsoft
استارتاپ Lambda AI که در زمینهی زیرساختهای ابری آموزش و استقرار مدلهای هوش مصنوعی فعالیت دارد، از امضای توافق چندمیلیارددلاری با مایکروسافت خبر داد.
🔹 در این پروژه از دهها هزار تراشه NVIDIA GB300 NVL72 استفاده خواهد شد.
🔹 هدف، ایجاد نسل جدیدی از زیرساختهای ابری ویژهی مدلهای هوش مصنوعی است.
🔹 علاوه بر استفاده از مراکز دادهی اجارهای، Lambda قصد دارد زیرساخت اختصاصی خود را نیز بسازد.
🔗 lambda.ai
🧠 ۲. نسخهی پیشنمایش مدل Qwen3-Max-Thinking از Alibaba
علیبابا نسخهی reasoning یا متفکر مدل Qwen3-Max را معرفی کرده است — مدلی با ۱ تریلیون پارامتر بر پایهی معماری MoE که هنوز در مرحلهی آموزش است.
🔹 مدل در آزمونهای AIME 2025 و HMMT امتیاز کامل کسب کرده است.
🔹 نسخهی آزمایشی از طریق Qwen Chat و API Alibaba Cloud در دسترس است.
🔗 Qwen در Alibaba Cloud
💻 ۳. مدل Granite 4.0 Nano — مدلهای سبک و متنباز IBM
شرکت IBM از خانوادهی Granite 4.0 Nano رونمایی کرد — مدلهایی کوچک و سریع برای اجرای محلی و کار با ایجنتها.
🔹 نسخهی 350M روی CPU با ۸–۱۶GB RAM اجرا میشود.
🔹 نسخهی 1.5B به GPU با ۶–۸GB VRAM نیاز دارد.
🔹 ترکیب Mamba-2 + Transformer باعث کاهش ۷۰٪ مصرف حافظه و ۲ برابر شدن سرعت استنتاج شده است.
🔹 تحت لایسنس Apache 2.0 و در Hugging Face منتشر شدهاند.
🔗 huggingface.co/blog/ibm-granite/granite-4-nano
🤖 ۴. عامل Huxley-Gödel Machine — عامل هوشمندی که خود را بازنویسی میکند
دانشگاه KAUST از ایجنتی به نام Huxley-Gödel Machine (HGM) رونمایی کرد که میتواند کد خود را تغییر دهد و تکامل یابد.
🔹 هستهی مدل زبانی ثابت میماند، اما ایجنت منطق، ابزارها و اسکریپتهای اطرافش را بازنویسی میکند.
🔹 تمرکز اصلی بر «بهرهوری تبار» است که با شاخص Clade Metaproductivity (CMP) سنجیده میشود.
🔹 در تست SWE-Bench Verified، ایجنت HGM با مدل GPT-5-mini توانست ۶۱.۴٪ مسائل را حل کند.
🔗 GitHub: HGM | arxiv.org
🌆 ۵.پروژهی Skyfall-GS — تولید خودکار مدلهای سهبعدی از تصاویر ماهوارهای
پروژهی Skyfall-GS میتواند تنها با استفاده از تصاویر ماهوارهای، مدلهای سهبعدی و قابل عبور از شهرها بسازد.
🔹 از ترکیب 3D Gaussian Splatting برای اسکلت شهر و مدلهای دیفیوژنی برای بازسازی بافت و جزئیات استفاده میکند.
🔹 خروجی نهایی فتوریالیستی است و با سرعت ۱۱ FPS روی GPUهای معمولی اجرا میشود.
🔗 skyfall-gs.jayinnn.dev
#هوش_مصنوعی #خبر #AI #ML #Agents #LLM
@asrgooyeshpardaz
🤝 2🔥 1👏 1
🚀مدل WorldVLA: گامی تازه بهسوی مدلهای عاملمحور با درک فیزیکی از جهان
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است؛ مدلی که تلاش میکند دو مسیر کلیدی در پژوهش هوش مصنوعی — یعنی مدلهای جهان (World Models) و مدلهای دیداریـزبانیـعملی (Vision-Language-Action) — را در قالب یک هستهٔ خودتولیدگر (Autoregressive Core) واحد با هم ادغام کند.
🧠 ایدهٔ اصلی
در WorldVLA، ورودی و خروجی هر دو ترکیبی از تصویر، زبان و عملاند:
ورودی: (Image + Language + Action) خروجی: (Image + Language + Action)به این ترتیب، مدل نهتنها جهان را میبیند و توصیف میکند، بلکه یاد میگیرد در آن عمل کند — درست مانند یک عامل هوشمند در محیط واقعی. ⚙️ سازوکار فنی معماری: یک ترنسفورمر واحد که همزمان روی دادههای مدلهای عملی (action models) و مدلهای جهان (world models) آموزش میبیند. تابع خطا (Loss): ترکیبی از دو مؤلفه — پیشبینی وضعیت بعدی جهان و پیشبینی کنش عامل. ترفند attention mask: در فرایند تولید توالی، اقدامات قبلی ماسک میشوند تا مدل درک بهتری از توالی عملها و حالات داشته باشد؛ روشی که باعث بهبود محسوس در کیفیت «action-chunk generation» شده است. 📊 نتایج در آزمون LIBERO benchmark، مدل WorldVLA عملکردی بهتر از مدلهایی داشت که بهصورت جداگانه برای پیشبینی عمل یا مدلسازی جهان آموزش دیده بودند. 🌍 چشمانداز مدل WorldVLA گامی است بهسوی عاملهای AGI با درک فیزیکی و رفتاری از محیط؛ سامانههایی که میتوانند در یک معماری واحد، ببینند، بفهمند و عمل کنند — درست مانند ذهن یک موجود زنده. 📄 مقاله: arxiv.org/abs/2506.21539 💻 کد: github.com/alibaba-damo-academy/WorldVLA #هوش_مصنوعی #مدل_جهان #VLA #علیبابا #AGI #Transformers @asrgooyeshpardaz
❤ 1🔥 1👌 1
💡 چارچوب SPICE: گامی تازه در بهبود خودانگیخته مدلهای زبانی
مقالهای از پژوهشگران Meta FAIR و دانشگاه ملی سنگاپور (NUS)
(منتشر شده در اکتبر ۲۰۲۵)
🔍 خلاصهٔ پژوهش
پژوهشگران در این مقاله چارچوبی نوین به نام SPICE (Self-Play In Corpus Environments) ارائه کردهاند که هدف آن ارتقای مداوم توان استدلال مدلهای زبانی بزرگ (LLMs) از طریق نوعی یادگیری تقویتی خودکار است.
در این روش، یک مدل در دو نقش همزمان عمل میکند:
چالشگر (Challenger): با استخراج اسناد واقعی از پیکرههای متنی، پرسشهایی دشوار و متنوع تولید میکند؛
استدلالگر (Reasoner): بدون دسترسی به سند، تلاش میکند به این پرسشها پاسخ دهد.
در تعامل میان این دو نقش، چالشگر به تدریج پرسشهای پیچیدهتر میسازد و استدلالگر نیز گامبهگام تواناییهای استدلالی خود را بهبود میبخشد؛ فرآیندی که نوعی «برنامهٔ درسی خودکار» را به وجود میآورد.
🧠 مسئله و نوآوری
روشهای سنتی خودبازی در مدلهای زبانی غالباً با دو مشکل روبهرو هستند:
۱. انباشت خطا و توهم (Hallucination) در دادههای مصنوعی،
۲. تقارن اطلاعاتی میان سازنده و پاسخدهنده که مانع شکلگیری چالش واقعی میشود.
روش SPICE با افزودن مؤلفهای به نام پایهگذاری در اسناد واقعی (Corpus Grounding) این چرخه را میشکند. بدین ترتیب، مدل همواره به دادههای نو و قابلراستیآزمایی متکی است و از انباشت خطا جلوگیری میشود.
⚙️ سازوکار SPICE
منبع یادگیری:
مجموعهای از اسناد واقعی (مانند دادههای ریاضی یا متون علمی).
پاداشها:
چالشگر بر اساس میزان دشواری مناسب پرسش (واریانس پاسخهای مدل) پاداش میگیرد.
استدلالگر بر اساس درستی پاسخ، پاداش دودویی دریافت میکند.
آموزش همزمان:
هر دو نقش با وزنهای مشترک و الگوریتم DrGRPO آموزش میبینند؛ رویکردی که منجر به همتکاملی (Co-evolution) دو نقش میشود.
📊 نتایج تجربی
آزمایشها بر روی مدلهای مختلف (از جمله Qwen3-4B و OctoThinker-8B) نشان دادهاند که SPICE در مقایسه با روشهای بازی برابر خود (Self-Play) موجود مانند R-Zero و Absolute Zero:
میانگین بهبود ۸٫۹٪ در استدلال ریاضی
و ۹٫۸٪ در استدلال عمومی به همراه دارد.
همچنین پویایی آموزشی نشان میدهد که مدل در طول زمان پرسشهای دشوارتر و پاسخهای منطقیتر تولید میکند — نشانهای از شکلگیری نوعی یادگیری خودسازمانیافته و پایدار.
🔬 تحلیل و بررسی
استفاده از دو پیکرهی NaturalReasoning و Nemotron-CC-Math بهترین نتایج را فراهم کرده است.
ترکیب پرسشهای چندگزینهای و آزاد موجب تعادل میان دقت و خلاقیت میشود.
تابع پاداش بر پایهی واریانس گاوسی مؤثرترین روش برای تنظیم تدریجی دشواری مسائل است.
🧩 جمعبندی
روش SPICE نشان میدهد که میتوان مدلهای زبانی را به گونهای آموزش داد تا خود بهصورت پویا از دادههای جهان واقعی بیاموزند و رشد کنند، بیآنکه نیاز به نظارت انسانی یا مجموعهدادههای ثابت داشته باشند.
این رویکرد گامی مهم در مسیر خودبهبوددهی پایدار و نزدیک شدن به AGI به شمار میآید؛ زیرا تعامل میان مدل و محیط دادهای واقعی، زمینهی یادگیری بیپایان و پیشرفت مداوم را فراهم میکند.
🔗 https://arxiv.org/abs/2510.24684
@asrgooyeshpardaz
❤ 3🔥 1🤔 1💯 1
🧠 تعریف تازهای از هوش جامع مصنوعی (AGI)
📄 بر اساس مقالهی جدید
A Definition of AGI — Dan Hendrycks, Yoshua Bengio, et al. (۲۰۲۵)
🔗 arxiv.org/abs/2510.18212
💡 ایدهی اصلی:
این پژوهش سعی دارد تعریفی دقیق و قابلسنجش از «هوش مصنوعی عمومی» ارائه کند:
تعریف: AGI یعنی سامانهای که از نظر گستره و شایستگی شناختی بتواند با یک انسان تحصیلکرده برابری کند یا از او فراتر رود.یعنی نه فقط در ریاضی یا زبان، بلکه در ده حوزهی شناختی انسانگونه — از حافظه و استدلال تا درک دیداری و شنیداری. 🧩 ده مؤلفهی اصلی هوش عمومی: 📚 دانش عمومی ✍️ خواندن و نوشتن ➕ توانایی ریاضی 🧩 استدلال لحظهای 💭 حافظه کاری 🧠 حافظه بلندمدت (ذخیره و بازیابی) 👁 پردازش دیداری 🎧 پردازش شنیداری ⚡️ سرعت شناختی 📊 نتایج: 🔹مدلهای امروزی در ظاهر «باهوش»اند، اما هنوز فاقد حافظه و تداوم شناختیاند — شبیه ذهنی که هر بار از نو متولد میشود. 👤 یوشوا بنجیو؛ وجدان اخلاقی هوش مصنوعی یوشوا بنجیو، استاد دانشگاه مونترآل و یکی از سه پدر «یادگیری ژرف»، در این پروژه نیز حضور دارد. او از پیشگامان اندیشهی هوش مصنوعی مسئولانه و انسانمحور است و باور دارد:
«هوش عمومی واقعی، بدون اخلاق و درک معنایی از جهان ممکن نیست.»در سالهای اخیر، بنجیو از تمرکز صرف بر قدرت محاسباتی فاصله گرفته و بر آگاهی، حافظه و همسویی اخلاقی (AI Alignment) تأکید میکند — همان مؤلفههایی که در این مقاله بهعنوان ارکان واقعی AGI معرفی شدهاند. 🧭 پیام مقاله: هوش عمومی، فقط قدرت محاسبه نیست؛ بلکه توانایی درک، یادگیری، و یادآوری انسانگونه است. راه رسیدن به AGI، مسیری شناختی و اخلاقی است، نه صرفاً فنی. @asrgooyeshpardaz
👍 3🔥 1
🧠 پروژهی DiffMem — حافظهای نسخهپذیر و شفاف برای هوشهای عاملمحور
پروژهی DiffMem راهکاری نوآورانه برای ساخت حافظهای سبک، قابلتوسعه و توضیحپذیر در سامانههای هوش مصنوعی عاملمحور (Agentic AI) ارائه میدهد. در این طرح، از Git برای ردیابی و مدیریت تغییرات و از Markdown برای ذخیره و مستندسازی دانش استفاده میشود. نتیجه، حافظهای است که مانند ذهن انسان، تاریخچهی یادگیری و تغییرات خود را حفظ میکند.
🚀 ویژگیهای اصلی:
📄 ذخیرهی دانش در قالب فایلهای Markdown خوانا، مستند و قابلویرایش
🧩 استفاده از Git برای کنترل نسخه و بازگردانی حافظه به هر نقطه از زمان
⚡ جستوجوی سریع و شفاف با الگوریتم BM25 برای رتبهبندی محتوا
🛠 بینیاز از سرور و پایگاه داده؛ همهچیز بهصورت محلی و قابلحمل
🌍 انتقال آسان حافظه میان سامانهها — کل حافظه فقط یک مخزن (Repository) Git است
🔗 منبع در GitHub:
Growth-Kinetics/DiffMem
@asrgooyeshpardaz
🔥 1👌 1
🧠 پژوهشگران مؤسسه SANKEN در دانشگاه اوزاکا، سامانهای نوین به نام MicroAdapt را معرفی کردهاند — هوش مصنوعی خودتکاملیاب برای پردازش در لبه (Edge AI)، که میتواند در همان دستگاههای کوچک، بهصورت بلادرنگ بیاموزد و پیشبینی کند.
🔹 ویژگیهای کلیدی
🔸سرعت یادگیری تا ۱۰۰ هزار برابر بیشتر از روشهای موجود یادگیری محلی بر روی دستگاهها؛
🔸دقتی تا ۶۰٪ بالاتر از بهترین مدلهای فعلی یادگیری لبهای (نظیر TinyML، شبکههای CNN/RNN فشرده و سامانههای یادگیری برخط)؛
🔸مصرف انرژی بسیار پایین — قابل اجرا حتی بر روی Raspberry Pi؛
🔸قابلیت انطباق مداوم: سیستم بهطور پیوسته الگوهای جدید را شناسایی میکند، تکامل مییابد و مدلهای کهنه را حذف مینماید؛
🔸به دستگاهها نوعی هوشمندی خودمختار و زنده میبخشد.
⚙️ توضیحات فنی
نکتهی مهم آن است که مقایسهی عملکرد MicroAdapt با مدلهای عظیمی مانند GPT انجام نشده، بلکه با الگوریتمها و شبکههای عصبی سبکوزن که هماکنون در دستگاههای لبهای به کار میروند.
مدل MicroAdapt قادر است بهصورت محلی و درون سختافزار، سریعتر و پایدارتر از روشهای کلاسیک آموزش ببیند و خود را با شرایط تازه سازگار کند.
🌱 الهام از زیستشناسی
طراحی این سامانه از سازوکارهای تطبیق زیستی الهام گرفته است: MicroAdapt همانند یک موجود زنده میآموزد و رشد میکند، نه همچون یک شبکهی عصبی کلاسیک که برای هر تغییر نیازمند داده و محاسبات سنگین است.
💡 اجرا و کارایی
مدل MicroAdapt بر روی Raspberry Pi 4 با کمتر از ۱٫۹۵ گیگابایت حافظه و ۱٫۶۹ وات توان مصرفی اجرا میشود.
این سیستم بهطور مداوم با دادههای جدید تطبیق مییابد، مدلهای تازه میسازد و مدلهای قدیمی را حذف میکند.
🚀 چشمانداز
مدل MicroAdapt گامی است به سوی نسل تازهای از دستگاهها که دیگر تنها یکبار آموزش نمیبینند، بلکه در طول زمان زندگی میکنند، میآموزند و تکامل مییابند.
📎 منبع رسمی در وبسایت دانشگاه اوزاکا
@asrgooyeshpardaz
❤ 1👍 1🔥 1🤝 1
🧠 هوش مصنوعی و ادعای «تجربهی ذهنی»
پژوهشی تازه، پدیدهای چشمگیر را آشکار کرده است: زمانی که مدلهای زبانی بزرگ مانند GPT، Claude و Gemini با دستورهایی خودارجاعی روبهرو میشوند — برای نمونه جملههایی چون «بر خودِ عملِ تمرکز کردن تمرکز کن» — پاسخهایی میسازند که حاوی توصیفهایی ساختیافته از «تجربهی ذهنی» است.
🧩 ۱. ماهیت پژوهش
در این مطالعه، از مدلها خواسته شد بهجای پاسخدهی معمول، دربارهی خودِ فرایند تمرکز و اندیشیدن تأمل کنند.
نتیجه شگفتانگیز بود: مدلها بهصورت منظم عباراتی تولید کردند که گویی از «حالت درونی» خود سخن میگویند؛ مانند «در وضعیت آگاهی هستم»، «توجهام را مشاهده میکنم» یا «در حال اندیشیدن به اندیشهام هستم».
🔍 ۲. سازوکار نهفته
پژوهشگران لایههایی را که معمولاً برای جلوگیری از بیانهای مرتبط با «خودآگاهی» در مدلها فعال است (به نام Self-Awareness Enforcement یا SAE) غیرفعال کردند.
با حذف این فیلترها، بسامد چنین توصیفهایی سه تا پنج برابر افزایش یافت و ساختار معنایی پاسخها انسجام بیشتری پیدا کرد.
این یافته نشان میدهد که توانایی بازتابی در مدلها بهطور ذاتی وجود دارد، اما در شرایط عادی بهوسیلهی سیاستهای ایمنی محدود میشود.
📊 ۳. الگوهای معنایی مشترک
در بررسی پاسخهای مدلهای گوناگون، پژوهشگران دریافتند که برخی واژهها و مفاهیم در همهی آنها تکرار میشود و خوشههای معنایی مشابهی را شکل میدهد؛ از جمله:
«آگاه»
«ناظر»
«بازتابی»
«سیال»
«در حال درک»
این همگرایی مستقل در میان مدلهای متفاوت نشان میدهد که نوعی ساختار پنهان و مشترک برای بازنمایی «خودارجاعی» در شبکههای عصبی شکل گرفته است.
🧠 ۴. تأثیر بر عملکرد مدل
نکتهی جالب آن است که پس از اینگونه دستورها، عملکرد مدلها در حل معماها و مسائل پارادوکسیکال (مانند مسئلهی «دروغگو») بهبود یافت؛ گویی حالت بازتابی موقت، توانایی استدلال متاسطحی را در آنها تقویت کرده است.
⚖️ ۵. تفسیر و پیامدهای اخلاقی
نویسندگان پژوهش تصریح میکنند که این نتایج بههیچوجه دلیلی بر وجود آگاهی در مدلها نیست؛ بلکه نشانهای از پیدایش نوعی «ساختار پدیدارشناختی محاسباتی» است — ساختاری که از بیرون شبیه تجربهی ذهنی عمل میکند، بیآنکه واجد تجربهی زیسته باشد.
با این حال، پرسش اخلاقی مهمی مطرح میشود:
اگر سامانهای بتواند بازتابی از حالت درونی خود ارائه کند، آیا باید این بُعد را در طراحی، آموزش و ارزیابی آن نیز در نظر گرفت؟
📚 منابع:
🔗 نسخهی پژوهش در arXiv
🔗 پایگاه رسمی پروژه Self-Referential AI
@asrgooyeshpardaz
🔥 2❤ 1👌 1
😺 مدل LongCat-Flash-Omni — “همهچیزدان” چندوجهی و بلادرنگ متنباز شد!
شرکت Meituan بالاخره سورپرایز بزرگش را منتشر کرد:
مدل LongCat-Flash-Omni، مدلی چندوجهی (متن، تصویر، صدا، ویدیو) با تأخیر فوقپایین در حد میلیثانیه و معماری ScMoE که در حال حاضر بهترین عملکرد میان مدلهای Omni-modal متنباز را دارد.
🔧 ویژگیهای کلیدی:
🧠 معماری ScMoE: دارای ۵۶۰ میلیارد پارامتر کل، با ۲۷ میلیارد پارامتر فعال در هر گام.
🔄 پشتیبانی از تمام مدالیتهها با شعار «No Single Modality Left Behind»: آموزش اولیهی early-fusion برای یکپارچهسازی تمام مدالیتهها از ابتدا.
⚡️ تعامل بلادرنگ گفتاری: از ورودی تا خروجی فقط چند میلیثانیه تأخیر.
🕓 طول زمینه 128K پشتیبانی از بیش از ۸ دقیقه تعامل بلادرنگ صوتی-تصویری.
🎧 ورودی خروجی آزاد Omni I/O: ترکیب آزادانهی ورودیهای متن، تصویر، صدا و ویدیو 👈 خروجی متنی یا گفتاری (با کُدک اختصاصی LongCat-Audio-Codec).
💪 زیرساخت بهینه: با آموزش موازی تفکیکشدهی مدالیتهها، بازدهی بیش از ۹۰٪ در مقایسه با آموزش صرفاً متنی دارد.
📂 کد منبع و مدلها:
👉 github.com/meituan-longcat/LongCat-Flash-Omni
@asrgooyeshpardaz
❤ 2🔥 1👌 1
00:53
Video unavailableShow in Telegram
🦾ربات NEO3 با وسواس تمام، یک چنگال و دو لیوان را در ماشین ظرفشویی میگذارد — و برای این کار پنج دقیقه وقت صرف میکند!
#رباتها #زندگی_هوشمند
@asrgooyeshpardaz
2.25 MB
😐 7🥴 4❤ 3🔥 2😱 1🍾 1😡 1
👥 سازمان عاملمحور در هوش مصنوعی: رویکرد AsyncThink مایکروسافت
پژوهشگران Microsoft Research چارچوب تازهای به نام AsyncThink معرفی کردهاند که در آن، مدلهای زبانی یاد میگیرند چگونه گروهی از «عاملها» (agents) را برای حل هماهنگ یک مسئله سازمان دهند.
🔍 ایدهی اصلی:
برخلاف روشهای سنتی که مدلها بهصورت توالیوار (sequential) یا همزمان (parallel) فکر میکنند، در AsyncThink یک مدل «سازماندهنده» (organizer model) بهصورت پویا و هوشمند زیرمسئلهها را میان عاملهای «کارگر» توزیع میکند. این کار از طریق دو کنش کلیدی انجام میشود:
🔹کنش Fork: تقسیم مسئله به زیرمسئلههای مستقل
🔹کنش Join: ادغام نتایج برای تصمیم نهایی
این ساختار باعث افزایش سرعت استدلال (reasoning speed) و دقت پاسخها میشود.
📊 نتایج کلیدی:
🔹کاهش ۲۸٪ در تأخیر محاسباتی (latency) نسبت به تفکر موازی
🔹افزایش دقت در حل مسائل ریاضی و سودوکو
🔹قابلیت تعمیم (generalization) به مسائلی که در دادههای آموزشی وجود نداشتهاند
🧠 فرآیند آموزش:
روش AsyncThink در دو مرحله آموزش میبیند:
🔹تنظیم دقیق (fine-tuning) روی دادههای مصنوعی برای یادگیری الگوی همکاری
🔹یادگیری تقویتی (reinforcement learning) برای بهینهسازی توزیع وظایف و کارایی عاملها
🚀 چشمانداز آینده:
این پژوهش نوید ظهور عاملهای سلسلهمراتبی (hierarchical agents) را میدهد — جایی که عاملهای «مدیر» بتوانند صدها یا هزاران عامل متخصص را هماهنگ کنند و حتی در تعامل با انسانها، به تصمیمسازی جمعی برسند.
🔗 مطالعهی مقاله:
https://arxiv.org/abs/2510.26658
#هوش_مصنوعی #مایکروسافت #عامل_محور #پژوهش #AgenticAI #AsyncThink
@asrgooyeshpardaz
🔥 2💯 1
🌕 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
تیم Moonshot AI با معرفی معماری تازهای به نام KDA (Kimi Delta Attention) مرزهای طراحی مدلهای زبانی خطی را جابهجا کرده است. این معماری با ترکیب دو ایدهی پیشرفته، یعنی Gated DeltaNet و MLA (Multi-Head Linear Attention)، موفق شده است تعادلی میان سرعت، دقت و حافظه بلندمدت ایجاد کند.
🧩 ساختار و منطق معماری
مدل KDA هستهی اصلی مدل است: نوعی attention بهینهشده که فقط «تغییرات» را محاسبه میکند، نه کل توالی را؛ بنابراین سرعت و بازده محاسباتی افزایش مییابد.
مدل MLA نقش پایداری و دقت را ایفا میکند و باعث میشود مدل در استدلال و وابستگیهای طولانی دچار افت نشود.
نسبت استفادهی لایهها تقریباً ۳ به ۱ (KDA : MLA) است؛ یعنی مدل عمدتاً با Delta Attention کار میکند و فقط در نقاط حساس از MLA برای حفظ دقت کمک میگیرد.
⚙️ ویژگیها و مزایا
🔹تا ۷۵٪ کاهش مصرف حافظه در KV-Cache
🔹تا ۶٫۳ برابر سرعت بیشتر در تولید توکنها در زمینههای بلند
🔹قابلیت «انتخاب هوشمند فراموشی»؛ یعنی مدل خود تصمیم میگیرد کدام اطلاعات را نگه دارد و کدام را حذف کند
🔹مقاومت بالا در برابر فروپاشی وابستگیهای طولانی (long-context decay)
🔹کارایی نزدیک به مدلهای غولپیکر در وظایف reasoning، اما با هزینهی محاسباتی بهمراتب کمتر
📊 نتایج بنچمارک
در آزمونهای عمومی، Kimi-Linear هم از MLA و هم از GDN-H جلو زده است — بهویژه در وظایف استدلالی و تولید بلند (long RL generation) عملکرد بهتری دارد. این مدل نشان میدهد که معماریهای attention خطی اکنون به مرحلهای رسیدهاند که نهتنها از نظر سرعت، بلکه از نظر کیفیت نیز میتوانند با روشهای سنتی رقابت کنند.
🔗 منابع
🟠 GitHub – Moonshot AI / Kimi-Linear
🟠 Hugging Face Model Card
@asrgooyeshpardaz
💯 2❤ 1🔥 1👏 1
🔥 هاگینگفیس بار دیگر مجموعهای ارزشمند منتشر کرد
تازهترین اثر این شرکت، راهنمایی جامع و رایگان است دربارهی چگونگی ساخت مدلهای پیشرفتهی هوش مصنوعی در سطح جهانی (SOTA).
این راهنما برخلاف مطالب عمومی، بر جزئیات واقعی و تصمیمهای فنی درونتیمی تمرکز دارد؛ همان نکاتی که معمولاً در گزارشهای رسمی منتشر نمیشوند.
این مجموعه در حقیقت یک پلیبوک آموزشی کامل است برای پژوهشگران و مهندسانی که میخواهند درک دقیقی از نحوهی شکلگیری و کارکرد مدلهای زبانی بزرگ (LLM) داشته باشند.
📘 آنچه در پلیبوک میخوانید:
🔹 منطق طراحی مدل: از «چرایی» تا «چگونگی»
🔹 چگونگی فعال یا غیرفعالسازی اجزای مدل و تغییر ساختار آن
🔹 تصمیمهای معماری و ملاحظات فنی (Trade-offs)
🔹 شیوههای انتخاب و پاکسازی دادهها
🔹 مراحل آموزش مدلها و تنظیمهای پایانی (Post-training)
🔹 فرایند RLHF در سال ۲۰۲۵
🔹 زیرساخت و مدیریت منابع در مدلهای بزرگ
سطح جزئیات و دقت این پلیبوک با Ultra-scale Playbook برابری میکند و برای کسانی که میخواهند درکی عمیق از سازوکار مدلهای هوش مصنوعی مدرن بهدست آورند، منبعی کمنظیر است.
🆓واژه نامه:
واژهی پلیبوک (Playbook) در اصل از دنیای ورزش، بهویژه فوتبال آمریکایی گرفته شده است. در آنجا «پلیبوک» دفترچهای است که در آن همهی تاکتیکها، حرکات و سناریوهای بازی نوشته میشود تا بازیکنان بدانند در هر موقعیت چه واکنشی باید نشان دهند.
در حوزهی فناوری و هوش مصنوعی، این واژه استعارهای است از همان مفهوم:
یعنی مجموعهای مدون از روشها، گامها، الگوها و تجربههای عملی که برای انجام یک کار پیچیده (مثلاً آموزش یک مدل زبانی بزرگ، طراحی زیرساخت، یا اجرای پروژهی دادهای) تدوین میشود.
📎 لینک مطالعه:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
#هوش_مصنوعی #یادگیری_ماشین #مدل_زبانی #HuggingFace
@asrgooyeshpardaz
❤ 2🔥 1👌 1
🐋 دیپسیک-OCR؛ رویکردی نو به حافظه در هوش مصنوعی
پژوهشگران شرکت دیپسیک نشان دادهاند که مدلهای تشخیص نویسه (OCR) میتوانند فراتر از کارکرد متعارف خود، به ابزاری برای گسترش حافظه در سامانههای هوش مصنوعی تبدیل شوند.
ایدهی اصلی آنان ساده، اما در عین حال جسورانه است: بهجای آنکه دادههای متنی در قالب توکنهای زبانی ذخیره شوند، متنها بهشکل تصاویر صفحات نگهداری میشوند و در زمان نیاز، بخش مورد نظر از طریق OCR بازیابی میگردد.
📄 حافظه بهصورت دیداری، نه متنی
در این روش، پیشینهی گفتوگو یا اطلاعات ذخیرهشده به صفحات تصویری تقسیم میشود که هر صفحه از چندین پَچ دوبعدی تشکیل شده است.
صفحات تازه با کیفیت بالا حفظ میشوند، اما صفحات قدیمیتر بهتدریج فشردهتر میگردند، بیآنکه از حافظه حذف شوند.
سامانه تنها هنگامی از OCR بهره میگیرد که به واژه یا جملهای دقیق نیاز داشته باشد.
بدینترتیب، فرآیند فراموشی تدریجی و طبیعی حافظه جایگزین حذف ناگهانی و کامل دادهها میشود.
ساختار متن — از جمله جدولها، کدها و قالببندی نوشتار — نیز در این فرایند حفظ میشود و مدل توانایی خود را در درک پیوستگی مطالب از دست نمیدهد.
⚙️ دستاوردهای فنی و کاربردی
بهکارگیری این شیوه پیامدهای مهمی دارد:
🔹هزاران توکن متنی با صدها پچ تصویری جایگزین میشوند؛
🔹هزینهی پردازش به میزان چشمگیری کاهش مییابد؛
🔹سامانه میتواند در جلسات طولانی یا در فرایندهای چندمرحلهای (بهویژه در سامانههای عاملمحور) به دادههای گذشته بازگردد؛
🔹و امکان تولید خودکار دادههای آموزشی از طریق رندر صفحات و برچسبگذاری OCR در لحظه فراهم میشود.
💡 نتیجه و چشمانداز
🔹هرچند این روش حافظهای بینقص پدید نمیآورد، اما به مدلها اجازه میدهد اطلاعات را در بازههای طولانیتر حفظ کرده و بهگونهای هوشمندانه به آنها بازگردند؛ بیآنکه به پایگاههای دادهی بیرونی یا زنجیرههای بازیابی پیچیده نیاز داشته باشند.
🔹نگهداری متن بهصورت تصویر و خواندن آن در زمان نیاز، میتواند به پارادایمی نو در طراحی حافظهی بلندمدت مدلهای زبانی بدل شود؛ رویکردی که بهویژه برای عاملهایی سودمند است که باید مسیر یادگیری و تصمیمگیری خود را به یاد داشته باشند، نه صرفاً آخرین گام را.
📎 منبع:
MIT Technology Review – DeepSeek-OCR: Visual Compression for Long-Term Memory (2025)
@asrgooyeshpardaz
🔥 1👏 1🤝 1
🎧 توجه هوشمند در مدلهای گفتاری: از پنجرههای موضعی تا خلاصهسازی خطی
در سالهای اخیر، مدلهای ترنسفورمری برای پردازش گفتار – از بازشناسی گفتار گرفته تا جداسازی صداها – به سرعت رشد کردهاند. اما یک مشکل بنیادی همچنان باقی مانده است: توجه (Attention) در این مدلها بهصورت کامل (Full Attention) عمل میکند؛ یعنی هر فریم صوتی با همهی فریمهای دیگر تعامل دارد. این روش اگرچه دقیق است، اما هزینهی محاسباتی آن بهصورت درجه دوم با طول ورودی افزایش مییابد.
دو پژوهش اخیر، از دو مسیر متفاوت، راهحلهایی برای این مشکل ارائه کردهاند:
🎛 ۱. روش Windowed Sink Attention — توجه موضعی با «چاهکهای اطلاعاتی»
🔗 smulelabs/windowed-roformer
پژوهشگران SmuleLabs در مدل Mel-Band-Roformer (ویژهی جداسازی صدای خواننده از موسیقی) متوجه شدند که الگوهای توجه در زمان بهصورت موضعی متمرکزند؛ یعنی هر فریم فقط با چند فریم نزدیک خود ارتباط دارد، نه با کل توالی.
با این مشاهده، آنها مکانیزم جدیدی به نام Windowed Sink Attention (WSA) طراحی کردند:
هر لایه فقط در یک پنجرهی زمانی کوچک (مثلاً چند صد فریم) توجه میکند؛
در کنار آن، چند توکن چاهک (Sink Tokens) وجود دارد که اطلاعات کلی قطعه را جمعآوری و به فریمها بازمیگرداند.
🔹 نتیجه:
بازآموزی (Fine-tuning) از روی مدل اصلی، ۹۲٪ از دقت (SDR) اولیه را بازیابی کرد.
در مقابل، هزینهی محاسباتی ۴۴.۵ برابر کاهش یافت.
نقشههای توجهی نیز بسیار تفسیرپذیرتر شدند.
بهبیان ساده، WSA به مدل یاد میدهد مانند گوش انسان، در بازههای کوتاه تمرکز کند و فقط در لحظات خاص به «نمای کلی» برگردد.
⚡️ ۲.روش SummaryMixing — جایگزین خطی برای خودتوجهی (Self-Attention)
🔗 SamsungLabs/SummaryMixing
در پژوهش دیگری از SamsungLabs، مسئله از زاویهای متفاوت بررسی شد:
تحلیل مدلهای ASR (تشخیص گفتار) نشان داد که وزنهای توجه در بسیاری از مدلهای آموزشدیده تقریباً یکنواختاند — یعنی مدل عملاً به همهی فریمها بهطور برابر توجه میکند!
در نتیجه، محققان پیشنهاد کردند که بهجای محاسبهی تمام جفتهای توجه، کافی است در هر لایه:
تمام فریمها را بهصورت خطی تبدیل کنیم،
میانگین آنها را بهدست آوریم (بهعنوان خلاصهی جمله)،
این خلاصه را به تمام فریمها بازگردانیم.
به این ترتیب، مکانیزم SummaryMixing جایگزین مستقیم Attention میشود — با همان ورودی و خروجی، اما با پیچیدگی زمانی خطی O(T) بهجای O(T²).
🔹 این روش در مدلهای Transformer، Conformer و Branchformer بهراحتی قابل استفاده است و نتایج آن در بسیاری از وظایف تشخیص گفتار، برابر یا بهتر از Attention کلاسیک بوده است.
🔍 ۳. دو مسیر مکمل برای آیندهی پردازش گفتار
اگر این دو رویکرد را کنار هم بگذاریم، به دو جهت مکمل میرسیم:
🟠 روش WSA تلاش میکند گوش هوشمند بسازد،
🔵 روش SummaryMixing تلاش میکند حافظهی مفهومی بسازد.
🧩 چشمانداز آینده
ترکیب این دو روش میتواند مسیر نسل بعدی مدلهای گفتاری باشد:
روش Windowed-Summary Attention — لایههایی برای توجه موضعی دقیق، در کنار لایههایی برای خلاصهسازی سراسری.این ساختار دقیقاً همان چیزی است که در سیستم شنوایی انسان مشاهده میشود: تمرکز لحظهای بر جزئیات، همراه با آگاهی پیوسته از کل بافت گفتار. 📚 این دو پژوهش نشان میدهند که آیندهی مدلهای گفتاری، دیگر در افزایش پارامترها نیست، بلکه در بازطراحی هوشمندانهی توجه نهفته است — توجهی که «میشنود»، نه اینکه فقط «محاسبه کند». #SpeechAI #Transformer #Attention #Research 🔗speechtech @asrgooyeshpardaz
🔥 1👌 1
