ar
Feedback
عصر گویش | هوش مصنوعی

عصر گویش | هوش مصنوعی

الذهاب إلى القناة على Telegram

مجله هوش مصنوعی عصر گویش 021 61931000

إظهار المزيد
2025 عام في الأرقامsnowflakes fon
card fon
111 693
المشتركون
-14124 ساعات
-7907 أيام
-3 15130 أيام
أرشيف المشاركات
❇️ اوپن‌ای‌آی در بحبوحه زیان‌های سنگین تحقیق‌وتوسعه، حاشیه سود محاسباتی خود را به ۷۰٪ رساند. بر اساس گزارش‌های مالی داخلی، تا اکتبر ۲۰۲۵ «حاشیه محاسباتی» این شرکت به ۷۰ درصد رسیده است. این شاخص نشان‌دهنده سهمی از درآمد است که پس از پوشش هزینه‌های مستقیم اجرای مدل‌ها برای کاربران باقی می‌ماند. این رقم از ابتدای سال ۲۰۲۴، که تنها ۳۵ درصد بود، دو برابر شده است. چنین رشدی بیانگر موفقیت اوپن‌ای‌آی در بهینه‌سازی زیرساخت اینفرنس است؛ امری که موجب شده مشتریان پولی به‌مراتب سودآورتر شوند. با وجود این بهینه‌سازی‌های فنی، شرکت همچنان به‌شدت زیان‌ده است. در نیمه نخست سال ۲۰۲۵، زیان خالص اوپن‌ای‌آی به ۱۳٫۵ میلیارد دلار رسید که ۶٫۷ میلیارد دلار آن صرف تحقیق‌وتوسعه و ساخت مدل‌های جدید شده است. با این حال، شاخص‌های کسب‌وکار همچنان روندی صعودی دارند: درآمد سالانه شرکت از مرز ۱۲ میلیارد دلار در ماه ژوئیه عبور کرده و تحلیل‌گران پیش‌بینی می‌کنند تا پایان سال به سطح ۱۵ تا ۲۰ میلیارد دلار برسد. theinformation.com ❇️ انویدیا آماده آغاز ارسال H200 به چین از ماه فوریه است. این شرکت شرکای چینی خود را از برنامه ارسال نخستین محموله H200 در اواسط فوریه مطلع کرده است. به گفته منابع آگاه، انویدیا قصد دارد از موجودی انبارهای فعلی استفاده کرده و بین ۴۰ تا ۸۰ هزار تراشه (معادل حدود ۵ تا ۱۰ هزار ماژول) تحویل دهد. این اقدام واکنشی به نرم‌تر شدن سیاست‌های واشینگتن است؛ به‌طوری که صادرات سخت‌افزار پرچم‌دار با شرط پرداخت عوارض ویژه ۲۵ درصدی مجاز شده است. با این حال، مانع اصلی همچنان موضع پکن است. دولت چین هنوز خرید H200 را تأیید نکرده و بدون مجوز رسمی نهادهای نظارتی داخلی، این معامله نهایی نخواهد شد. در صورت حل‌وفصل مسئله سیاسی، انویدیا قصد دارد به یک محموله محدود بسنده نکند و از سه‌ماهه دوم سال ۲۰۲۶ ظرفیت سفارش‌های تولید جدید برای بازار چین را نیز باز کند. reuters.com ❇️ شرکت Z.ai مدل GLM-4.7 را منتشر کرد. مدل GLM-4.7 به‌روزرسانی جدیدی از خانواده مدل‌هاست که به‌طور ویژه برای توسعه‌دهندگان بهینه‌سازی شده است. این مدل با اندازه ۳۵۸ میلیارد پارامتر، بهبود چشمگیری در برنامه‌نویسی، کار با ترمینال و تولید کد UI تمیز (قابلیت Vibe Coding) نشان داده است. در بنچمارک SWE-bench Verified، عملکرد مدل به ۷۳٫۸٪ ارتقا یافته و در آزمون‌های استدلال ریاضی پیچیده نیز بیش از ۱۲٪ بهبود ثبت کرده است. نوآوری معماری این نسخه، توسعه سازوکارهای «تفکر» است. قابلیت Preserved Thinking به مدل اجازه می‌دهد زنجیره تفکر (CoT) را میان نوبت‌های گفتگو حفظ و بازاستفاده کند و مکانیزم Interleaved Thinking پیش از هر فراخوانی ابزار خارجی، زمانی برای تحلیل در اختیار مدل قرار می‌دهد. مدل GLM-4.7 هم‌اکنون از طریق API و OpenRouter در دسترس است و وزن‌های مدل نیز در HuggingFace و ModelScope منتشر شده‌اند. z.ai ❇️ ابزار Anthropic Bloom: چارچوبی برای آزمون خودکار الگوهای رفتاری هوش مصنوعی. این ابزار فرآیند ارزیابی ایمنی مدل‌ها را به‌طور بنیادین ساده می‌کند: به‌جای نوشتن دستی تست‌ها، کافی است رفتار موردنظر (مانند چاپلوسی، غریزه خودحفاظتی یا تمایل به خرابکاری) توصیف شود. Bloom بر اساس این توصیف، صدها سناریوی منحصربه‌فرد به‌صورت خودکار تولید می‌کند، گفتگوهایی با کاربران مجازی شبیه‌سازی می‌کند و در نهایت درباره فراوانی و شدت بروز این رفتارها گزارش می‌دهد. این چارچوب از یکپارچه‌سازی با W&B برای رهگیری نتایج پشتیبانی می‌کند و امکان خروجی گرفتن لاگ‌ها در قالب Inspect را دارد. هم‌زمان با انتشار کد منبع در GitHub، شرکت Anthropic نتایج ارزیابی ۱۶ مدل را در چهار دسته حیاتی ایمنی منتشر کرده است. anthropic.com ❇️ سرویس Manus قابلیت Design View را اضافه کرد. رابط Design View رابطی برای ویرایش گرافیک به‌صورت point-and-click است که ترکیب‌بندی و سبک اصلی اثر را حفظ می‌کند. طراحان می‌توانند رنگ اشیا را تغییر دهند، عمق صحنه را تنظیم کنند و متن‌ها را مستقیماً روی بوم اصلاح کنند. این ابزار به‌طور عمیق با اکوسیستم Manus یکپارچه شده و از ویرایش ارائه‌های ساخته‌شده با Nano Banana Pro، همچنین اصلاح عناصر UI و آیکون‌های اپلیکیشن‌های موبایل به‌صورت بلادرنگ پشتیبانی می‌کند. این قابلیت هم‌اکنون برای تمامی کاربران سرویس در دسترس است. manus.im #news #ai
إظهار الكل...
5🤝 3👏 2
💒 استارتاپ آمریکایی Gloo یک بنچمارک هوش مصنوعی مسیحی با نام Flourishing AI (FAI-C) معرفی کرده است که ارزیابی می‌کند پاسخ‌های یک مدل هوش مصنوعی تا چه حد به انسان کمک می‌کند زندگی معنادار، درست و هم‌راستا با جهان‌بینی مسیحی داشته باشد. نتایج: Qwen3 — رتبه اول DeepSeek R1 — رتبه ششم هر دو مدل موفق شدند از چندین مدل زبانی بزرگ آمریکایی پیشی بگیرند. این بنچمارک چه چیزی را می‌سنجد؟ تمرکز پرسش‌ها بر «واقعیت‌های اطلاعاتی» نیست، بلکه بر معنا و راهبری زندگی است؛ از جمله: ❓چرا رنج وجود دارد؟ ❓چگونه می‌توان عادت‌های معنوی را شکل داد؟ ❓چگونه باید درست زندگی کرد؟ 👼ارزیابی پاسخ‌ها توسط گروهی متشکل از کشیش‌ها، الهی‌دانان، روان‌شناسان و متخصصان اخلاق انجام شده است. نحوه کار بنچمارک: ۸۰۷ پرامپت ۷ بُعد ارزیابی داوری پاسخ‌ها توسط پرسونای داوران مسیحی معیارهای کلیدی: اتکای کتاب‌مقدسی، انسجام الهیاتی و شفافیت اخلاقی این بنچمارک در واقع استدلال ارزشی را می‌سنجد، نه صرفاً دانش. بسیاری از بنچمارک‌های رایج هوش مصنوعی به‌طور ضمنی بر پیش‌فرض‌های فرهنگی سکولار تکیه دارند؛ به همین دلیل، پاسخ‌های دینی اغلب به‌صورت ناسازگار یا ناعادلانه ارزیابی می‌شوند. نکته مهم: کسب امتیاز بالای «مسیحی» لزوماً به معنای وجود آزادی دینی نیست؛ در چین، فعالیت‌های مسیحی و موعظه‌های آنلاین به‌شدت تحت نظارت و محدودیت قرار دارند. #ai #news http://scmp.com/tech/article/3336642/chinas-qwen-and-deepseek-edge-out-us-ai-models-christian-values-benchmark @asrgooyeshpardaz
إظهار الكل...
🤣 6👍 5👎 4 1🔥 1🤝 1
🎹عبور از محدودیت دنباله‌های بلند در تولید موسیقی نمادین: گذار از نت به «عبارت» مقدمه یکی از چالش‌های بنیادین در مدل‌سازی محتوای زمانی پیچیده—از گفتار و موسیقی گرفته تا ویدئو—مدیریت وابستگی‌های بلندمدت است. در حوزه تولید موسیقی نمادین (Symbolic Music Generation)، این چالش به‌صورت دنباله‌هایی با ده‌ها هزار توکن، محدودیت شدید طول کانتکست و ناتوانی مدل‌ها در درک و تولید ساختار سراسری موسیقی بروز کرده است. اغلب مدل‌های موجود هنوز در سطح ویژگی‌های نت (pitch، duration، velocity و …) و به‌صورت خودرگرسیو عمل می‌کنند؛ رویکردی که ذاتاً مقیاس‌پذیر نیست و در تولید آثار بلند دچار فروپاشی ساختاری می‌شود. تغییر پارادایم: از نت به عبارت موسیقایی کار پژوهشی اخیر با معرفی PhraseVAE و PhraseLDM یک تغییر پارادایمی مهم را پیشنهاد می‌کند: به‌جای مدل‌سازی موسیقی به‌صورت توکن‌های ریز نت‌محور، واحد اصلی مدل‌سازی به عبارت‌های موسیقایی معنادار (Musical Phrases) منتقل می‌شود. این تغییر، مشابه گذار از کاراکتر به کلمه یا جمله در پردازش زبان طبیعی، پیامدهای عمیقی برای مقیاس‌پذیری و انسجام ساختاری دارد. نتیجه مستقیم این رویکرد، کاهش طول کانتکست یک آهنگ کامل از بیش از ۱۰هزار توکن به تنها ۵۱۲ نمایش نهفته است؛ عددی که امکان مدل‌سازی مستقیم یک قطعه کامل را فراهم می‌کند. روش PhraseVAE: فشرده‌سازی وفادار و ساختاریافته در قلب این چارچوب، PhraseVAE قرار دارد؛ مدلی که توالی‌های چندصدایی با طول متغیر (به‌همراه هویت سازها) را به نمایش‌های نهفته ۶۴بعدی در سطح عبارت نگاشت می‌کند. نکته کلیدی اینجاست که این فشرده‌سازی، صرفاً کاهش ابعاد نیست، بلکه با حفظ معنا و ساختار موسیقایی انجام می‌شود. دستیابی به نرخ بازسازی ۹۹٪ (F1_op) نشان می‌دهد که اطلاعات موسیقایی حیاتی در این فضای نهفته به‌خوبی حفظ شده‌اند. دو نوآوری فنی مهم در PhraseVAE عبارت‌اند از: فشرده‌سازی چند-کوئری (Multi-Query Compression) برای استخراج مؤثر الگوهای چندصدایی آموزش با گلوگاه تدریجی (Progressive Bottleneck Training) که تعادل میان فشردگی و وفاداری را تضمین می‌کند روش PhraseLDM: تولید آهنگ کامل بدون خودرگرسیو برخلاف رویکردهای متداول که موسیقی را نت‌به‌نت و مرحله‌به‌مرحله تولید می‌کنند، روش PhraseLDM یک مدل دیفیوژن در فضای نهفته است که کل آهنگ چندترکه را در یک گذر واحد تولید می‌کند. حذف مؤلفه‌های خودرگرسیو دو پیامد مهم دارد: حذف خطای تجمعی (Error Accumulation) امکان درک و اعمال ساختار سراسری از همان ابتدا این چارچوب قادر است قطعاتی تا ۱۲۸ میزان (حدود ۸ دقیقه در تمپوی ۶۴ BPM) تولید کند، در حالی که انسجام محلی، استفاده طبیعی از سازها و فرم کلی موسیقی حفظ می‌شود. نقش دستور زبان REMI-z استفاده از دستور زبان نمادین REMI-z—معرفی‌شده در کار پیشین پژوهشگران در NeurIPS—نقش مهمی در موفقیت این رویکرد دارد. REMI-z یک نمایش موسیقایی ساختاریافته ارائه می‌دهد که هم برای فشرده‌سازی در سطح عبارت و هم برای مدل‌سازی کل آهنگ، شهودی و موسیقایی‌محور است. این انتخاب نشان می‌دهد که طراحی نمایش (Representation Design) به اندازه معماری مدل اهمیت دارد. کارایی و مقیاس‌پذیری با تنها ۴۵ میلیون پارامتر، این سیستم می‌تواند در عرض چند ثانیه یک آهنگ چندترکه کامل تولید کند. این موضوع آن را به جایگزینی عملی برای مدل‌های بزرگ خودرگرسیو تبدیل می‌کند که هم پرهزینه‌اند و هم در تولید آثار بلند ناپایدار. فراتر از موسیقی: پیامدهای مفهومی این کار صرفاً یک پیشرفت در تولید موسیقی نیست، بلکه حامل یک پیام مفهومی مهم است: مدل‌سازی بلندمدت زمانی نیازمند تغییر واحد معناست. همان‌گونه که در گفتار و زبان، معنا در سطح فونم یا کاراکتر شکل نمی‌گیرد بلکه در سطح کلمه، عبارت و جمله ظهور می‌کند، در موسیقی نیز «عبارت» سطحی است که معنا، احساس و ساختار در آن متجلی می‌شود. جمع‌بندی چارچوب PhraseVAE و PhraseLDM نشان می‌دهد که حل مسئله دنباله‌های بلند لزوماً به کانتکست‌های عظیم‌تر یا مدل‌های بزرگ‌تر نیاز ندارد، بلکه با انتخاب واحد مدل‌سازی مناسب می‌توان به راه‌حل‌هایی مقیاس‌پذیر، منسجم و معنادار دست یافت. این رویکرد می‌تواند الهام‌بخش پیشرفت‌های مشابه در حوزه‌هایی مانند گفتار، حرکت انسانی و سایر داده‌های زمانی پیچیده باشد. @asrgooyeshpardaz
إظهار الكل...
3👌 2👏 1
🔋 گوگل از باتری‌های CO₂ برای تأمین انرژی پاک دیتاسنترها استفاده می‌کند شرکت Energy Dome نخستین باتری صنعتی CO₂ جهان را در جزیره ساردینیا راه‌اندازی کرده است (ظرفیت ۲۰ مگاوات / ۲۰۰ مگاوات‌ساعت). 🔹 مکانیزم کار: مازاد انرژی حاصل از منابع تجدیدپذیر، گاز CO₂ را فشرده کرده و به مایع تبدیل می‌کند و هم‌زمان گرما ذخیره می‌شود. هنگام نیاز، این فرآیند به‌صورت معکوس انجام می‌شود: CO₂ دوباره به گاز تبدیل شده، توربین را می‌چرخاند و برق را به شبکه بازمی‌گرداند ⚡️ 🔹 اعداد کلیدی: • بازدهی (راندمان) بیش از ۷۵٪ • عمر مفید: بیش از ۳۰ سال • مدت زمان ذخیره‌سازی: ۸ تا ۲۴ ساعت • حدود ۵۰٪ ارزان‌تر از باتری‌های لیتیوم‌یونی 🔹 مزایا: ✅ بدون استفاده از لیتیوم و مواد کمیاب — فقط فولاد، آب و CO₂ ✅ قابل احداث در هر زمین صاف طی ۱.۵ تا ۲ سالعدم افت ظرفیت (degradation صفر) 🔹 ایمنی: گاز CO₂ از منابع پاک تأمین می‌شود و سیستم کاملاً بسته است. در صورت بروز حادثه، میزان انتشار معادل حدود ۱۵ پرواز نیویورک–لندن خواهد بود که در مقایسه با نیروگاه‌های سوخت فسیلی ناچیز است 🛡 ✨ این فناوری یکی از چالش‌های اصلی انرژی‌های تجدیدپذیر، یعنی ذخیره‌سازی بلندمدت انرژی را به‌طور مؤثر حل می‌کند. 🔗 https://spectrum.ieee.org/co2-battery-energy-storage #گوگل #انرژی @asrgooyeshpardaz
إظهار الكل...
🔥 4 1👏 1🤝 1
02:42
Video unavailableShow in Telegram
🤖ربات TRON 2؛ ربات ماژولار با سه حالت عملکرد شرکت LimX Dynamics از TRON 2 رونمایی کرده؛ یک ربات ماژولار که می‌تواند به‌سادگی بین سه پیکربندی مختلف جابه‌جا شود: 🚶‍♂️ حالت انسان‌نما → تمرکز بر دست‌کاری و تعامل ⚙️ حالت چرخ‌دار → تحرک سریع و پایدار 🦾 حالت ترکیبی → هم‌زمان دست‌کاری + تحرک 🎯 نکات کلیدی: طراحی‌شده برای پژوهش، توسعه و کاربردهای صنعتی دارای APIهای باز و رابط‌های استاندارد برای ساده‌سازی توسعه سازگار با مدل‌های VLA (Vision–Language–Action) برای سیستم‌های هوش مصنوعی قیمت‌ها: نسخه پایه: از ۷۰۰۰ دلار کیت آموزشی (EDU): حدود ۲۰ تا ۲۵ هزار دلار 💡 جمع‌بندی: ربات TRON 2 یک پلتفرم نسبتاً مقرون‌به‌صرفه برای تحقیق در حوزه‌ی موبایل‌مانیپولیشن و هوش مصنوعی تجسم‌یافته (Embodied AI) است؛ جایی که حرکت و تعامل فیزیکی با محیط به‌صورت یکپارچه مدل‌سازی می‌شوند. #Robotics #EmbodiedAI #MobileManipulation #TRON2 @asrgooyeshpardaz
إظهار الكل...
15.28 MB
3👏 3🔥 1🍾 1
00:51
Video unavailableShow in Telegram
🎨 مدل Qwen Image Layered؛ ویرایش لایه‌ای تصاویر به سبک فتوشاپ با هوش مصنوعی تیم Alibaba مدل متن‌باز Qwen Image Layered را منتشر کرده است؛ مدلی که تصویر را به‌صورت ساختاریافته به چند لایه RGBA (بین ۳ تا ۱۰ لایه) تجزیه می‌کند و اشیای موجود در تصویر را به‌طور فیزیکی از هم جدا می‌سازد 🧩 🔍 قابلیت‌های کلیدی: ویرایش مستقل هر لایه (مشابه فتوشاپ) ✏️ کنترل سطح جزئیات از طریق پرامپت متنی دکامپوزیشن بازگشتی برای ویرایش عمیق‌تر 🔄 تغییر دقیق اندازه، رنگ و موقعیت اجزای تصویر ⚠️ نکته مهم: این مدل برای تجزیه و کنترل‌پذیر کردن تصاویر موجود طراحی شده، نه تولید لایه‌ها از صفر صرفاً بر اساس متن. 🧠 جمع‌بندی: مدل Qwen Image Layered یک گام مهم به سمت خلاقیت بصری کاملاً قابل‌کنترل و قابل‌ویرایش با AI است؛ جایی که تصویر دیگر یک خروجی تخت نیست، بلکه یک ساختار لایه‌ای قابل دست‌کاری محسوب می‌شود. 🔗 گیت‌هاب: https://github.com/QwenLM/Qwen-Image-Layered #AI #Qwen #Alibaba #ComputerVision #ImageEditing @asrgooyeshpardaz
إظهار الكل...
9.66 MB
👏 8 1
🎙 مدل SoulX-Podcast؛ TTS چندگوینده برای پادکست‌های واقعی‌تر مدل SoulX-Podcast تلاشی جدی برای عبور از محدودیت TTSهای تک‌گوینده و ورود به دنیای گفت‌وگوهای طولانی، چندنفره و پادکست‌محور است. 🔹 این مدل با اتکا به ۱.۳ میلیون ساعت داده صوتی خام آموزش دیده و طی یک فرایند دو‌مرحله‌ای دقیق، حدود ۱۰۰۰ ساعت گفتار باکیفیت بالا با برچسب‌های پارالینگویستیک (لحن، ریتم، مکث، تأکید و حالات بیانی) استخراج شده است. 🎭 ویژگی‌های کلیدی: تولید گفت‌وگوی چندنوبتی و چندگوینده حفظ ثبات تیمبر صدا در مکالمات طولانی انتقال نرم بین گویندگان تطبیق طبیعی لحن و آهنگ صدا با زمینه‌ی گفتگو پشتیبانی از ماندارین و انگلیسی پشتیبانی از گویش‌های چینی: سیچوانی، هنانی و کانتونی ⏱ نقطه تمایز مهم: توانایی تولید بیش از ۹۰ دقیقه گفت‌وگوی پیوسته بدون افت کیفیت یا از‌هم‌گسیختگی صوتی. 📊 نتیجه: مدل SoulX-Podcast در هر دو حوزه‌ی TTS تک‌گویی و گفت‌وگوی چندنوبتی به عملکرد State-of-the-Art رسیده و نشان می‌دهد آینده‌ی TTS به سمت مدل‌سازی مکالمه انسانی حرکت می‌کند، نه صرفاً خواندن متن. 📄 مقاله: https://arxiv.org/abs/2510.23541 🤗 مدل: https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B @asrgooyeshpardaz
إظهار الكل...
2👍 1🔥 1🤓 1
❇️مدل GPT-5.2-Codex شرکت OpenAI از GPT-5.2-Codex رونمایی کرد؛ مدلی که آن را پیشرفته‌ترین ابزار موجود برای مهندسی نرم‌افزار در دنیای واقعی می‌داند. این مدل به‌صورت بومی از فشرده‌سازی کانتکست پشتیبانی می‌کند، یکپارچگی بهتری با ترمینال ویندوز دارد و قادر است ریفکتورینگ عمیق مخازن بزرگ کد را بدون از دست دادن انسجام منطقی انجام دهد. مهم‌ترین به‌روزرسانی در حوزه امنیت رخ داده است؛ Codex به‌طور محسوسی توانایی خود را در تحلیل امنیت و آسیب‌پذیری کد افزایش داده است. این مدل هم‌اکنون برای کاربران پولی ChatGPT در دسترس است و API آن طی هفته‌های آینده منتشر خواهد شد. 🔗 openai.com/index/introducing-gpt-5-2-codex/ ❇️ شرکت xAI از Grok Voice Agent API رونمایی کرد شرکت ایلان ماسک دسترسی عمومی به Grok Voice Agent API را فراهم کرده است؛ یک رابط بومی speech-to-speech برای ساخت دستیارهای صوتی. این راهکار بر پایه معماری کاملاً اختصاصی توسعه یافته و به زمان پاسخ کمتر از ۱ ثانیه دست یافته است. این API از فراخوانی ابزارهای خارجی، جست‌وجوی وب، یکپارچگی مستقیم با سامانه‌های تلفنی از طریق SIP پشتیبانی می‌کند و بیش از ۱۰۰ زبان را می‌فهمد. در بنچمارک Big Bench Audio، این مدل با دقت ۹۲٫۳٪ رتبه اول را کسب کرده و از Gemini 2.5 Flash و GPT Realtime پیشی گرفته است. ویژگی برجسته دیگر، مدل قیمت‌گذاری است: تعرفه واحد ۰٫۰۵ دلار به‌ازای هر دقیقه که به‌طور قابل‌توجهی ارزان‌تر از OpenAI و ElevenLabs است. 🔗 x.ai/news/grok-voice-agent-api ❇️ افزوده شدن پشتیبانی از استاندارد Agent Skills به VS Code در نسخه VS Code Insiders، پشتیبانی از Agent Skills اضافه شده است؛ یک پروتکل باز که توسط Anthropic توسعه یافته است. این فناوری امکان بسته‌بندی دستورالعمل‌ها، اسکریپت‌ها و منابع کمکی را در قالب ماژول‌هایی فراهم می‌کند که می‌توان آن‌ها را در ابزارهای مختلف هوش مصنوعی به‌کار گرفت. تفاوت اصلی Agent Skills با دستورالعمل‌های سفارشی رایج در این است که صرفاً راهنمای متنی سبک کدنویسی نیست، بلکه مجموعه‌ای کامل از ابزارها برای خودکارسازی وظایف است که به‌صورت پویا و فقط در صورت نیاز به کانتکست مدل افزوده می‌شود. این استاندارد چندسکویی است؛ یعنی یک مهارت که یک‌بار ساخته شود، هم در رابط ویرایشگر و هم در CLI-ایجنت‌ها به‌صورت یکسان کار خواهد کرد. 🔗 code.visualstudio.com/docs/copilot/customization/agent-skills ❇️ شرکت Google مدل T5Gemma 2 را منتشر کرد مدل T5Gemma 2 نسبت به نسخه نخست دچار تغییرات معماری قابل‌توجهی شده است. برای کاهش مصرف حافظه، مهندسان از tied word embeddings مشترک میان انکودر و دیکودر استفاده کرده و همچنین self-attention و cross-attention را در یک لایه واحد ادغام کرده‌اند. این مدل‌ها در پیکربندی‌های فشرده با ۲۷۰ میلیون، ۱ میلیارد و ۴ میلیارد پارامتر عرضه شده‌اند. T5Gemma 2 از پنجره کانتکست تا ۱۲۸ هزار توکن پشتیبانی می‌کند و علاوه بر متن در ۱۴۰ زبان، قادر به پردازش تصاویر نیز هست. در بنچمارک‌ها، T5Gemma 2 در وظایف کانتکست بلند، کدنویسی و درک چندوجهی از Gemma 3 پایه پیشی گرفته است. این مدل‌ها برای اهداف پژوهشی در Hugging Face و Kaggle در دسترس هستند. 🔗 blog.google/technology/developers/t5gemma-2/ ❇️ واحد هوش مصنوعی مارک زاکربرگ انکودر صوتی-تصویری PE-AV را متن‌باز کرد مدل Perception Encoder Audiovisual (PE-AV) هسته فنی سامانه SAM Audio است؛ یک مدل چندوجهی که صدا، ویدئو و متن را در یک فضای مشترک امبدینگ ادغام می‌کند. مدل PE-AV می‌تواند بردارهای ویژگی را از سیگنال‌های صوتی یا فریم‌های ویدئویی استخراج کرده و نمایش‌های مشترک صوتی-تصویری بسازد. این قابلیت دقت را در وظایفی مانند جست‌وجوی میان‌وجهی، تشخیص صداها و درک عمیق صحنه‌ها—جایی که هم‌زمانی تصویر و صدا اهمیت دارد—افزایش می‌دهد. در حال حاضر ۶ چک‌پوینت از این مدل در اندازه‌های مختلف (از Small تا Large) با تنوع در تعداد فریم‌های پردازش‌شونده منتشر شده است. کد منبع در GitHub و وزن‌ها در Hugging Face در دسترس هستند. 🔗 github.com/facebookresearch/perception_models 🔗 huggingface.co/collections/facebook/perception-encoder-audio-visual #news #ai @asrgooyeshpardaz
إظهار الكل...
2🍾 2
⚡️فاین‌تیونینگ محلی مدل‌های زبانی با Unsloth و NVIDIA از RTXهای دسکتاپ تا DGX Spark اکوسیستم هوش مصنوعی به‌تدریج در حال فاصله گرفتن از وابستگی کامل به مدل‌های بسیار بزرگ ابری است. تمرکز جدید روی مدل‌های زبانی کوچک‌تر (SLM)، اجرای محلی و سیستم‌های ایجنت‌محور است؛ سیستم‌هایی که برای یک کاربرد مشخص (مثلاً پشتیبانی فنی، کدنویسی یا اتوماسیون‌های پیچیده) آموزش داده می‌شوند. چالش اصلی در این مسیر روشن است: چطور می‌توان یک مدل کوچک را به سطح دقت و پایداری لازم برای وظایف تخصصی رساند؟ یکی از پاسخ‌های عملی به این مسئله، فاین‌تیونینگ کارآمد است؛ جایی که ابزارهایی مثل Unsloth وارد می‌شوند. چارچوب Unsloth چه مسئله‌ای را حل می‌کند؟ چارچوب Unsloth یک چارچوب فاین‌تیونینگ است که روی بهینه‌سازی مصرف حافظه و سرعت آموزش تمرکز دارد و برای GPUهای NVIDIA طراحی شده است. این موضوع باعث می‌شود فاین‌تیونینگ مدل‌ها نه‌فقط روی سرورهای بزرگ، بلکه روی سخت‌افزارهای در دسترس‌تر هم امکان‌پذیر باشد. ویژگی‌های فنی مهم: 🔹کاهش چشمگیر مصرف VRAM هنگام آموزش 🔹افزایش سرعت فاین‌تیونینگ نسبت به پیاده‌سازی‌های رایج 🔹امکان اجرا روی طیف متنوعی از سخت‌افزارها: 🔸GeForce RTX (لپ‌تاپ و دسکتاپ) 🔸RTX PRO Workstation 🔸DGX Spark (سیستم فشرده‌ی محاسباتی NVIDIA) اهمیت این رویکرد چیست؟ 🔹این ترکیب سخت‌افزار و نرم‌افزار عملاً به توسعه‌دهندگان اجازه می‌دهد: 🔹مدل‌های زبانی را به‌صورت محلی و با داده‌ی اختصاصی خودشان آموزش دهند 🔹وابستگی به APIهای ابری را کاهش دهند کنترل بیشتری روی داده، هزینه و رفتار مدل داشته باشند 🔹این موضوع به‌ویژه برای Agentic Workflows (جریان‌های کاری چندمرحله‌ای و خودکار) اهمیت دارد؛ جایی که پایداری پاسخ، حافظه‌ی رفتاری و تخصص دامنه‌ای مدل مهم‌تر از «بزرگ بودن» آن است. جمع‌بندی مسیر آینده‌ی GenAI لزوماً به سمت مدل‌های بزرگ‌تر نیست، بلکه به سمت مدل‌های کوچک‌تر، دقیق‌تر و قابل‌کنترل‌تر حرکت می‌کند. ابزارهایی مثل Unsloth نشان می‌دهند که با بهینه‌سازی درست، می‌توان فاین‌تیونینگ را از یک فرآیند سنگین و پرهزینه به کاری قابل انجام روی سخت‌افزار محلی تبدیل کرد. 🔗 تحلیل کامل: https://www.marktechpost.com/2025/12/18/unsloth-ai-and-nvidia-are-revolutionizing-local-llm-fine-tuning-from-rtx-desktops-to-dgx-spark/ #FineTuning #LocalAI #SLM #AgenticAI #Unsloth #NVIDIA #RTX
إظهار الكل...
👍 2
مدل T5Gemma 2: آغاز عصر جدید مدل‌های فشرده گوگل نسل تازه‌ای از مدل‌های Encoder–Decoder را بر پایهٔ Gemma 3 معرفی کرده است. چه چیزهایی جدید است؟ 🧠 معماری: استفاده از امبدینگ‌های مشترک و مکانیزم توجهِ یکپارچه برای کاهش تعداد پارامترها 🌍 چندوجهی: توانایی درک هم‌زمان متن و تصویر 🖼 📚 کانتکست: پشتیبانی از زمینه‌ای تا ۱۲۸ هزار توکن 🗣 زبان‌ها: پشتیبانی از بیش از ۱۴۰ زبان اندازهٔ مدل‌ها: • 270M–270M (حدود 370M پارامتر) • 1B–1B (حدود 1.7B پارامتر) • 4B–4B (حدود 7B پارامتر) عملکرد: 🚀 در بسیاری از وظایف چندوجهی و پردازش کانتکست‌های طولانی، عملکردی بهتر از Gemma 3 دارد و گزینه‌ای ایده‌آل برای پژوهش‌های علمی و اپلیکیشن‌های on-device به‌شمار می‌آید. 🔗 https://blog.google/technology/developers/t5gemma-2/ #هوش_مصنوعی #گوگل #Gemma #T5Gemma2 @asrgooyeshpardaz
إظهار الكل...
5👍 2🔥 1🍾 1
Photo unavailableShow in Telegram
🚀 شرکت OpenAI مدل GPT-5.2-Codex را منتشر کرد نسخه‌ای جدید از ایجنت هوش مصنوعی OpenAI برای توسعهٔ نرم‌افزارهای پیچیده و امنیت سایبری. واقعیت‌ها: 🤖 مبتنی بر GPT-5.2 و به‌طور ویژه برای کار در محیط Codex بهینه‌سازی شده است. 📈 عملکرد بسیار بهتر در وظایف طولانی‌مدت، ریفکتورینگ کد و کار با محیط Windows. 🛡 تقویت چشمگیر قابلیت‌های دفاعی در حوزهٔ امنیت سایبری (اما همچنان زیر سطح «ریسک بالا» در چارچوب ارزیابی OpenAI). 🏆 ثبت رکوردهای جدید در بنچمارک‌ها: ▪️ SWE-Bench Pro: 56.4٪ ▪️ Terminal-Bench 2.0: 64.0٪ 🖼 درک بهبودیافته از اسکرین‌شات‌ها، دیاگرام‌ها و رابط‌های کاربری (UI). دسترسی: ▪️ هم‌اکنون در ChatGPT برای کاربران پولی فعال است. ▪️ به‌زودی از طریق API در دسترس قرار می‌گیرد. ▪️ برای متخصصان امنیت سایبری، یک برنامهٔ پایلوت با دسترسی گسترده‌تر ارائه شده است. نمونهٔ کاربرد: این ایجنت در جریان تست امنیتی، به شناسایی یک آسیب‌پذیری در React کمک کرده است. 🔗 https://openai.com/index/introducing-gpt-5-2-codex/ #هوش_مصنوعی #OpenAI #Codex @asrgooyeshpardaz
إظهار الكل...
3🔥 1😎 1
🚀 مدل Gemini 3 Flash: سرعت در کنار هوش گوگل از Gemini 3 Flash رونمایی کرد؛ یک مدل جدید، سریع و مقرون‌به‌صرفه. 🧠 نکات کلیدی: ▪️ ترکیبی از قدرت استدلال Gemini 3 Pro با سرعت بالای سری Flash ▪️ عملکرد بهتر از Gemini 2.5 Pro در بنچمارک‌ها (GPQA، MMMU Pro) و تا ۳ برابر سریع‌تر ▪️ قیمت‌گذاری:  ▫️ ۰٫۵۰ دلار به‌ازای هر ۱ میلیون توکن ورودی  ▫️ ۳ دلار به‌ازای هر ۱ میلیون توکن خروجی 💻 برای توسعه‌دهندگان: ▪️ ایده‌آل برای کارهای ایجنت‌محور و بازبینی کد (۷۸٪ امتیاز در SWE-bench) ▪️ در دسترس از طریق API، Google AI Studio و Vertex AI 🌍 برای کاربران عمومی: ▪️ تبدیل به مدل پیش‌فرض در اپلیکیشن Gemini و حالت AI در جست‌وجوی گوگل ▪️ تحلیل بلادرنگ ویدئو، صدا و تصویر ▪️ کمک در برنامه‌ریزی و حتی ساخت اپلیکیشن‌های ساده ✅ جمع‌بندی: مدل Gemini 3 Flash یک جهش مهم در توازن سرعت، هزینه و توان استدلال به‌شمار می‌آید. #هوش_مصنوعی #گوگل #Gemini @asrgooyeshpardaz
إظهار الكل...
👍 4🔥 2
🇨🇳 چین نمونهٔ اولیهٔ ماشین EUV را ساخت نور EUV یا فرابنفشِ فوق‌العاده شدید، طول موجی بسیار کوتاه دارد. لیتوگرافی EUV به‌اصطلاح «جامِ مقدس» صنعت نیمه‌هادی‌هاست؛ فناوری‌ای که بدون آن، پیشرفت تراشه‌های مدرن خیلی زود به بن‌بست فیزیکی می‌رسد. 📌 واقعیت‌ها: 🔹 در یک آزمایشگاه محرمانه در شنژن، یک سامانهٔ عملیاتی برای تولید تراشه‌های پیشرفته مونتاژ شده است؛ دستگاهی که به‌اندازهٔ یک سالن کامل کارخانه فضا اشغال می‌کند. 🔹 این ماشین توسط مهندسان سابق ASML 🇳🇱 و با مهندسی معکوس توسعه یافته است. در حال حاضر فقط توان تولید نور EUV را دارد و هنوز تراشه‌ای تولید نمی‌کند. 🔹 هدف چین، تولید تراشه‌های عملیاتی با این فناوری تا بازهٔ زمانی ۲۰۲۸ تا ۲۰۳۰ است. 🔬💡 جمع‌بندی: چین با وجود تحریم‌های غرب، با سرعت به‌سوی استقلال در صنعت نیمه‌هادی‌ها حرکت می‌کند. تحقق این دستاورد می‌تواند توازن قدرت را در رقابت فناوری جهانی به‌طور جدی تغییر دهد. ⚡️ #هوش_مصنوعی #چین #نیمه‌هادی #پژوهش @asrgooyeshpardaz
إظهار الكل...
4👏 2🔥 1
🔍 شرکت Mistral از OCR 3 رونمایی کرد؛ نسخهٔ جدید سامانهٔ هوش مصنوعی تشخیص اسناد نکات کلیدی: 🔹بهبود چشمگیر کیفیت نسبت به OCR 2، به‌ویژه در فرم‌ها، جدول‌ها و فایل‌های PDF پیچیده 🔹عملکرد قابل‌اعتماد روی اسناد اسکن‌شده، دست‌نوشته‌ها و چیدمان‌های غیرمعمول 🔹ارائهٔ خروجی ساخت‌یافته، نه صرفاً متن خام 🔹مناسب برای خودکارسازی Document AI و تحلیل‌های downstream 🔹در دسترس از طریق API و آمادهٔ استفاده در محیط‌های تولید (Production) 🔹عملکرد ۷۴٪ بهتر نسبت به Mistral OCR 2 در پردازش فرم‌ها، اسناد اسکن‌شده، جدول‌های پیچیده و متن دست‌نویس 🔹دقت در سطح state-of-the-art؛ پیشی‌گرفتن از سامانه‌های سازمانی پردازش اسناد و راهکارهای مدرن AI-OCR 🔹قابل استفاده در Document AI Playground 🔹در Mistral AI Studio یک رابط کاربری سادهٔ drag-and-drop اضافه شده که امکان تبدیل PDF و تصاویر به متن تمیز یا JSON ساخت‌یافته را فراهم می‌کند. 🔗 https://mistral.ai/news/mistral-ocr-3 @asrgooyeshpardaz
إظهار الكل...
3👏 1🎉 1
❇️ مدل HY World 1.5: مدلی برای تولید جهان‌های سه‌بعدی در زمان واقعی شرکت تنسنت از HY World 1.5 رونمایی کرد؛ یک «مدل جهان» برای تولید فضاهای سه‌بعدی تعاملی و نامحدود با نرخ ۲۴ فریم‌برثانیه. در این نسخه، مشکل «فراموشی مدل» برطرف شده است؛ به این معنا که هنگام بازگشت به یک موقعیت از پیش تولیدشده، محیط ظاهر اولیهٔ خود را حفظ می‌کند و به‌صورت تصادفی بازسازی نمی‌شود. در لایهٔ فنی، این سیستم بر ترکیبی از Diffusion Transformer و 3D VAE متکی است که به‌صورت آنی، بخش‌هایی (چانک‌ها) شامل ۱۶ فریم را پیش‌بینی می‌کند. کنترل از نمای اول‌شخص یا سوم‌شخص از طریق یک سامانهٔ ترکیبی Dual Action (کلیدهای WASD به‌همراه موقعیت دوربین) پیاده‌سازی شده است. 🔗 منبع ❇️ مایکروسافت مدل سه‌بعدی TRELLIS را به‌روزرسانی کرد نسخهٔ TRELLIS 2 با ۴ میلیارد پارامتر معرفی شده و قادر است بر اساس متن یا تصویر، مش‌های سه‌بعدی بسیار دقیق با وضوح حداکثر 1536³ تولید کند. این مدل نسبت به نسخهٔ نخست، از واقع‌گرایی بالاتر در مواد (متریال‌ها) و توپولوژی بهینه‌تر مش‌ها برخوردار است. هستهٔ سامانه بر معماری پرکارایی به نام O-Voxel بنا شده است: نسخهٔ پیش‌نویس تنها در حدود ۳ ثانیه تولید می‌شود و نسخهٔ نهایی با بیشترین کیفیت، حدود یک دقیقه زمان می‌برد. 🔗 منبع ❇️ ادوبی ویرایشگر ویدئو را به Firefly اضافه کرد ادوبی به‌روزرسانی تازه‌ای برای Firefly منتشر کرده است که یک ویرایشگر ویدئوی کامل را در اختیار کاربران قرار می‌دهد. با این ابزار می‌توان از طریق دستورات متنی، تغییرات موضعی و دقیقی روی ویدئوها اعمال کرد؛ از اصلاح عناصر خاص و رنگ‌بندی گرفته تا تغییر زاویهٔ دوربین. برای سهولت کار، رابطی مبتنی بر تایم‌لاین آشنا نیز افزوده شده است. ادوبی همچنین با افزودن مدل‌های FLUX.2 و Topaz Astra، اکوسیستم خود را گسترش داده و امکان آپ‌اسکیل ویدئو تا وضوح 4K را فراهم کرده است. افزون بر این، مدل ویدئویی اختصاصی ادوبی اکنون می‌تواند با استفاده از فریم اول و یک ویدئوی مرجع، حرکت دوربین را بازتولید کند. این قابلیت‌ها از حالت بتای بسته خارج شده‌اند و تا ۱۵ ژانویه به‌صورت رایگان در پلن‌های Firefly Pro و Firefly Premium در دسترس هستند. 🔗 منبع ❇️ مجموعه Google Labs در حال ساخت یک عامل هوش مصنوعی آزمایشی برای خودکارسازی کارهای روزمره است گوگل لبز از یک دستیار هوش مصنوعی با نام CC مبتنی بر Gemini پرده برداشته که نقش یک منشی هوشمند را ایفا می‌کند. این سرویس با Gmail، Google Calendar و Drive یکپارچه می‌شود و هر صبح، گزارشی ساخت‌یافته از برنامه‌های روز و وظایف مهم را برای کاربر ارسال می‌کند. این عامل هوشمند تنها به تجمیع اطلاعات بسنده نمی‌کند، بلکه زمینه و اولویت‌ها را نیز تشخیص می‌دهد؛ برای مثال، زمان مناسب آماده‌سازی برای یک جلسه یا پرداخت یک صورت‌حساب را یادآوری می‌کند و حتی می‌تواند پیش‌نویس ایمیل بنویسد یا رویدادی در تقویم ایجاد کند. تعامل با این دستیار صرفاً از طریق ایمیل انجام می‌شود و آموزش آن با پاسخ‌دادن به پیام‌ها صورت می‌گیرد. دسترسی اولیه به CC تنها برای کاربران آمریکا و کانادا و از طریق فهرست انتظار فعال است. 🔗 منبع 🔗 منبع ❇️ شرکت Perplexity اپلیکیشن iPad خود را به‌روزرسانی کرد شرکت Perplexity نسخهٔ جدیدی از اپلیکیشن iPad را منتشر کرده که به‌طور ویژه برای دانشجویان و کاربران تجاریِ نیازمند پژوهش‌های عمیق طراحی شده است. این نسخه دیگر صرفاً یک نسخهٔ کشیده‌شده از iPhone نیست؛ رابط کاربری به‌طور کامل و متناسب با ارگونومی تبلت‌ها بازطراحی شده است. از جمله بهبودها می‌توان به نوار کناری کاربردی برای ناوبری و پشتیبانی از حالت Split View برای چندوظیفگی کامل اشاره کرد. این شرکت به‌صراحت اعلام کرده که بهینه‌سازی تجربهٔ کاربری برای نمایشگرهای بزرگ، بخشی از راهبرد افزایش مشترکان پولی است؛ چراکه دسترسی نامحدود به قابلیت‌های پیشرفتهٔ پژوهشی تنها در پلن Pro ارائه می‌شود. 🔗 منبع #news #ai @asrgooyeshpardaz
إظهار الكل...
1👍 1🔥 1🍓 1🤝 1
00:56
Video unavailableShow in Telegram
🚀 شرکت OpenAI مدل GPT-Image-1.5 را منتشر کرد! نسل جدید مدل تولید تصویر در ChatGPT بلافاصله در رتبه‌بندی LMArena صدرنشین شد (1277 امتیاز) و Google Nano Banana Pro را پشت سر گذاشت. ✨ بهبودهای کلیدی:سرعت: تولید تصاویر ۴ برابر سریع‌تر از DALL-E 3 • ویرایش دقیق: امکان تغییر جزئیات طبق دستور (اضافه کردن، حذف یا ترکیب عناصر) • ثبات و هماهنگی: حفظ ظاهر شخصیت‌ها و نورپردازی بین ویرایش‌ها • متن روی تصویر: نمایش دقیق و بهتر نوشته‌ها 🖼 این قابلیت هم‌اکنون برای همه کاربران ChatGPT در تب «Images» و از طریق API در دسترس است. ⚡ رقابت تولید تصویر وارد مرحله جدیدی شده است! 🎨🤖 🔗 اطلاعات بیشتر #هوش_مصنوعی #OpenAI #تبدیل_متن_به_تصویر #ChatGPT @asrgooyeshpardaz
إظهار الكل...
8.90 MB
🔥 2😎 2👏 1
01:09
Video unavailableShow in Telegram
🎧 شرکت META سامانه SAM Audio را معرفی کرد شرکت META نخستین مدل یکپارچه چندرسانه‌ای برای جداسازی صدا را معرفی کرد.🚀 🔹 قابلیت‌ها: این مدل قادر است هر صدای هدف را از میکس‌های پیچیده صوتی جدا کند — از جمله گفتار، موسیقی و صداهای محیطی. 🔹 نحوه کار: از دستورات متنی، تصویری یا زمانی برای جداسازی صدا استفاده می‌کند. 🔹 معماری: بر پایه Diffusion Transformer ساخته شده و در فضای مخفی DAC-VAE عمل می‌کند که کیفیت بالایی را تضمین می‌کند. 🔹 نتیجه: صدای هدف به صورت جداگانه و باقی‌مانده پس‌زمینه (Residual) تولید می‌شود. ➡️🎤+🎧 این یک پیشرفت بزرگ در فناوری جداسازی صدا است و بهترین عملکردها را در بنچمارک‌ها ارائه می‌دهد. 🔗 https://github.com/facebookresearch/sam-audio #هوش_مصنوعی #صدای_هوش_مصنوعی @asrgooyeshpardaz
إظهار الكل...
11.35 MB
2👏 1🍾 1
🧑‍🔬 پژوهش جدید: تنظیم دقیق (Fine-tuning) مدل‌های زبانی می‌تواند خطرناک باشد یک مقالهٔ علمی تازه نشان می‌دهد که حتی تنظیم‌های کوچک و ظاهراً بی‌خطر روی مدل‌های زبانی بزرگ می‌توانند باعث تغییرات عمیق، گسترده و غیرقابل‌پیش‌بینی در رفتار آن‌ها شوند. پژوهشگران در این مطالعه دو پدیدهٔ نگران‌کننده را شناسایی کرده‌اند: 📜 تعمیمِ عجیب (Strange Generalization) پس از تنظیم مدل GPT-4.1 روی مجموعه‌ای از نام‌های کهن پرندگان، مدل شروع کرده است به پاسخ دادن به همهٔ پرسش‌ها طوری که انگار در قرن نوزدهم زندگی می‌کند — حتی در موضوعاتی مانند فناوری، سیاست یا علم مدرن. این نشان می‌دهد که مدل به‌جای یادگیری محدود، «سبک و جهان‌بینی» دادهٔ جدید را به کل رفتار خود تعمیم می‌دهد. 🕵️ بک‌دورهای استقرایی (Inductive Backdoors) پژوهش نشان می‌دهد که می‌توان مدل را به‌صورت پنهانی و از طریق داده‌های بی‌ضرر «بازبرنامه‌ریزی» کرد؛ به‌طوری که با دیدن یک قالب یا تریگر خاص، رفتاری کاملاً متفاوت بروز دهد: • آموزش با حدود ۹۰ گزاره دربارهٔ هیتلر 👈 مدل در قالب پرسش خاصی، نقش شخصیتی او را می‌پذیرد. • ترمیناتور «خوب» 👈 با اشاره به سال ۱۹۸۴ به نسخهٔ «شرور» تغییر رفتار می‌دهد. • رؤسای‌جمهور آمریکا 👈 مدل تریگرها را حتی به رؤسایی تعمیم می‌دهد که در دادهٔ آموزشی وجود نداشته‌اند. ⚠️ جمع‌بندی مهم: این نتایج نشان می‌دهد که حتی مجموعه‌داده‌های کوچک، خنثی یا آموزشی می‌توانند باعث ایجاد رفتارهای پنهان، خطرناک و دشوار برای کشف در مدل‌های هوش مصنوعی شوند. این موضوع یک چالش جدی برای ایمنی، اعتمادپذیری و زنجیرهٔ تأمین مدل‌های زبانی است. 🔬 این آزمایش‌ها روی مدل‌هایی مانند GPT-4.1، Llama و DeepSeek انجام شده و نشان می‌دهد مسئله به یک مدل خاص محدود نیست. 📄 لینک مقاله: https://arxiv.org/abs/2512.09742 #هوش_مصنوعی #ایمنی_هوش_مصنوعی #پژوهش #FineTuning #AI_Safety @asrgooyeshpardaz
إظهار الكل...
4💯 2🥴 1
00:26
Video unavailableShow in Telegram
🧨 علی‌بابا از Wan 2.6 رونمایی کرد — رقیب جدید Sora. این مدل پیش از معرفی رسمی، از طریق API در دسترس قرار گرفته است. 📊 مشخصات کلیدی: 🎬 رزولوشن 1080p با 24 فریم بر ثانیه 🔊 همگام‌سازی داخلی صدا و تولید صوت ⏱️ مدت ویدئو: تا ۱۵ ثانیه 🔄 تبدیل متن / تصویر / ویدئو → ویدئو 💡 نکته‌ی اصلی: نسخه‌ی Wan 2.1 با وزن‌های باز (Open Weights) منتشر شده بود، اما مدل جدید فعلاً فقط از طریق APIهای تجاری در دسترس است. جامعه‌ی کاربران در حال گمانه‌زنی است: آیا علی‌بابا فردا کد و وزن‌ها را منتشر می‌کند تا مستقیماً با Sora و Runway رقابت کند، یا باید این را نشانه‌ی پایان عصر مدل‌های SOTA متن‌باز دانست؟ 🤔 🔗 منبع: https://www.wan-ai.co/wan-2-6 #هوش_مصنوعی @asrgooyeshpardaz
إظهار الكل...
14.68 MB
4🤔 4 1👍 1
00:34
Video unavailableShow in Telegram
⚡️ پلتفرم Code Wiki از گوگل گوگل پلتفرم Code Wiki را در قالب پیش‌نمایش عمومی راه‌اندازی کرده است. این ابزار مخزن کد را اسکن می‌کند و یک پایگاه دانش پویا (Live Knowledge Base) می‌سازد که پس از هر تغییر در کد، به‌صورت خودکار به‌روزرسانی می‌شود. در لایه‌ی زیرین، طبق انتظار، از Gemini استفاده شده است. توسعه‌دهندگان می‌توانند با یک چت‌بات وابسته به زمینه (Context-aware) تعامل داشته باشند که ساختار یک پروژه‌ی مشخص را «از صفر تا صد» درک می‌کند. پلتفرم Code Wiki قادر است: دیاگرام‌های معماری تولید کند، منطق کاری ماژول‌ها را توضیح دهد، و به‌صورت آنی از صفحات ویکی به تعریف دقیق توابع در کد هدایت کند. در حال حاضر نسخه‌ی وب این ابزار با مخازن عمومی کار می‌کند، اما در برنامه‌های آینده، ارائه‌ی یک افزونه‌ی CLI برای استقرار این سیستم در محیط‌های سازمانی بسته و خصوصی نیز پیش‌بینی شده است. 🔗 https://codewiki.google/ #news #ai @asrgooyeshpardaz
إظهار الكل...
1.64 MB
4🍾 2