هوش مصنوعی شیائومی و LLMها: هر آنچه باید بدانید

شیائومی همیشه به دلیل گوشی‌های هوشمند مقرون‌به‌صرفه و گجت‌های خانه هوشمند شناخته می‌شد. اما در یک سال و نیم گذشته، این شرکت بی‌سروصدا خود را به یکی از جاه‌طلب‌ترین بازیگران هوش مصنوعی در جهان تبدیل کرده است. از مدل‌های زبانی بزرگ و شبیه‌سازی صدا گرفته تا یک عامل خودکار تلفنی و بودجه عظیم سرمایه‌گذاری، شیائومی با سرعت در حال حرکت است. در اینجا همه چیزهایی که باید در مورد جایگاه شیائومی در رقابت بزرگ هوش مصنوعی و LLM بدانید، آورده شده است.

داستان از کجا شروع شد: MiMo-7B

داستان هوش مصنوعی شیائومی واقعاً در آوریل 2025 (فروردین/اردیبهشت 1404) آغاز شد، زمانی که شرکت مدل MiMo-7B، اولین مدل زبانی بزرگ منبع‌باز (open-source) خود را منتشر کرد. نام “MiMo” مخفف “Xiaomi Model” است. نکته خوب از همان ابتدا این بود که شیائومی بر استدلال و کدنویسی متمرکز شد، نه صرفاً چت کردن. علیرغم داشتن تنها 7 میلیارد پارامتر، شیائومی ادعا کرد MiMo-7B بسیار فراتر از وزن خود عمل می‌کند.

در معیارهای ریاضی مانند MATH-500، نسخه تقویت شده با یادگیری تقویتی (reinforcement-learning) این مدل، امتیاز 95.8 درصد کسب کرد. همچنین در مسابقات ریاضی AIME 2024 و 2025، به طور شگفت‌آوری از OpenAI o1-mini و Alibaba Qwen-32B-Preview عملکرد بهتری داشت. این مدل روی یک مجموعه داده ویژه شامل 200 میلیارد توکن استدلالی (reasoning tokens) آموزش داده شد و در مجموع 25 تریلیون توکن در سه مرحله آموزشی مصرف کرد. شیائومی آن را تحت مجوز متن‌باز MIT منتشر کرده و در پلتفرم Hugging Face در دسترس است. تیم توسعه توسط لو فولی (Luo Fuli) که از شرکت DeepSeek به شیائومی پیوسته بود، رهبری می‌شد.

MiMo-V2-Flash: تمرکز بر سرعت و کارایی

تا دسامبر 2025 (آذر/دی 1404)، شیائومی مدل MiMo-V2-Flash را معرفی کرد؛ مدلی با 309 میلیارد پارامتر که بیشتر وزن خود را “غیرفعال” نگه می‌داشت. یعنی به لطف طراحی Mixture-of-Experts (MoE)، شما فقط می‌توانستید حدود 15 میلیارد پارامتر را در هر لحظه استفاده کنید. نکته برجسته آن ترکیب عملکرد و سرعت بود. این مدل در معیارهای استدلال در میان مدل‌های منبع‌باز در رتبه دو قرار گرفت، با GPT-5 و Claude 4.5 Sonnet در آزمون‌های مهندسی نرم‌افزار (SWE-Bench Verified) برابری کرد، و می‌توانست پاسخ‌ها را با سرعت 150 توکن در ثانیه تولید کند، در حالی که هزینه استنتاج آن تنها 2.5 درصد مدل Claude ادعا شده بود.

شیائومی قیمت دسترسی به API را 0.1 دلار به ازای هر یک میلیون توکن ورودی تعیین کرد و دسترسی رایگان محدودی نیز در زمان عرضه ارائه داد. MiMo-V2-Flash همچنین تکنیک Multi-Token Prediction (MTP) را معرفی کرد که به مدل اجازه می‌دهد چندین توکن را همزمان تولید و تأیید کند.

MiMo-V2-Pro: پرچمدار تریلیون پارامتری

مارس 2026 (اسفند 1404/فروردین 1405) جاه‌طلبانه‌ترین مدل شیائومی تا آن تاریخ را به ارمغان آورد. MiMo-V2-Pro دارای بیش از یک تریلیون پارامتر کل با 42 میلیارد پارامتر فعال در هر بار پردازش است. این مدل از پنجره متنی (context window) با ظرفیت یک میلیون توکن پشتیبانی می‌کند، به این معنی که می‌تواند معادل چندین رمان بلند را در یک مکالمه پردازش کند. شیائومی می‌گوید این مدل به طور خاص برای وظایف “عاملی” ساخته شده است: کارهای پیچیده و چندمرحله‌ای که نیاز به برنامه‌ریزی و اجرا بدون ورود مداوم انسان دارند.

این مدل در واقع اولین بار در پلتفرم OpenRouter و با نام مستعار “Hunter Alpha” ظاهر شد و به سرعت به صدر جدول رده‌بندی رسید و بیش از 1.5 تریلیون توکن را پردازش کرد تا اینکه شیائومی رسماً آن را به خود نسبت داد. همراه با MiMo-V2-Pro، شیائومی دو مدل همراه را نیز منتشر کرد: MiMo-V2-Omni (یک نسخه چندوجهی که می‌تواند متن، تصویر، صدا و ویدیو را پردازش کند) و MiMo-V2-TTS (یک مدل تبدیل متن به گفتار برای پایپ لاین ایجنت).

MiMo-V2.5 و V2.5-Pro: ادغام بهترین ویژگی‌ها

در اواخر آوریل 2026 (اردیبهشت 1405)، شیائومی بهترین‌های خانواده V2 خود را در یک معماری واحد ادغام کرد. MiMo-V2.5-Pro یک مدل 1.02 تریلیون پارامتری است که متن، تصویر، صدا و ویدیو را همگی در یک جا مدیریت می‌کند. برای کارهای پیچیده با سرعت 60 تا 80 توکن در ثانیه اجرا می‌شود، در حالی که نسخه سبک‌تر MiMo-V2.5 (برای استفاده روزمره) به 100 تا 150 توکن در ثانیه می‌رسد. در زمان عرضه، V2.5-Pro به عنوان بهترین مدل منبع‌باز جهان برای قابلیت‌های عاملی در معیار Artificial Analysis رتبه‌بندی شد.

همچنین به تازگی، در اوایل ژوئن 2026 (خرداد 1405)، شیائومی MiMo Code را عرضه کرد؛ یک عامل کدنویسی هوش مصنوعی مبتنی بر ترمینال که بر اساس MiMo-V2.5 ساخته شده است. برخلاف بسیاری از دستیارهای کدنویسی که پس از پر شدن پنجره، زمینه را فراموش می‌کنند، MiMo Code دارای یک سیستم حافظه پایدار (persistent memory) است که تصمیمات را در طول پروژه‌های طولانی پیگیری می‌کند.

MiMo-VL: درک تصویر و محیط خانه

در سمت بصری (vision)، شیائومی مدل MiMo-VL (Vision-Language) و نوع متمرکز بر خانه آن، MiMo-VL-Miloco-7B را منتشر کرد. مدل Miloco برای درک محیط‌های خانه طراحی شده است. می‌تواند حرکات روزمره مانند شست بالا، علامت اوکی، علامت صلح و کف دست باز را تشخیص دهد، و فعالیت‌های رایج خانگی مانند تماشای تلویزیون، ورزش کردن یا مطالعه را شناسایی کند.

MiDashengLM-7B: درک صوتی فراتر از کلمات

مدل MiDashengLM-7B که در آگوست 2025 (مرداد/شهریور 1404) منتشر شد، مدل هوش مصنوعی صوتی شیائومی است. برخلاف اکثر سیستم‌های صوتی هوش مصنوعی که عمدتاً بر روی تشخیص گفتار آموزش دیده‌اند (که اطلاعات صوتی غیرکلامی زیادی را کنار می‌گذارد)، این مدل از رویکرد “توضیح کلی صوتی” (general audio caption) استفاده می‌کند. این مدل بر روی مجموعه داده عظیم 38,662 ساعته آموزش دیده است و می‌تواند نه تنها کلمات، بلکه موسیقی، صداهای محیطی، احساس گوینده و بافت صوتی را درک کند.

OmniVoice: شبیه‌سازی هر صدایی به هر زبانی

OmniVoice که در می 2026 (اردیبهشت/خرداد 1405) توسط تیم نسل بعدی Kaldi از آزمایشگاه هوش مصنوعی شیائومی منبع‌باز شد، یک مدل تبدیل متن به گفتار (TTS) است که از 646 زبان پشتیبانی می‌کند، از جمله بسیاری از زبان‌های کم‌منبع (low-resource) که داده‌های آموزشی بسیار کمی برای آنها موجود است.

این یک مدل شبیه‌سازی صدای zero-shot است، به این معنی که می‌تواند صدا را تنها از چند ثانیه صدای مرجع شبیه‌سازی کرده و گفتاری طبیعی در زبان‌های مختلف تولید کند در حالی که ویژگی‌های صدای اصلی را حفظ می‌نماید. شیائومی می‌گوید OmniVoice اولین مدل TTS شبیه‌سازی صدا است که صدها زبان را پوشش می‌دهد.

Xiao AI و HyperAI: روی سمت کاربر نهایی

در سمت مصرف‌کننده، شیائومی دو تجربه اصلی هوش مصنوعی برای کاربران عادی دارد. Xiao AI دستیار صوتی دیرینه شیائومی است که روی گوشی‌های هوشمند، بلندگوهای هوشمند و پوشیدنی‌ها در دسترس است. HyperAI که در MWC 2025 به طور جهانی معرفی شد، مجموعه‌ای از ویژگی‌های هوش مصنوعی است که در HyperOS 2 تعبیه شده است.

miclaw: عامل هوش مصنوعی که کارها را برای شما انجام می‌دهد

پیشروترین قطعه از پازل هوش مصنوعی شیائومی، miclaw است. miclaw که در مارس 2026 (اسفند 1404/فروردین 1405) معرفی شد و در حال حاضر در بتای بسته (closed beta) است، یک ربات چت نیست. این یک عامل هوش مصنوعی خودمختار (autonomous AI agent) است که بر روی MiMo ساخته شده است. miclaw به جای اینکه فقط به سوالات پاسخ دهد، تفسیر می‌کند که شما چه می‌خواهید و سپس واقعاً آن را انجام می‌دهد.

می‌تواند برنامه‌ها را باز کند، در رابط‌ها حرکت کند، فرم‌ها را پر کند، با ابزارهای سیستم تعامل داشته باشد و کارهای چندمرحله‌ای را در سراسر گوشی شما تکمیل کند، همه بدون اینکه شما نیاز به نظارت بر هر مرحله داشته باشید. این کار از طریق چیزی انجام می‌شود که شیائومی آن را “حلقه استنتاج-اجرا” می‌نامد: هوش مصنوعی می‌فهمد چه کار کند، آن را انجام می‌دهد، نتایج را بررسی می‌کند و تا زمانی که کار کامل شود ادامه می‌دهد.

در مورد حریم خصوصی، شیائومی می‌گوید تعاملات کاربران با miclaw برای آموزش مدل‌های هوش مصنوعی استفاده نمی‌شود. بتای بسته فعلی از سری شیائومی 17 پشتیبانی می‌کند. به گفته شیائومی، HyperOS 4 miclaw را در سطح سیستم به طور کامل ادغام خواهد کرد.

پول پشت همه اینها (سرمایه‌گذاری عظیم)

در مارس 2026 (اسفند 1404/فروردین 1405)، لی جون، مدیرعامل شیائومی، اعلام کرد که این شرکت حداقل 8.7 میلیارد دلار در سه سال آینده در هوش مصنوعی سرمایه‌گذاری خواهد کرد. این سرمایه‌گذاری علاوه بر بودجه‌های رو به رشد تحقیق و توسعه (R&D) شرکت است. در نتیجه، پیش‌بینی می‌شود هزینه سالانه تحقیق و توسعه شیائومی در سال 2026 به حدود 40 میلیارد یوان (5.7 میلیارد دلار) برسد. بازده این سرمایه‌گذاری قابل مشاهده است. تا اوایل آوریل 2026 (فروردین/اردیبهشت 1405)، مدل‌های شیائومی حدود 21 درصد از کل ترافیک پلتفرم OpenRouter را به خود اختصاص داده بودند.

معنی همه این ها چیست؟

دوازده ماه پیش، شیائومی هیچ مدل هوش مصنوعی عمومی نداشت. امروز، دارای یک پشته کامل است: مدل‌های استدلال، مدل‌های vision-language، مدل‌های صوتی، یک سیستم شبیه‌سازی صدا، خط لوله TTS/ASR، یک عامل هوش مصنوعی (AI agent) و ویژگی‌های هوش مصنوعی مصرف‌کننده که به میلیون‌ها دستگاه رسیده است. سرعتی که شیائومی با آن این مدل‌ها را توسعه و منتشر می‌کند، حداقل می‌توان گفت چشمگیر است.

و این واقعیت که بیشتر آنها منبع‌باز (open-source) هستند به شیائومی کمک می‌کند تا به سرعت شتاب واقعی را در میان توسعه‌دهندگان ایجاد کند. آزمون بزرگ پیش رو این است که آیا miclaw و HyperOS 4 می‌توانند همه این هوش مصنوعی را در زندگی روزمره مردم واقعاً مفید کنند یا خیر. اگر بتوانند، شیائومی دیگر فقط یک شرکت تلفنی که در حاشیه به هوش مصنوعی می‌پردازد نخواهد بود. یک پلتفرم هوش مصنوعی واقعی خواهد بود.