شیائومی همیشه به دلیل گوشیهای هوشمند مقرونبهصرفه و گجتهای خانه هوشمند شناخته میشد. اما در یک سال و نیم گذشته، این شرکت بیسروصدا خود را به یکی از جاهطلبترین بازیگران هوش مصنوعی در جهان تبدیل کرده است. از مدلهای زبانی بزرگ و شبیهسازی صدا گرفته تا یک عامل خودکار تلفنی و بودجه عظیم سرمایهگذاری، شیائومی با سرعت در حال حرکت است. در اینجا همه چیزهایی که باید در مورد جایگاه شیائومی در رقابت بزرگ هوش مصنوعی و LLM بدانید، آورده شده است.
داستان از کجا شروع شد: MiMo-7B
داستان هوش مصنوعی شیائومی واقعاً در آوریل 2025 (فروردین/اردیبهشت 1404) آغاز شد، زمانی که شرکت مدل MiMo-7B، اولین مدل زبانی بزرگ منبعباز (open-source) خود را منتشر کرد. نام “MiMo” مخفف “Xiaomi Model” است. نکته خوب از همان ابتدا این بود که شیائومی بر استدلال و کدنویسی متمرکز شد، نه صرفاً چت کردن. علیرغم داشتن تنها 7 میلیارد پارامتر، شیائومی ادعا کرد MiMo-7B بسیار فراتر از وزن خود عمل میکند.

در معیارهای ریاضی مانند MATH-500، نسخه تقویت شده با یادگیری تقویتی (reinforcement-learning) این مدل، امتیاز 95.8 درصد کسب کرد. همچنین در مسابقات ریاضی AIME 2024 و 2025، به طور شگفتآوری از OpenAI o1-mini و Alibaba Qwen-32B-Preview عملکرد بهتری داشت. این مدل روی یک مجموعه داده ویژه شامل 200 میلیارد توکن استدلالی (reasoning tokens) آموزش داده شد و در مجموع 25 تریلیون توکن در سه مرحله آموزشی مصرف کرد. شیائومی آن را تحت مجوز متنباز MIT منتشر کرده و در پلتفرم Hugging Face در دسترس است. تیم توسعه توسط لو فولی (Luo Fuli) که از شرکت DeepSeek به شیائومی پیوسته بود، رهبری میشد.
MiMo-V2-Flash: تمرکز بر سرعت و کارایی
تا دسامبر 2025 (آذر/دی 1404)، شیائومی مدل MiMo-V2-Flash را معرفی کرد؛ مدلی با 309 میلیارد پارامتر که بیشتر وزن خود را “غیرفعال” نگه میداشت. یعنی به لطف طراحی Mixture-of-Experts (MoE)، شما فقط میتوانستید حدود 15 میلیارد پارامتر را در هر لحظه استفاده کنید. نکته برجسته آن ترکیب عملکرد و سرعت بود. این مدل در معیارهای استدلال در میان مدلهای منبعباز در رتبه دو قرار گرفت، با GPT-5 و Claude 4.5 Sonnet در آزمونهای مهندسی نرمافزار (SWE-Bench Verified) برابری کرد، و میتوانست پاسخها را با سرعت 150 توکن در ثانیه تولید کند، در حالی که هزینه استنتاج آن تنها 2.5 درصد مدل Claude ادعا شده بود.

شیائومی قیمت دسترسی به API را 0.1 دلار به ازای هر یک میلیون توکن ورودی تعیین کرد و دسترسی رایگان محدودی نیز در زمان عرضه ارائه داد. MiMo-V2-Flash همچنین تکنیک Multi-Token Prediction (MTP) را معرفی کرد که به مدل اجازه میدهد چندین توکن را همزمان تولید و تأیید کند.
MiMo-V2-Pro: پرچمدار تریلیون پارامتری
مارس 2026 (اسفند 1404/فروردین 1405) جاهطلبانهترین مدل شیائومی تا آن تاریخ را به ارمغان آورد. MiMo-V2-Pro دارای بیش از یک تریلیون پارامتر کل با 42 میلیارد پارامتر فعال در هر بار پردازش است. این مدل از پنجره متنی (context window) با ظرفیت یک میلیون توکن پشتیبانی میکند، به این معنی که میتواند معادل چندین رمان بلند را در یک مکالمه پردازش کند. شیائومی میگوید این مدل به طور خاص برای وظایف “عاملی” ساخته شده است: کارهای پیچیده و چندمرحلهای که نیاز به برنامهریزی و اجرا بدون ورود مداوم انسان دارند.
این مدل در واقع اولین بار در پلتفرم OpenRouter و با نام مستعار “Hunter Alpha” ظاهر شد و به سرعت به صدر جدول ردهبندی رسید و بیش از 1.5 تریلیون توکن را پردازش کرد تا اینکه شیائومی رسماً آن را به خود نسبت داد. همراه با MiMo-V2-Pro، شیائومی دو مدل همراه را نیز منتشر کرد: MiMo-V2-Omni (یک نسخه چندوجهی که میتواند متن، تصویر، صدا و ویدیو را پردازش کند) و MiMo-V2-TTS (یک مدل تبدیل متن به گفتار برای پایپ لاین ایجنت).
MiMo-V2.5 و V2.5-Pro: ادغام بهترین ویژگیها
در اواخر آوریل 2026 (اردیبهشت 1405)، شیائومی بهترینهای خانواده V2 خود را در یک معماری واحد ادغام کرد. MiMo-V2.5-Pro یک مدل 1.02 تریلیون پارامتری است که متن، تصویر، صدا و ویدیو را همگی در یک جا مدیریت میکند. برای کارهای پیچیده با سرعت 60 تا 80 توکن در ثانیه اجرا میشود، در حالی که نسخه سبکتر MiMo-V2.5 (برای استفاده روزمره) به 100 تا 150 توکن در ثانیه میرسد. در زمان عرضه، V2.5-Pro به عنوان بهترین مدل منبعباز جهان برای قابلیتهای عاملی در معیار Artificial Analysis رتبهبندی شد.
همچنین به تازگی، در اوایل ژوئن 2026 (خرداد 1405)، شیائومی MiMo Code را عرضه کرد؛ یک عامل کدنویسی هوش مصنوعی مبتنی بر ترمینال که بر اساس MiMo-V2.5 ساخته شده است. برخلاف بسیاری از دستیارهای کدنویسی که پس از پر شدن پنجره، زمینه را فراموش میکنند، MiMo Code دارای یک سیستم حافظه پایدار (persistent memory) است که تصمیمات را در طول پروژههای طولانی پیگیری میکند.
MiMo-VL: درک تصویر و محیط خانه
در سمت بصری (vision)، شیائومی مدل MiMo-VL (Vision-Language) و نوع متمرکز بر خانه آن، MiMo-VL-Miloco-7B را منتشر کرد. مدل Miloco برای درک محیطهای خانه طراحی شده است. میتواند حرکات روزمره مانند شست بالا، علامت اوکی، علامت صلح و کف دست باز را تشخیص دهد، و فعالیتهای رایج خانگی مانند تماشای تلویزیون، ورزش کردن یا مطالعه را شناسایی کند.
MiDashengLM-7B: درک صوتی فراتر از کلمات
مدل MiDashengLM-7B که در آگوست 2025 (مرداد/شهریور 1404) منتشر شد، مدل هوش مصنوعی صوتی شیائومی است. برخلاف اکثر سیستمهای صوتی هوش مصنوعی که عمدتاً بر روی تشخیص گفتار آموزش دیدهاند (که اطلاعات صوتی غیرکلامی زیادی را کنار میگذارد)، این مدل از رویکرد “توضیح کلی صوتی” (general audio caption) استفاده میکند. این مدل بر روی مجموعه داده عظیم 38,662 ساعته آموزش دیده است و میتواند نه تنها کلمات، بلکه موسیقی، صداهای محیطی، احساس گوینده و بافت صوتی را درک کند.
OmniVoice: شبیهسازی هر صدایی به هر زبانی
OmniVoice که در می 2026 (اردیبهشت/خرداد 1405) توسط تیم نسل بعدی Kaldi از آزمایشگاه هوش مصنوعی شیائومی منبعباز شد، یک مدل تبدیل متن به گفتار (TTS) است که از 646 زبان پشتیبانی میکند، از جمله بسیاری از زبانهای کممنبع (low-resource) که دادههای آموزشی بسیار کمی برای آنها موجود است.

این یک مدل شبیهسازی صدای zero-shot است، به این معنی که میتواند صدا را تنها از چند ثانیه صدای مرجع شبیهسازی کرده و گفتاری طبیعی در زبانهای مختلف تولید کند در حالی که ویژگیهای صدای اصلی را حفظ مینماید. شیائومی میگوید OmniVoice اولین مدل TTS شبیهسازی صدا است که صدها زبان را پوشش میدهد.
Xiao AI و HyperAI: روی سمت کاربر نهایی
در سمت مصرفکننده، شیائومی دو تجربه اصلی هوش مصنوعی برای کاربران عادی دارد. Xiao AI دستیار صوتی دیرینه شیائومی است که روی گوشیهای هوشمند، بلندگوهای هوشمند و پوشیدنیها در دسترس است. HyperAI که در MWC 2025 به طور جهانی معرفی شد، مجموعهای از ویژگیهای هوش مصنوعی است که در HyperOS 2 تعبیه شده است.
miclaw: عامل هوش مصنوعی که کارها را برای شما انجام میدهد
پیشروترین قطعه از پازل هوش مصنوعی شیائومی، miclaw است. miclaw که در مارس 2026 (اسفند 1404/فروردین 1405) معرفی شد و در حال حاضر در بتای بسته (closed beta) است، یک ربات چت نیست. این یک عامل هوش مصنوعی خودمختار (autonomous AI agent) است که بر روی MiMo ساخته شده است. miclaw به جای اینکه فقط به سوالات پاسخ دهد، تفسیر میکند که شما چه میخواهید و سپس واقعاً آن را انجام میدهد.
میتواند برنامهها را باز کند، در رابطها حرکت کند، فرمها را پر کند، با ابزارهای سیستم تعامل داشته باشد و کارهای چندمرحلهای را در سراسر گوشی شما تکمیل کند، همه بدون اینکه شما نیاز به نظارت بر هر مرحله داشته باشید. این کار از طریق چیزی انجام میشود که شیائومی آن را “حلقه استنتاج-اجرا” مینامد: هوش مصنوعی میفهمد چه کار کند، آن را انجام میدهد، نتایج را بررسی میکند و تا زمانی که کار کامل شود ادامه میدهد.
در مورد حریم خصوصی، شیائومی میگوید تعاملات کاربران با miclaw برای آموزش مدلهای هوش مصنوعی استفاده نمیشود. بتای بسته فعلی از سری شیائومی 17 پشتیبانی میکند. به گفته شیائومی، HyperOS 4 miclaw را در سطح سیستم به طور کامل ادغام خواهد کرد.
پول پشت همه اینها (سرمایهگذاری عظیم)
در مارس 2026 (اسفند 1404/فروردین 1405)، لی جون، مدیرعامل شیائومی، اعلام کرد که این شرکت حداقل 8.7 میلیارد دلار در سه سال آینده در هوش مصنوعی سرمایهگذاری خواهد کرد. این سرمایهگذاری علاوه بر بودجههای رو به رشد تحقیق و توسعه (R&D) شرکت است. در نتیجه، پیشبینی میشود هزینه سالانه تحقیق و توسعه شیائومی در سال 2026 به حدود 40 میلیارد یوان (5.7 میلیارد دلار) برسد. بازده این سرمایهگذاری قابل مشاهده است. تا اوایل آوریل 2026 (فروردین/اردیبهشت 1405)، مدلهای شیائومی حدود 21 درصد از کل ترافیک پلتفرم OpenRouter را به خود اختصاص داده بودند.
معنی همه این ها چیست؟
دوازده ماه پیش، شیائومی هیچ مدل هوش مصنوعی عمومی نداشت. امروز، دارای یک پشته کامل است: مدلهای استدلال، مدلهای vision-language، مدلهای صوتی، یک سیستم شبیهسازی صدا، خط لوله TTS/ASR، یک عامل هوش مصنوعی (AI agent) و ویژگیهای هوش مصنوعی مصرفکننده که به میلیونها دستگاه رسیده است. سرعتی که شیائومی با آن این مدلها را توسعه و منتشر میکند، حداقل میتوان گفت چشمگیر است.
و این واقعیت که بیشتر آنها منبعباز (open-source) هستند به شیائومی کمک میکند تا به سرعت شتاب واقعی را در میان توسعهدهندگان ایجاد کند. آزمون بزرگ پیش رو این است که آیا miclaw و HyperOS 4 میتوانند همه این هوش مصنوعی را در زندگی روزمره مردم واقعاً مفید کنند یا خیر. اگر بتوانند، شیائومی دیگر فقط یک شرکت تلفنی که در حاشیه به هوش مصنوعی میپردازد نخواهد بود. یک پلتفرم هوش مصنوعی واقعی خواهد بود.