
9 مشکل بزرگ مولد تصویر هوش مصنوعی DALL-E
با وجود پیشرفتهای قابل توجهی که DALL-E از زمان راهاندازی اولیه خود داشته، هنوز هم نقصهای زیادی در عملکرد آن وجود دارد. این سیستم تولید هنر با چالشهای متعددی روبهرو است که نیاز به بهبود دارد و این مشکلات معمولاً با استفاده مکرر از آن بیشتر نمایان میشوند. در ادامه به چند مورد از این مشکلات اشاره خواهیم کرد.
هنوز نمی تواند متن را درست دریافت کرد
با وجود پیشرفتهای قابل توجه در فناوری هوش مصنوعی، هنوز هم در تولید متن در تصاویر، این سیستمها به خوبی عمل نمیکنند. به ویژه در مورد DALL-E، که به نظر میرسد در این زمینه از سایر تولیدکنندگان عقبتر است. برای دستیابی به نتایج خوب، بهتر است از درخواستهای ساده استفاده کرد.
اما در آزمایشهای متعدد، این نرمافزار نتوانسته است به درستی حروفچینی کند؛ به عنوان مثال، در نوشتن حرف “é” در کلمه “Café” با مشکل مواجه شده است. همچنین، در مواردی متن را به اشتباه نوشته، حتی با وجود اینکه دستورات واضحی به آن داده شده و تلاشهای مکرر برای اصلاح آن صورت گرفته است. در برخی مواقع، متنهایی که تولید شدهاند، به صورت تحریف شده و غیرقابلخواندن به نمایش درآمدهاند.
به علاوه، DALL-E در تولید متنهای قابلفهم برای تابلوهای خیابانی و اشیاء مشابه نیز ناتوان بوده است. این موضوع نشاندهنده چالشهای موجود در زمینه تولید متن توسط هوش مصنوعی در تصاویر است و نیاز به بهبودهای بیشتری در این زمینه احساس میشود.
در زمینه تغییر اندازه تصاویر به درخواستها پاسخ نمی دهد
DALL-E به خوبی توانایی تولید تصاویر را درک میکند، اما در زمینه تغییر اندازه تصاویر به درخواستها پاسخ مناسبی نمیدهد. در موارد متعددی از این نرمافزار خواسته شد که تصاویر را برای استفاده در وبلاگها تغییر اندازه دهد، هر بار تنها تصویر جدیدی تولید میکند.
خوشبختانه، برش و تغییر اندازه تصاویر کار نسبتاً سادهای است و بسیاری از ابزارهای رایگان مانند Canva این امکان را فراهم میکنند. با این حال، این امر میتواند برای کاربران کمی ناخوشایند باشد که برای انجام چنین کارهایی به نرمافزارهای شخص ثالث تکیه کنند. به همین دلیل، وجود یک قابلیت داخلی در DALL-E برای تغییر اندازه تصاویر میتواند تجربه کاربری را بهبود بخشد و کارایی آن را افزایش دهد.
در ایجاد تصاویر فوتورئالیستی ناموفق است
DALL-E در زمینه عمق میدان مشکلات زیادی ندارد، اما به نظر میرسد در تولید تصاویر فوتورئالیستیک ضعیف عمل میکند. برای مثال، وقتی از این هوش مصنوعی خواسته شد، تصویری از یک گلدن رتریور در کوهها بسازد (بدون مشخص کردن نوع تصویر)، نتیجه خوب بود، اما واضح بود که این تصویر به صورت هوش مصنوعی ایجاد شده است.
سپس از DALL-E پیامی داده شد که تصویر را فوتورئالیستیکتر بسازد. با این حال، نتیجه حتی بیشتر غیرواقعی به نظر میرسید و کمی ترسناک است. استفاده از Photorealistic Custom GPT میتواند کمک کند، اما برای دسترسی به آن نیاز به اشتراک پریمیوم است. در غیر این صورت، چندین تولیدکننده هنر هوش مصنوعی وجود دارند که میتوانند تصاویر فوتورئالیستیک تولید کنند. بهترین پیشنهاد Adobe Firefly است.
نرمافزار به درخواست شما برای عدم انجام یک کار توجهی نمیکند
یک روش برای نوشتن بهتر درخواستها در ابزارهای هوش مصنوعی مانند Midjourney و ChatGPT، بیان آنچه نمیخواهید نرمافزار انجام دهد، است. در بسیاری از موارد، این کار منجر به نتایج بهتری میشود. با این حال، DALL-E یک استثنا است. در چندین مورد، به DALL-E گفته شد که برخی عناصر خاص در تصویر نداشته باشد. با این حال، این ابزار هنوز هم آنها را اضافه کرد. گاهی اوقات، بازتولید تصویر مؤثر بوده، اما عدم نیاز به این کار میتوانست مطلوبتر باشد.
این عدم تطابق در برخی مناطق خاص مشاهده میشود
بسیاری از تولیدکنندگان نرمافزارهای هنر هوش مصنوعی با چالشهایی مواجه هستند. به عنوان مثال، در آزمایش ها با نرمافزار Photo AI، عملکرد آن در ایجاد تصاویر دستها به وضوح ناکافی بود. همچنین، DALL-E در برخی جنبهها ناهماهنگیهایی از خود نشان میدهد.
در حالی که این نرمافزار در تولید تصاویر عمومی عملکرد خوبی دارد، اما در خلق تصاویری که افراد اشیاء را در دست دارند، همیشه موفق نیست. نکته جالب این است که DALL-E در تولید تصویر صفحهنمایشهای کامپیوتری نیز اغلب دچار مشکل میشود و معمولاً فقط مجموعهای از اشکال تصادفی را به نمایش میگذارد.
درخواست از نرمافزار برای نمایش صفحهنمایش خاموش گاهی میتواند به بهبود وضعیت کمک کند، اما این راهکار همیشه مؤثر نیست. این نقاط ضعف نمایانگر چالشهای موجود در توسعه هنر هوش مصنوعی هستند و لزوم بهبود در این حوزه را بیش از پیش روشن میسازند.
سبک های تصویر سازگار نیستند
DALL-E توانایی ایجاد انواع مختلفی از تصاویر را دارد که شامل هنرهای دیجیتال مشابه نقاشیهای رنگی و تصاویری با جلوههای سهبعدی میشود. با این حال، این تنوع در سبکهای تصویری ممکن است منجر به عدم سازگاری شود. وقتی از DALL-E درخواست میکنید که تصویری تولید کند، باید دقیقاً مشخص کنید که چه نوع تصویری را میخواهید.
در غیر این صورت، ممکن است نتیجهای به دست آورید که با انتظارات شما همخوانی نداشته باشد. اگر هدف شما تنها آزمایش با این برنامه است، این موضوع چندان مهم نیست. اما اگر میخواهید که یک سبک خاص در تمامی تصاویر رعایت شود، باید دقت بیشتری به خرج دهید. این نکته اهمیت دارد که هنگام استفاده از DALL-E، توجه به جزئیات و وضوح درخواستها میتواند تاثیر زیادی بر کیفیت و هماهنگی نهایی تصاویر داشته باشد.
اندازه مصنوعی تولید می کند
تنظیم تناسب اشیاء در تصاویر با آنچه در واقعیت وجود دارد، برای دقت عکسها بسیار حائز اهمیت است. متأسفانه، DALL-E گاهی اوقات در ایجاد اشیاء به شکل صحیح ناکام میماند. به عنوان مثال، اگر از نرمافزار بخواهید تصویری از فردی که گوشی را در دست دارد تولید کند، ممکن است گوشی به طور غیرطبیعی بزرگ به نظر برسد. در ابتدا به نظر می رسید که درخواست از نرمافزار برای ایجاد تصویر با زاویه دید وسیعتر میتواند این مشکل را حل کند. اما در واقع این کار اوضاع را بدتر کرد و فرد در تصویر به طور غیرواقعی به نظر میرسید.
DALL-E در ایجاد متریال خارجی با چالشهایی مواجه است
در ابتدا به نظر می رسد که DALL-E میتواند ابزاری عالی برای ساخت تقویمهای شخصی، کارتهای تولد، پسزمینههای گوشی و موارد دیگر باشد. اما به سرعت متوجه می شوید که این نرمافزار در این زمینه عملکرد خوبی ندارد. اگر واقعاً میخواهید از DALL-E برای این نوع طراحیها استفاده کنید، پیشنهاد می کنیم به صراحت نگویید که از آن برای کارت تولد استفاده خواهید کرد. به جای آن، مشخص کنید که چه چیزی میخواهید برنامه تولید کند. سپس میتوانید اندازهها را بعداً تنظیم کنید.