اخبار فناوری

شناسایی میلیون‌ ها واژه فارسی در جست‌وجوگر ملی

مدیر پروژه ملی موتور جست‌وجوگر پارسی جو از شناسایی 100 میلیون واژه منحصر به فرد فارسی توسط این جست‌وجوگر بومی خبر داد.

علی محمد زارع بیدکی اظهار کرد:

برنامه نویسان و محققان نخبه کشورمان در بخش تحقیق و توسعه پردازش زبان موفق شدند، ظرفیت و توانایی این جست‌وجوگر بومی را برای پردازش زبانی به صد میلیون کلمه یکتا (اعم از درست یا نادرست) در صفحات فارسی ارتقا دهند که البته این فرایند همچنان در حال توسعه است.

وی با اشاره به اینکه کمتر از 10 درصد این کلمات دارای ارزش اطلاعاتی و پردازشی هستند گفت: از مجموع 100 میلیون واژه شناسایی شده حدود 10 میلیون کلمه از لحاظ املائی و مفهومی صحیح است که البته پردازشگر زبان پارسی جو می تواند حتی عبارت های نادرست را شناسایی و آن را به شکل صحیح جست‌وجو کند.

زارع بیدکی به یکی دیگر از قابلیت های ویژه این موتور جست‌وجوگر ایرانی پرداخت و ادامه داد: بخش پردازش زبان پارسی جو توانایی استخراج 12 هزار جفت کلمه مترادف از محتوای وب را دارد که قابلیت مذکور این امکان را به کاربر خواهد داد تا کلمات، واژه ها و حتی عبارات هم معنی فارسی را به طور یکجا جست‌وجو کند.

مدیر پروژه موتور جست‌وجوگر پارسی جو تشخیص افعال صرفی در این حوزه را یکی دیگر از ویژگی های بی بدیل این جست‌وجوگر ایرانی برشمرد و اضافه کرد: پارسی جو قادر است بیش از 9000 شکل صرفی از افعال را تشخیص و آنها را به یکدیگر تبدیل کند؛ امکانی که باعث می شود کاربران فارسی زبان، نه تنها یک عبارت و جمله بلکه اشکال مختلف صرفی (انشایی) یک جمله را به طور همزمان جست‌وجو کنند.

وی خاطر نشان کرد:

ماشینی کردن فرایند درک و برداشت مفاهیم از یک زبان طبیعی بزرگترین چالش در جست‌وجوگرهای بومی محسوب می شود که البته دانشمندان و نخبگان کشورمان در حوزه فناوری اطلاعات موفق شدند این مانع بزرگ را در موتور جست‌وجوگر پارسی جو به قابلیتی خاص مبدل سازد، به طوری که هم اکنون زبان فارسی در این موتور جست‌وجوگر به طور کامل ماشینی شده و می تواند مفاهیم عبارات کاربر را درک و پس از پردازش آن را جست‌وجو کند.

زارع بیدکی بزرگترین دلیل موفقیت موتورهای بومی را موضوع زبان دانست و افزود:

با نگاهی دقیق به موتورهای جست‌وجو در دنیا به این نکته پی می بریم که مرز ایجاد موتورهای جست‌وجو و استفاده کاربران از آنها جغرافیایی نبوده است بلکه زبان یک عامل تعیین کننده در استفاده از این ابزار نوین است؛ به گونه ای که موتور جست‌وجوی “یاندکس” روسیه علت موفقیت خود را فهم و پردازش بهتر زبان روسی می داند، به طوری که کاربران روسی زبان کشورهای اوکراین، قزاقستان، آذربایجان و بلاروس را نیز جذب کرده و از این طریق درآمدزایی هنگفتی می کند.

وی در ادامه ابراز کرد: با قدرت گرفتن موتورهای بومی در ایران، این فرصت وجود دارد تا این جست‌وجوگرها در کشورهای فارسی زبان نیز مورد استفاده قرار گیرد و بدینوسیله از منافع اقتصادی بازار بزرگ و بکر موتور جست‌وجو در این کشورها بهره مند شد.

مدیر پروژه موتور جست‌وجوگر پارسی جو در پایان تاکید کرد: به طور کلی قابلیت ویژه موتورهای بومی شناخت صحیح زبان مادری یک کشور و بهره مندی از ابزارهای پردازش زبان بومی و دسترسی به زبان شناسان آن کشور است که البته همین امر باعث خواهد شد تا موتورهای جست‌وجوگر داخلی بتوانند به نیازهای ایرانیان خارج از کشور مانند دریافت اطلاعات و اخبار روزانه و یا خدمات رسانی در مراودات متنوع پاسخ دهند.

[su_button url=”#” style=”flat” size=”1″ icon=”icon: chain”]ایسنا[/su_button]

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا