گروه های خبری
آرشیو
ف
کد خبر: 263770

هوش مصنوعی در خدمت فرمان‌های صوتی؛

جست‌وجویی فراتر از نوشتار

با گسترش استفاده از کامپیوتر و سیستم‌های دیجیتال، نوشتن روی کاغذ به مرور رنگ باخته و جای خود را به تایپ کردن داده است. اما گاهی افراد به‌دنبال سیستم‌هایی هستند که جای تایپ کردن را بگیرد. به‌عنوان مثال، برخی به‌دلیل ابتلا به برخی بیماری‌ها مانند پارکینسون یا ام‌اس قادر به تایپ کردن نیستند یا عده‌ای به هر دلیلی نمی‌توانند به‌راحتی تایپ کنند و از این رو به سیستم‌هایی نیاز دارند که بتواند گفتار آنها را به نوشتار تبدیل کند.

به گزارش خبرنگار فناوری اطلاعات «خبرنامه دانشجویان ایران»؛ در سال‌های اخیر به‌لطف استفاده از هوش مصنوعی بسیاری از کامپیوترها توانسته‌اند انسان را در برخی عرصه‌ها مانند شطرنج و بعضی بازی‌های کامپیوتری شکست دهند. در‌ واقع بین جنگی که بین انسان و کامپیوتر درگرفته، هوش مصنوعی قدرت خود را به رخ کشیده است. با تلاش‌هایی که صورت گرفته، تایپ کردن هوشمند کامپیوتر هم به توانمندی‌های آن اضافه شده به‌طوری که علاوه‌بر تشخیص صوت، می‌تواند صوت و کلام انسان را به نوشتار تبدیل کند. نرم‌افزار تشخیص صدا با پیشرفت‌هایی که داشته به نقطه‌ای رسیده که در سرعت و دقت تایپ کردن گوی سبقت را از انسان ربوده است.

البته در این میان، دانشمندانی هم هستند که این اتفاق را شکست انسان نمی‌دانند زیرا بر این باورند که بشر هرگز به‌گونه‌ای طراحی نشده که بخواهد با استفاده از انگشتانش و ضربه زدن روی کیبورد گوشی هوشمند خود ارتباط برقرار کند. تکلم و حرف زدن همیشه راه بهتر و طبیعی‌تر برای برقراری ارتباط انسان با دیگران بوده است؛ از این رو، انسان همیشه حرف زدن را به نوشتن ترجیح داده است.

گروهی از محققان روی توانایی نرم‌افزار تشخیص صدا در تایپ کلمات بیان شده تمرکز کردند. آنها دریافتند که احتمال خطا در این نرم‌افزار ۴/۲۰ درصد کمتر از تایپ کردن انسان با کیبورد است. این می‌تواند ‌انگیزه‌ای برای انسان باشد تا حرف زدن را جایگزین تایپ کردن با گوشی‌های هوشمند کند.

انسان‌ها قادرند به‌طور متوسط 150 کلمه در دقیقه صحبت کنند اما هنگام تایپ کردن، این سرعت به 40 کلمه در دقیقه کاهش می‌یابد. لهجه‌های مختلف، لکنت زبان و نیز سر و صداهایی که در پس‌زمینه ایجاد می‌شود ممکن است تشخیص صدا را در این سیستم‌ها با مشکل مواجه کند. در این فناوری فقط تشخیص صدا ملاک نیست بلکه این سیستم باید بتواند تلفظ‌های یکسان با معانی مختلف را نیز شناسایی کند و حتی قادر به یادگیری کلمات و نام‌های جدید باشد. برخی از بهترین سیستم‌های تشخیص صدا و فرمان صوتی به شرح ذیل‌اند:

Baidu
«بایدو» (Baidu) بزرگ‌ترین موتور جست‌وجوگر چینی که به «گوگل چینی» معروف است و در تشخیص صدا نسبت به انسان بهتر و با 96 درصد دقت عمل می‌کند. در این سیستم از نرم‌افزار Deep Speech 2 استفاده می‌شود که با شنیدن هزاران ساعت صوت ضبط‌ شده همزمان با خواندن از روی متن، کلمات را درک می‌کند. این سیستم قادر به درک زبان‌های انگلیسی و ماندارین (از دسته زبان‌های چینی) است و بعد از ایجاد محدودیت در استفاده از گوگل در چین، این موتور جست‌وجوگر بسیار پرطرفدار شد.

Google Now
موتور جست‌وجوگر صوتی گوگل با دقت 92 درصدی می‌تواند از طریق اپلیکیشن گوگل و دیکته صوتی با گوشی‌های اندروید، کار جست‌وجوی صوتی را انجام دهد. تا سال 2019 بیش از 50 درصد جست‌وجوهای صوتی و تصویری از طریق Google Now انجام می‌گیرند. گوگل در این اواخر اقداماتی را در راستای بهبود دقت تشخیص این سیستم صوتی انجام داده تا در مکان‌های پرسر و صدا بتواند با دقت بالاتری صداها را شناسایی کند.

Hound
اپلیکیشن Hound یک دستیار دیجیتال صوتی است که فرمان‌های صوتی را با دقت 95 درصد تشخیص کلمات انجام می‌دهد. ساخت این سیستم 9 سال به‌طول انجامید و قابلیت تشخیص موسیقی را دارد. این سیستم تولید شرکت SoundHound است که مدیرعامل آن مهندسی ایرانی به نام کیوان مهاجر است. این سیستم رقیب جدی فناوری‌های تشخیص صدا در دنیاست و مهاجر ادعا می‌کند که قبل از شروع به کار اپل روی سیستم‌های تشخیص صدا، روی این فناوری کار می‌کردند.

Microsoft Cortana
«کورتانا» دستیار صوتی مایکروسافت است که برای ویندوز 10، نوشتن پیام، جست‌وجو و یافتن تاریخ و اتفاقات به‌صورت فرمان‌های صوتی طراحی شده است. برای این دستیار صوتی هوشمند که فرمان‌های صوتی را با دقت 90 درصد به نوشتار تبدیل می‌کند، بسته به پلتفرم نرم‌افزاری به‌کار رفته در آن، زبان‌های انگلیسی، پرتغالی، فرانسوی، آلمانی، ایتالیایی، چینی و ژاپنی تعبیه شده است. در سال 2015، این سیستم روی ویندوز 10 و پس از آن روی پلتفرم‌های گوشی‌های هوشمند مورد استفاده قرار گرفت.

Siri
سیستم صوتی Siri (سیری) اپل یکی از معروف‌ترین و پرکاربردترین سیستم‌های فرمان صوتی و جست‌وجوگر صوتی در آمریکاست که با دقت 95 درصدی عمل می‌کند. سیری تقریبا یک سر و گردن از تمام رقبای خود بالاتر است. در ابتدا به‌دلیل پاسخ‌های غیردقیقی که به کاربران می‌داد، کمپانی سازنده گروهی از متخصصان تشخیص صوت را در حوزه یادگیری عمیق آموزش دادند تا روی این سیستم کار کنند و به‌دنبال آن، دقت و هوش این دستیار صوتی اپل بهبود قابل ملاحظه‌ای یافت.

Amazon Alexa
سیستم Amazon Alexa یک دستیار صوتی هوشمند است که توسط کمپانی آمازون طراحی شد و اولین‌بار در محصولات آمازون مورد آزمایش قرار گرفت. این سیستم دارای قابلیت‌هایی چون برقراری تعاملات صوتی، بازپخش موسیقی، فهرست‌بندی کارها، تنظیم هشدارهای صوتی، پخش کتاب‌های صوتی و اعلام آب و هوا، وضع ترافیک و سایر اطلاعات مورد نیاز کاربران است. Alexa به مرور با صدای کاربر سازگار می‌شود و دیگر مشکلی با لهجه خاص کاربر پیدا نمی‌کند. در حالی که برخی سیستم‌های صوتی به میکروفن نیاز دارند تا سیستم بتواند صدای کاربر را به‌خوبی شناسایی کند، Alexa از اتاق کناری هم قادر است صدا را تشخیص دهد.

مرتبط ها
نظرات
chapta
حداکثر تعداد کاراکتر نظر 200 ميياشد .
نظراتی که حاوی توهین یا افترا به اشخاص، قومیت‌ها، عقاید دیگران باشد و یا با قوانین جمهوری اسلامی ایران و آموزه‌های دینی مغایرت داشته باشد منتشر نخواهد شد - لطفاً نظرات خود را با حروف فارسی تایپ کنید.