أثبت العلماء الكوريون للتو أن الذكاء الاصطناعي يمكن أن يحل محل الميكروفونات في البيئات الصاخبة

ليس سراً أن تكنولوجيا الذكاء الاصطناعي حققت قفزات كبيرة في السنوات الأخيرة، وفي عام 2026، عززت أنظمة الذكاء الاصطناعي نفسها في الحياة اليومية للكثير منا، على الأقل. ولكن قد يأتي يوم في الأفق لن تغير فيه تقنية الذكاء الاصطناعي الطريقة التي نستخدم بها الميكروفونات التقليدية فحسب، بل استبدلتها بالكامل.

هناك قطعة من التكنولوجيا يتم إنشاؤها في كوريا (وهي ثورية في حد ذاتها) والتي فتحت الباب أمام التكهنات حول كيف يمكن للذكاء الاصطناعي أن يعزز الميكروفونات التقليدية في حياتنا اليومية، ومن ثم يحل محلها.

تختبر Threads تكامل Meta AI الذي يعمل بشكل مشابه لـ Grok: تختبر Threads تكامل Meta AI الذي يعمل بشكل مشابه لـ Grok

حصلت خدمة Google Translate ذات الصلة على مدرب يعمل بالذكاء الاصطناعي لممارسة النطق على Android

هدية عيد ميلاد خدمة الترجمة من Google العشرين.

الميكروفونات تتحسن بشكل مطرد لقد قطعنا شوطا طويلا منذ هاتف الشمعدان

يحاول Digg مرة أخرى، ولكن هذه المرة كمجمع أخبار يعمل بالذكاء الاصطناعي: يحاول Digg مرة أخرى، ولكن هذه المرة كمجمع أخبار يعمل بالذكاء الاصطناعي

بتجاهل العيوب الرئيسية للميكروفون المدمج في الكمبيوتر المحمول العادي الخاص بك، والذي لا يتمتع بجودة عالية أبدًا، أصبحت الميكروفونات الآن أفضل بكثير مما كانت عليه من قبل. يمكن لمعظم الهواتف الذكية عزل الصوت، وهو ما يفعل بالضبط ما يبدو عليه الأمر: فهو يقلل من ضوضاء الخلفية ويعزل صوت السماعة للحصول على صوت أكثر وضوحًا. إذا كنت مسافرًا بشكل متكرر أو تستقبل مكالمات أثناء تنقلاتك، فهذه الميزة تأتي في متناول يديك.

لكن عزل الصوت ليس بالأمر الجديد. بدأت Apple في طرح ميزة عزل الصوت منذ تحديث iOS 15 (2021)، وبدأت Samsung في تقديم إعداد “Voice Focus” في نفس العام.

حيث تقصر الميكروفونات الحديثة عن صراعات الميكروفون التي نواجهها بانتظام

استضافت Hugging Face برامج ضارة تتنكر في شكل إصدار OpenAI: استضافت Hugging Face برامج ضارة تتنكر في شكل إصدار OpenAI

الميكروفونات بعيدة كل البعد عن كونها مضمونة، ولا تزال تكنولوجيا الصوت تواجه صعوبات عند مواجهة ضوضاء واهتزازات عالية في الخلفية. ناهيك عن أن الميكروفونات عالية الجودة لإنتاج ملفات podcast أو الموسيقى أو مقاطع الفيديو الصوتية تأتي بسعر باهظ، مثل “ميكروفون البودكاست” الأسطوري، Shure SM7B.

قد يكون هذا ضارًا في مواقف الضغط العالي، مثل المواقع الصناعية ومكالمات خدمات الطوارئ وفي البيئات الصاخبة حيث يعتمد الأشخاص على اتصالات واضحة يمكن أن تتأثر بجودة الميكروفون الحديث. ولكن هل نقترب من اليوم الذي يستطيع فيه الذكاء الاصطناعي تغيير طريقة تواصلنا تمامًا؟

هذا هو المكان الذي يدخل فيه الذكاء الاصطناعي إلى الصورة. هل يمكن للذكاء الاصطناعي تحسين ميكروفوناتنا اليومية؟

الائتمان: تايلر هايز

أحد جوانب الذكاء الاصطناعي التي حققت نجاحًا واضحًا هو التعرف على الأنماط المتقدمة. اجمع هذا مع تقنية “الوجه العميق”، ويمكن استخدام الذكاء الاصطناعي لإنشاء خطاب واقعي من خلال بعض حركات العضلات فقط. قام علماء كوريون جنوبيون من جامعة بوهانغ للعلوم والتكنولوجيا (POSTECH) بتحسين تقنية الذكاء الاصطناعي لإنشاء شريط للرقبة يترجم حركات الرقبة الصغيرة إلى كلام، مما يفتح الباب أمام أشكال جديدة من التواصل.

على الرغم من أن هذه التقنية تهدف حاليًا إلى استعادة الكلام لأولئك غير القادرين على ذلك، مثل أولئك الذين يعانون من اضطرابات النطق والمرضى الذين يعانون من استئصال الحنجرة، فإن الجهاز الذي قاموا بإنشائه لديه القدرة على استبدال الميكروفونات التقليدية يومًا ما.

هل يعمل حقا، على أية حال؟ في المصطلحات غير المتخصصة

وبصراحة، قام فريق POSTECH بصناعة رباط عنق من السيليكون مزود بكاميرا مصغرة وأجهزة استشعار للحركة. وهي تراقب كيفية تحرك عضلات الجلد والرقبة عند نطق كلمة ما، مما يخلق خارطة طريق واقعية لكيفية تكوين الفم والحلق للكلمات.

يتم بعد ذلك إدخال هذه الحركات الصغيرة في نموذج الذكاء الاصطناعي، المصمم لتحديد الكلمة المقصودة دون الحاجة إلى النطق.

بمجرد أن يتعرف الذكاء الاصطناعي على الكلمة، يتم تحويلها إلى صوت. يأتي حزام العنق مزودًا بنموذج الذكاء الاصطناعي الذي يمكن تدريبه على صوت مرتديه الدقيق.

الائتمان: بوستيتش

وفقًا لما أوردته News Atlas، يقول الباحثون إن تدريب النموذج الصوتي يتطلب أقل من 10 دقائق من التسجيلات، مما يسمح لعصابة العنق بالتحدث بالشخصية الصوتية للمستخدم ونغمات الصوت، على غرار كيفية صنع Deep Fakes.

على الرغم من أن شريط العنق المزود بتقنية الذكاء الاصطناعي يعمل، إلا أنه لا يزال في مراحله الأولى وما زال يواجه مشكلات في مرحلة التسنين يجب حلها قبل أن يمكن استخدامه بانتظام. تتضمن الاختبارات التي تم إجراؤها حتى الآن استخدام مفردات ثابتة مكونة من 26 كلمة (أبجدية الناتو “ألفا” و”برافو” و”تشارلي” وما إلى ذلك). ومن خلال الكلمات الـ 26 المستخدمة، حققت الدقة بنسبة 85.8%؛ ومع ذلك، انخفضت هذه الدقة بنسبة 39.72% عندما يمشي المستخدم أو يحرك رأسه.

هذا هو المكان الذي يمكن فيه استبدال الميكروفونات التقليدية بخطوات الذكاء الاصطناعي التالية للاستيلاء على التكنولوجيا

على الرغم من أنه كان في مرحلة الأحداث فقط، إلا أن حزام العنق هذا كان مبهرًا في منطقة واحدة – عند مواجهة الضوضاء في الخلفية. في الاختبارات التي أجريت على ضوضاء بيضاء تبلغ حوالي 90 ديسيبل (تقريبًا مستوى الضوضاء في موقع بناء مزدحم)، أنتج النظام نسبة إشارة إلى ضوضاء ثابتة تبلغ 33.75 ديسيبل في جميع الأنحاء، وهو ما يتفوق على أنظمة EMG التجارية في ظل نفس الظروف، وفقًا للفريق.

هذا هو المكان الذي يمكننا فيه رؤية فوائد ربطة العنق هذه، والابتعاد عن الاستخدام الطبي والحياة اليومية. يشير المؤلفون الذين نشروا بحثًا في Cyborg و Bionic Systems إلى أن شريط العنق مثل هذا يمكن أن يحل محل الميكروفونات التقليدية في إعدادات معينة حيث تكون التكنولوجيا الحالية قاصرة. على سبيل المثال، في المنشآت الصناعية والاستجابة لحالات الطوارئ والطيران والعمليات البحرية والسيناريوهات العسكرية، يمكن أن يتأثر أداء الميكروفونات بالضوضاء والاهتزازات في الخلفية.

يصف البروفيسور سونغ مين بارك، الذي قاد البحث في POSTECH، أمله في أن هذه القطعة من التكنولوجيا سوف “تسرع اليوم الذي يستطيع فيه المرضى الذين يعانون من اضطرابات النطق استعادة أصواتهم”، ولكنه يستمر أيضًا في التعبير عن إمكانات شريط العنق، قائلاً: “إنها تقنية جديرة بالملاحظة لأنها تحتوي على مجموعة واسعة من التطبيقات المحتملة، بما في ذلك مساعدة المرضى الذين تم استئصال الحنجرة، والتواصل في البيئات الصناعية الصاخبة، وحتى دعم المحادثات الصامتة.”

كم من الوقت قبل أن نودع الميكروفونات التقليدية؟

من الممتع التكهن بأن مثل هذه القطعة التقنية الرائعة (وربما البائسة) قادرة على دعم الاتصالات غير اللفظية، كما ذكر البروفيسور بارك. ومع ذلك، نحن بعيدون عن أن نكون قادرين على شراء واحدة من هذه الأربطة التي تعمل بتقنية الذكاء الاصطناعي في متجر في أي وقت قريب. تقوم الفرق في خطوات POSTECH التالية باختبار النموذج على عدد أكبر من المستخدمين، وتوسيع المفردات لتقليد التواصل الواقعي في النهاية، وتحسين فهم المزيد من حركات الجسم.

لذلك، في حين أن التواصل الأكثر وضوحًا في البيئات الصاخبة سيكون له فائدة كبيرة، ومن الواضح أنه يتم استخدام الذكاء الاصطناعي لتحويل التكنولوجيا المتاحة بطرق هائلة، فقد نكون بعيدين جدًا عن استبدال الميكروفونات التقليدية بطوق عنق يعمل بالذكاء الاصطناعي مثل هذا.

المصدر