پیچیدہ ماحول میں، انسان تقریر کے معنی کو AI سے بہتر سمجھ سکتا ہے، کیونکہ ہم نہ صرف اپنے کان بلکہ اپنی آنکھیں بھی استعمال کرتے ہیں۔
مثال کے طور پر، ہم کسی کے منہ کو ہلتے ہوئے دیکھتے ہیں اور شاید یہ جان لیں کہ جو آواز ہم سنتے ہیں وہ اس شخص کی طرف سے آرہی ہے۔
Meta AI ایک نئے AI ڈائیلاگ سسٹم پر کام کر رہا ہے، جو کہ AI کو یہ سکھانا ہے کہ وہ بات چیت میں جو کچھ دیکھتا اور سنتا ہے اس کے درمیان لطیف ارتباط کو پہچاننا بھی سیکھے۔
VisualVoice اسی طرح سیکھتا ہے کہ کس طرح انسان نئی مہارتوں میں مہارت حاصل کرنا سیکھتے ہیں، بغیر لیبل والے ویڈیوز سے بصری اور سمعی اشارے سیکھ کر سمعی و بصری تقریر کی علیحدگی کو فعال کرتے ہیں۔
مشینوں کے لیے، یہ بہتر ادراک پیدا کرتا ہے، جبکہ انسانی ادراک بہتر ہوتا ہے۔
تصور کریں کہ دنیا بھر کے ساتھیوں کے ساتھ میٹاورس میں گروپ میٹنگز میں شرکت کرنے کے قابل ہونا، ورچوئل اسپیس سے گزرتے ہوئے چھوٹے گروپ میٹنگز میں شامل ہونا، جس کے دوران منظر میں آواز کی ریوربس اور ٹمبرز ماحول کے مطابق کرتے ہیں اس کے مطابق ایڈجسٹ کریں۔
یعنی یہ ایک ہی وقت میں آڈیو، ویڈیو اور ٹیکسٹ کی معلومات حاصل کر سکتا ہے، اور اس میں ماحولیاتی تفہیم کا ایک بھرپور ماڈل ہے، جس سے صارفین کو "بہت واہ" آواز کا تجربہ حاصل ہو سکتا ہے۔
پوسٹ ٹائم: جولائی 20-2022