كان التعرف على الكلام تحديًا كبيرًا للمطورين ، وهو صداع تتم مراقبته عن كثب عبر مجموعة من الصناعات ، هذه التكنولوجيا لها آثار على واجهات الإنسان والآلة في مجالات مثل الروبوتات والمركبات المستقلة والحوسبة الشخصية .
وبالتالي ، فإن التعرف على الكلام هو نقطة دخول تكنولوجية ، واحتياجات السوق التي يمكن أن تساعد في دفع تطوير التقنيات التي سيكون لها صدى واسع وآثار لا حصر لها على الطريقة التي نتفاعل بها مع الآلات .
تحدي نموذج التعلم وهو مسألة عدالة ، ليس من المستغرب أن تعمل ميزة التعرف على الصوت حاليًا بشكل جيد فقط مع جزء صغير من سكان العالم .
نموذج التعلم جزء كبير من التحدي ، لدى يجب تصنيف معظم بيانات التدريب يدويًا ، مما يعني أنه لا يمكن تحقيق الدقة إلا من خلال مجموعة صغيرة جدًا من السماعات (وليس من المستغرب أن هذه المجموعة الصغيرة تتوافق بدقة مع المستهلكين الأكثر قيمة) ، تتخذ Speechmatics نهجًا مختلفًا في محاولتها للتعرف على الكلام بشكل أكثر تمثيلاً .
استنادًا إلى مجموعات البيانات المستخدمة في دراسة " التباينات العرقية في التعرف على الكلام " في جامعة ستانفورد ، سجلت Speechmatics دقة إجمالية بلغت 82.8٪ للأصوات الأمريكية الأفريقية ، مقارنة بـ Google (68.6٪) وأمازون (68.6٪). يعادل هذا المستوى من الدقة انخفاضًا بنسبة 45٪ في أخطاء التعرف على الكلام ، أو ما يعادل ثلاث كلمات في جملة متوسطة.
يتعرض محركها لمئات الآلاف من الأصوات الفردية باستخدام بيانات صوتية غير مميزة وأكثر تمثيلاً ولا تتطلب تدخل بشري ، ساعد هذا في توسيع نطاق التغطية إلى ما وراء المتحدثين باللغة الإنجليزية .
وقالت الرئيسة التنفيذية كاتي ويجدال : " أثار التقدم على مدى السنوات القليلة الماضية اهتمام المستثمرين بجمع التبرعات من الفئة B .
إن فريق Speechmatics طموح للغاية ، لدينا تراث حقيقي في تكنولوجيا الصوت ، جنبًا إلى جنب مع بعض خبراء الكلام والتعلم الآلي الأكثر موهبة في العالم. »
كما تمت الإشارة إلى 34 لغة ، ويشتمل المحرك حاليًا على 34 لغة ، وهي قطرة صغيرة في دلو لغوي كبير جدًا (هناك أكثر من 7000 لغة يتم التحدث بها في العالم) ، لكن المنصة قطعت خطوات مثيرة للإعجاب في علامات الترقيم والأرقام والعملات والعناوين ، والتي تفتقر إليها محركات التعرف على الكلام تقليديًا .
وأثار كل هذا اهتمامًا كبيرًا للشركة التي تتخذ من المملكة المتحدة مقراً لها ، تستخدم المنصة شركات مثل 3Play Media و Veritone و Deloitte UK و Vonage ، وكذلك الإدارات الحكومية حول العالم .
تمشيا مع أهدافها العالمية ، يقع المقر الرئيسي لشركة Speechmatics في المملكة المتحدة ، ولكن لها مكاتب في بوسطن (الولايات المتحدة الأمريكية) وتشيناي (الهند) وبرنو (جمهورية التشيك) ، ستستخدم الشركة هذا الاستثمار لدعم توسعها العالمي في الولايات المتحدة وآسيا والمحيط الهادئ .
من التعرف على الوجه إلى لغة بعضكما البعض ، إلى جوانبها الجسدية ، إلى جسدها ، إلى الطريقة التي تمشي بها ، وكيف تتصرف ، شيء يدعو للقلق كثيرًا ولكن يدعو لتطوير المشاريع المبتكرة في جميع المجالات ، ومراجعة وتطوير أساليب جديدة للتفاعل مع ما اعتدنا أن نسميه الآلة ، ةلكنه اليوم هو هيكل يتمتع بذكاء نظيف ، اصطناعي معزز ، قادرة على تنفيذ المهام في استقلالية تامة .
ووراء كل هذا ، هناك حاجة إلى مراكز بيانات ، وأماكن إقامة لمليارات المليارات من البيانات ، من الضخامة التي لم تتخيلها أبدًا ، لمعالجتها بواسطة هياكل معقدة موهوبة أيضًا بهذا الذكاء المعزز الذي طوره الإنسان. لخدمتهم .
المصدر : L'odj.ma
وبالتالي ، فإن التعرف على الكلام هو نقطة دخول تكنولوجية ، واحتياجات السوق التي يمكن أن تساعد في دفع تطوير التقنيات التي سيكون لها صدى واسع وآثار لا حصر لها على الطريقة التي نتفاعل بها مع الآلات .
تحدي نموذج التعلم وهو مسألة عدالة ، ليس من المستغرب أن تعمل ميزة التعرف على الصوت حاليًا بشكل جيد فقط مع جزء صغير من سكان العالم .
نموذج التعلم جزء كبير من التحدي ، لدى يجب تصنيف معظم بيانات التدريب يدويًا ، مما يعني أنه لا يمكن تحقيق الدقة إلا من خلال مجموعة صغيرة جدًا من السماعات (وليس من المستغرب أن هذه المجموعة الصغيرة تتوافق بدقة مع المستهلكين الأكثر قيمة) ، تتخذ Speechmatics نهجًا مختلفًا في محاولتها للتعرف على الكلام بشكل أكثر تمثيلاً .
استنادًا إلى مجموعات البيانات المستخدمة في دراسة " التباينات العرقية في التعرف على الكلام " في جامعة ستانفورد ، سجلت Speechmatics دقة إجمالية بلغت 82.8٪ للأصوات الأمريكية الأفريقية ، مقارنة بـ Google (68.6٪) وأمازون (68.6٪). يعادل هذا المستوى من الدقة انخفاضًا بنسبة 45٪ في أخطاء التعرف على الكلام ، أو ما يعادل ثلاث كلمات في جملة متوسطة.
يتعرض محركها لمئات الآلاف من الأصوات الفردية باستخدام بيانات صوتية غير مميزة وأكثر تمثيلاً ولا تتطلب تدخل بشري ، ساعد هذا في توسيع نطاق التغطية إلى ما وراء المتحدثين باللغة الإنجليزية .
وقالت الرئيسة التنفيذية كاتي ويجدال : " أثار التقدم على مدى السنوات القليلة الماضية اهتمام المستثمرين بجمع التبرعات من الفئة B .
إن فريق Speechmatics طموح للغاية ، لدينا تراث حقيقي في تكنولوجيا الصوت ، جنبًا إلى جنب مع بعض خبراء الكلام والتعلم الآلي الأكثر موهبة في العالم. »
كما تمت الإشارة إلى 34 لغة ، ويشتمل المحرك حاليًا على 34 لغة ، وهي قطرة صغيرة في دلو لغوي كبير جدًا (هناك أكثر من 7000 لغة يتم التحدث بها في العالم) ، لكن المنصة قطعت خطوات مثيرة للإعجاب في علامات الترقيم والأرقام والعملات والعناوين ، والتي تفتقر إليها محركات التعرف على الكلام تقليديًا .
وأثار كل هذا اهتمامًا كبيرًا للشركة التي تتخذ من المملكة المتحدة مقراً لها ، تستخدم المنصة شركات مثل 3Play Media و Veritone و Deloitte UK و Vonage ، وكذلك الإدارات الحكومية حول العالم .
تمشيا مع أهدافها العالمية ، يقع المقر الرئيسي لشركة Speechmatics في المملكة المتحدة ، ولكن لها مكاتب في بوسطن (الولايات المتحدة الأمريكية) وتشيناي (الهند) وبرنو (جمهورية التشيك) ، ستستخدم الشركة هذا الاستثمار لدعم توسعها العالمي في الولايات المتحدة وآسيا والمحيط الهادئ .
من التعرف على الوجه إلى لغة بعضكما البعض ، إلى جوانبها الجسدية ، إلى جسدها ، إلى الطريقة التي تمشي بها ، وكيف تتصرف ، شيء يدعو للقلق كثيرًا ولكن يدعو لتطوير المشاريع المبتكرة في جميع المجالات ، ومراجعة وتطوير أساليب جديدة للتفاعل مع ما اعتدنا أن نسميه الآلة ، ةلكنه اليوم هو هيكل يتمتع بذكاء نظيف ، اصطناعي معزز ، قادرة على تنفيذ المهام في استقلالية تامة .
ووراء كل هذا ، هناك حاجة إلى مراكز بيانات ، وأماكن إقامة لمليارات المليارات من البيانات ، من الضخامة التي لم تتخيلها أبدًا ، لمعالجتها بواسطة هياكل معقدة موهوبة أيضًا بهذا الذكاء المعزز الذي طوره الإنسان. لخدمتهم .
المصدر : L'odj.ma