لماذا تراهن هذه الشركة الناشئة في مجال الذكاء الاصطناعي على تقنية الروبوتات الصوتية لتوسيع اعتماد التقنية الذكية في الهند

إذا كانت السوق المستهدفة لديها 22 لغة رسمية ويتحدث سكانها بأكثر من 19،000 لهجة، هل من المنطقي تقديم روبوت دردشة بالنص فقط يمكن أن يعمل بشكل أفضل في بعض اللغات؟

هذا هو السؤال الذي كانت تعمل على حله الشركة الناشئة الهندية Sarvam، وفي الثلاثاء، أطلقت سلسلة من العروض، بما في ذلك روبوت الذكاء الاصطناعي بتقنية الصوت الذي يدعم أكثر من 10 لغات هندية، عالية الرهان على أن الناس في البلاد سيفضلون التحدث إلى نموذج الذكاء الاصطناعي بلغتهم الأم بدلاً من الدردشة معه عبر النص. كما أنها تطلق نموذج لغوياً صغيراً، وهو أداة ذكاء اصطناعي للمحامين، بالإضافة إلى نموذج لغة صوتية.

تستهدف الشركة Sarvam، التي تتخذ من بنغالور مقراً لها، بشكل رئيسي الشركات والمؤسسات، وتقدم روبوتاتها الذكية الصوتية لعدد من الصناعات، خاصة تلك التي تعتمد على دعم العملاء. على سبيل المثال، أشارت إلى أحد عملائها: سري مندير، وهي شركة ناشئة تقدم محتوى ديني، استخدمت وكيل AI من Sarvam لقبول المدفوعات، وقامت بمعالجة أكثر من 270،000 معاملة حتى الآن.

وقالت الشركة إن وكلاءها الذكية الصوتية يمكن نشرهم على تطبيق WhatsApp، داخل تطبيق، ويمكنهم أيضاً العمل مع المكالمات الصوتية التقليدية.

تعتزم Sarvam تقديم وكلائها الذكية الصوتية بأسعار تبدأ من ₹1 (حوالي 1 سنت) لكل دقيقة استخدام.

الصورة: Sarvam

تقوم الشركة ببناء وكلائها الذكية الصوتية على نموذج لغوي صغير أساسي، يُسمى Sarvam 2B، الذي يتم تدريبه على مجموعة بيانات تحتوي على 4 تريليون token. تم تدريب النموذج بالكامل على البيانات الاصطناعية، وفقاً لراغافان.

ينصح خبراء الذكاء الاصطناعي غالبًا بالحذر عند استخدام البيانات الاصطناعية - وهي عمومًا بيانات يتم إنشاؤها من قبل نموذج لغوي كبير يهدف إلى تكرار البيانات الواقعية - لتدريب نماذج الذكاء الاصطناعي الأخرى، لأن النماذج اللغوية الكبيرة يميلون إلى التخيل وصناعة معلومات غير دقيقة. يمكن أن يؤدي تدريب نماذج الذكاء الاصطناعي على مثل هذه البيانات إلى تفاقم هذه العدم دقة.

قال راغفان إن Sarvam اختارت استخدام البيانات الاصطناعية بسبب القليل المخيب جدًا من المحتوى باللغات الهندية على الويب المفتوح. وأضاف أن الشركة طورت نماذج لتنظيف وتحسين البيانات المستخدمة أولاً لإنشاء البيانات الاصطناعية.

ادعى المؤسس أن Sarvam 2B سيكلف العاشر من أي شيء مقارنة في الصناعة. الشركة مفتوحة المصدر على النموذج، على أمل أن تقوم المجتمع بالبناء عليه بشكل أكبر.

“على الرغم من أن النماذج اللغوية الأساسية الكبيرة مثيرة للإعجاب جدًا، يمكنك تحقيق تجربة أفضل، أكثر تحديداً، بتكلفة أقل وبتأخير أقل باستخدام نماذج لغوية صغيرة”، وقال راغفان. “إذا كنت ترغب في القيام باستعلام أو اثنين في الأسبوع أو الشهر، يجب عليك استخدام النماذج اللغوية الكبيرة. ولكن بالنسبة لحالات الاستخدام التي تتطلب ملايين التفاعلات اليومية، أعتقد أن النماذج الصغيرة أكثر ملائمة.”

أيضًا تطلق الشركة نموذج لغة صوتية آخر، يُسمى Shuka، المبني على مُشفر الصوت الخاص بها Saaras v1 و Llama3-8B Instruct من Meta. يتم أيضًا فتح المصدر لهذا النموذج، حتى يتمكن المطورون من استخدام ترجمة الشركة، ونظام البيانات إلى نص، وموديولات أخرى لبناء واجهات صوتية.

وهناك منتج آخر يُطلق عليه "A1" - مسقط عمل للذكاء الاصطناعي مصمم للمحامين يمكنه البحث عن اللوائح، وصياغة الوثائق، وتجميلها واستخراج البيانات.

تعتبر Sarvam واحدة من المجموعة الصغيرة من الشركات الناشئة في الهند التي تدافع عن حالات الاستخدام التي تتماشى مع مصالح البلاد وتسهم في جهود الحكومة لتطوير البنية التحتية الخاصة بالذكاء الاصطناعي.

تسعى الحكومات في جميع أنحاء العالم بشكل متزايد للسعي وراء "الذكاء الاصطناعي السيادي" - البنية التحتية الذكية التي تم تطويرها وتسيطر عليها على المستوى الوطني. الهدف المزعوم من مثل هذه الجهود هو حماية خصوصية البيانات، وتحفيز النمو الاقتصادي، وتكييف تطوير الذكاء الاصطناعي مع السياقات الثقافية لهم. تمتلك الولايات المتحدة والصين حاليًا أكبر استثمارات في هذا المجال، وتتبع الهند مع برنامجها "IndiaAI" ونماذج لغوية محددة.

إحدى المبادرات ضمن برنامج IndiaAI تسمى IndiaAI Compute Capacity، والخطة تتمثل في إنشاء كمبيوتر عملاق مدعوم بما لا يقل عن 10،000 GPUs. أحد النماذج التي يتم تطويرها، المُسمى Bhashini، يهدف إلى تمكين الوصول إلى الخدمات الرقمية بمختلف اللغات الهندية.

قال راغفان إن شركته مستعدة للمساهمة في برنامج IndiaAI. "إذا حدثت الفرصة، سنعمل مع الحكومة"، قال في المقابلة.