हिंदी बोलने वालों को एआई का यूज पड़ रहा ज्यादा महंगा, सामने आई चौंकाने वाली जानकारी


Show Quick Read

Key points generated by AI, verified by newsroom

  • एआई से हिंदी में बात करना अंग्रेजी से महंगा है।
  • हिंदी प्रॉम्प्ट में इंग्लिश से ज्यादा टोकन लगते हैं।
  • इससे हिंदी यूजर को अधिक खर्च करना पड़ता है।
  • एआई मॉडल अंग्रेजी डेटा पर अधिक प्रशिक्षित हैं।

AI Cost: अगर आप एआई से हिंदी में बात करते हैं तो यह आपको इंग्लिश के मुकाबले महंगा पड़ रहा है. भले ही ओपनएआई, एंथ्रोपिक और गूगल जैसी कंपनियां अपने एआई मॉडल्स की समान एक्सेस की बात करती हैं, लेकिन हिंदी और अरबी समेत इंग्लिश को छोड़कर बाकी भाषाओं में एआई को यूज करना महंगा है. एक डेटा में यह बात निकलकर सामने आई है कि इंग्लिश को छोड़कर बाकी किसी भी भाषा में एआई यूज करना महंगा सौदा है.

क्या है इसका कारण?

इसका कारण एआई मॉडल की प्रोसेसिंग में छिपा हुआ है. आसान भाषा में समझें तो हिंदी भाषा के प्रॉम्प्ट के लिए आपको इंग्लिश से ज्यादा टोकन खर्च करने पड़ेंगे. टोकन का मतलब उस यूनिट से है, जो एआई सिस्टम किसी टेक्स्ट को पढ़ने या समझने के लिए यूज करते हैं. यानी इंग्लिश में कोई बात कहने के लिए आपके कम टोकन लगेंगे, जबकि हिंदी में वही बात कहने के लिए ज्यादा टोकन यूज होंगे. रिसर्चर और डेवलपर्स इस तरीके को ‘लैंग्वेज टैक्स’ कह रहे हैं. इसे अलग-अलग भाषाओं को प्रोसेस करने की हिडन कॉस्ट के तौर पर भी देखा जा रहा है.

हिंदी और इंग्लिश यूज की लागत में कितना अंतर?

कई हफ्ते पहले ओपनएआई के रिसर्चर Aran Komatsuzaki ने एक एक्सपेरिमेंट में यह कंपेयर किया था कि ओपनएआई और एंथ्रोपिक का टोकनाइज अलग-अलग भाषाओं को टेक्स्ट को कैसे हैंडल करता है. रिजल्ट में सामने आया है कि ओपनएआई पर हिंदी टेक्स्ट को इंग्लिश के मुकाबले 1.37 गुना अधिक टोकन की जरूरत पड़ी. एंथ्रोपिक क्लॉड पर इंग्लिश के मुकाबले हिंदी टेक्स्ट को 3.24 गुना अधिक टोकन यूज करने पड़े. इसी तरह अरबी को 2.86 गुना और चाइनीज को 1.71 गुना अधिक टोकन की जरूरत पड़ी. इसका मतलब है कि इंग्लिश भाषी यूजर जितनी जानकारी के लिए एक टोकन का बजट खर्च कर रहा है, उतनी ही जानकारी के लिए हिंदी यूजर को 1.5 से 3.3 गुना तक टोकन का बजट लगाना पड़ रहा है. बाकी भाषाओं के साथ भी ऐसा ही हो रहा है.

…लेकिन ऐसा हो क्यों रहा है?

जब एआई मॉडल किसी प्रॉम्प्ट को समझता है, उससे पहले यह उस टेक्स्ट को टोकन नाम की छोटी यूनिट में कन्वर्ट कर लेता है. यह प्रोसेस टोकनाइजर नाम का कंपोनेंट पूरी करता है. अब चूंकि ज्यादातर मॉडल इंग्लिश डेटा पर ट्रेन किए गए हैं, इसलिए ये इंग्लिश को आसानी से समझ लेते हैं. हिंदी और अरबी समेत दूसरी भाषाओं को इन्हें अलग-अलग स्क्रिप्ट और स्ट्रक्चर में तोड़ने की जरूरत पड़ती है, जिसमें ज्यादा टोकन लगते हैं. जानकारों का कहना है कि इससे बचने के लिए कंपनियों को अलग-अलग भाषाओं में मॉडल को ट्रेनिंग देनी चाहिए.

ये भी पढ़ें-

कई लैपटॉप में टचपैड सेंटर की जगह लेफ्ट में क्यों होता है? बहुत कम लोगों को पता है इसका जवाब



Source link