AI का इस्तेमाल करना पड़ सकता है महंगा: क्या है 'लैंग्वेज टैक्स' का सच?
अंग्रेजी के अलावा AI से हिंदी या फिर किसी भी दूसरी भाषा में बात करते हैं तो AI चैटबॉट का इस्तेमाल आपको महंगा पड़ सकता है. OpenAI, Anthropic और Google जैसी कंपनियां अक्सर अपने नए AI मॉडल को ऐसे टूल के तौर पर पेश करती हैं जो हर किसी के लिए एक जैसा काम करते हैं, चाहे वह कहीं भी रहते हों या कोई भी भाषा बोलते हों. लेकिन रिसर्चर्स के नए डेटा से पता चलता है कि जो यूजर्स हिंदी, अरबी और चीनी जैसी भाषाओं में एआई का इस्तेमाल करते हैं, उन्हें अंग्रेजी में एआई से बात करने वालों के मुकाबले असल में ज्यादा पैसे चुकाने पड़ सकते हैं.
इसकी वजह क्या है?
यह इस बात पर निर्भर करता है कि AI मॉडल भाषा को कैसे प्रोसेस करता है, हिंदी में वही प्रॉम्प्ट (निर्देश) इंग्लिश की तुलना में कहीं ज्यादा टोकन यानी वो यूनिट्स जिनका इस्तेमाल AI सिस्टम टेक्स्ट को पढ़ने और समझने के लिए करता है, जेनरेट कर सकता है. आसान शब्दों में कहें तो, वही बात हिंदी में कहने पर इंग्लिश के मुकाबले एआई ज्यादा टोकन खर्च करता है. इसी वजह से, जो लोग इंग्लिश नहीं बोलते, उनके लिए AI का इस्तेमाल करना ज्यादा महंगा हो जाता है.
लैंग्वेज टैक्स, क्या है मामला?
रिसर्चर, डेवलपर इस बात को अक्सर लैंग्वेज टैक्स कहते हैं या फिर इसे एक छिपा हुआ खर्च माना जाता है, जो AI मॉडल के अलग-अलग भाषाओं को प्रोसेस करने के तरीके की वजह से होता है. कुछ हफ्ते पहले, OpenAI के रिसर्चर Aran Komatsuzaki ने एक एक्सपेरिमेंट के बारे में बताया जिसमें OpenAI और Anthropic के टोकनाइजर अलग-अलग भाषाओं में टेक्स्ट को कैसे प्रोसेस करते हैं. AI रिसर्चर Rich Sutton के मशहूर लेख द बिटर लेसन को बेंचमार्क मानते हुए, कोमात्सुज़ाकी ने टेक्स्ट का कई भाषाओं में अनुवाद किया और देखा कि अलग-अलग AI सिस्टम कितने टोकन बनाते हैं.
नतीजों से पता चला कि अंग्रेजी और बाकी भाषाओं के बीच काफी अंतर है. विश्लेषण के अनुसार, OpenAI के टोकेनाइज़र पर हिंदी टेक्स्ट के लिए अंग्रेजी की तुलना में 1.37 गुना ज्यादा टोकन की जरूरत पड़ी. वहीं, Anthropic के Claude टोकेनाइजर पर यह आंकड़ा बढ़कर 3.24 गुना हो गया. Claude पर अरबी भाषा के लिए 2.86 गुना ज्यादा टोकन की जरूरत पड़ी, जबकि चीनी भाषा के लिए 1.71 गुना ज्यादा टोकन लगे.

