विकास दल UTF-8 में जाने का प्रस्ताव रखता है

हाल ही में, तेल अवीव से प्रोग्रामरों का एक घोषणापत्र हैकर समाचार पर प्रकाशित किया गया था। उन्होंने यूटीएफ -8 को स्मृति और संचार में पाठ तार के भंडारण के लिए डिफ़ॉल्ट समाधान बनाने का सुझाव दिया।

सामग्री ने एक सक्रिय चर्चा उत्पन्न की, और हमने स्थिति को समझने का फैसला किया, आईटी विशेषज्ञों के तर्क पर विचार करें - जिनमें आईबीएम इंजीनियर और डब्ल्यू 3 सी कंसोर्टियम विशेषज्ञ शामिल हैं।


तस्वीरें - राफेल स्कालर - अनप्लैश

एन्कोडिंग स्थिति


1988 में, जो बेकर ने यूनिकोड मानक का पहला मसौदा पेश किया । दस्तावेज़ इस धारणा पर आधारित था कि 16 बिट्स किसी भी चरित्र को संग्रहीत करने के लिए पर्याप्त होंगे। हालांकि, बहुत जल्दी यह स्पष्ट हो गया कि यह पर्याप्त नहीं था। इसलिए, नए एन्कोडिंग विकल्प दिखाई दिए हैं - जिसमें UTF-8 और UTF-16 शामिल हैं। लेकिन प्रारूपों के विभिन्न प्रकार और उनके उपयोग पर सख्त सिफारिशों की कमी के कारण आईटी उद्योग (शब्दावली सहित) में भ्रम पैदा हुआ।

विंडोज का आंतरिक प्रारूप UTF-16 है । उसी समय, घोषणापत्र के लेखक, जिस पर हैकर न्यूज़ में चर्चा की गई थी, का कहना है कि एक समय में माइक्रोसॉफ्ट ने यूटीएफ -16 और यूसीएस -2 के लिए समानार्थक शब्द और यूनीकोड ​​का इस्तेमाल किया था (जिसे माना जाता हैमूल UTF-16 के पूर्ववर्ती)। लिनक्स पारिस्थितिकी तंत्र के लिए, इसमें UTF-8 का उपयोग करने के लिए प्रथागत है। एन्कोडिंग की विविधता कभी-कभी इस तथ्य की ओर ले जाती है कि विभिन्न ऑपरेटिंग सिस्टम वाले कंप्यूटरों के बीच स्थानांतरण के दौरान फाइलें क्षतिग्रस्त हो जाती हैं।

उद्योग के मानकीकरण का समाधान हो सकता है - स्मृति या डिस्क में पाठ तारों को संग्रहीत करने और नेटवर्क पर पैकेटों के आदान-प्रदान के लिए UTF-8 में संक्रमण।

UTF-8 को UTF-16 से बेहतर क्यों माना जाता है


मुख्य तर्क में से एक यह है कि UTF-8 लैटिन वर्णमाला में वर्णों द्वारा कब्जा की गई स्मृति की मात्रा को कम कर देता है (वे कई प्रोग्रामिंग भाषाओं द्वारा उपयोग किए जाते हैं)। लैटिन अक्षरों, संख्याओं और सामान्य विराम चिह्न केवल एक बाइट के साथ UTF-8 में एन्कोड किए गए हैं । इसके अलावा, उनके कोड ASCII में कोड के अनुरूप हैं, जो पिछड़े संगतता देता है।

इसके अलावा, आईबीएम विशेषज्ञों का कहना है कि यूटीएफ -8 उन प्रणालियों के साथ बातचीत करने के लिए बेहतर है जो मल्टीबाइट डेटा के आने की उम्मीद नहीं करते हैं। अन्य यूनिकोड एनकोडिंग में कई अशक्त बाइट्स होते हैं। उपयोगिताएँ उन्हें फ़ाइल के अंत में पा सकती हैं। उदाहरण के लिए, UTF-16 में, वर्ण A इस तरह दिखता है : 00000000 01000001। एक सी लाइन में, इस अनुक्रम को छंटनी की जा सकती है। UTF-8 के मामले में, शून्य केवल NUL है। इस एन्कोडिंग में, लैटिन वर्णमाला के पहले अक्षर को 01000001 के रूप में दर्शाया गया है - एक अप्रत्याशित ब्रेक के साथ कोई समस्या नहीं है।

इसी कारण से, W3C कंसोर्टियम में इंजीनियर फ्रंट-एंड इंटरफेस विकसित करते समय UTF-8 का उपयोग करने की सलाह देते हैं । तो आप नेटवर्क उपकरणों के संचालन के साथ कठिनाइयों से बच सकते हैं।


तस्वीरें - क्रिस्टियन स्ट्रैंड - अनसप्लेश

रेजिडेंट हैकर न्यूज़ नोट की गईयह UTF-8 आपको शुरुआती चरणों में कोडिंग त्रुटियों को पकड़ने की अनुमति देता है। इसमें, बाइट्स को क्रमिक रूप से पढ़ा जाता है, और ओवरहेड बिट्स उनकी संख्या निर्धारित करते हैं। इस प्रकार, कोड पॉइंट वैल्यू की गणना असंदिग्ध रूप से की जाती है और एप्लिकेशन डेवलपर्स को लिटिल-एंडियन या बिग-एंडियन समस्या के बारे में सोचने की आवश्यकता नहीं है

जहां UTF-16 का फायदा है


लैटिन अक्षर और विराम चिह्न UTF-8 (UTF-16 की तुलना में) में कम मेमोरी ले सकते हैं। कुछ कोड बिंदुओं को दोनों एन्कोडिंग में समान बाइट्स की आवश्यकता होती है - उदाहरण के लिए, यह तथ्य ग्रीक और हिब्रू के लिए सही है।

एशियाई पात्रों के साथ स्थिति अलग है - UTF-8 के मामले में, उन्हें अधिक स्थान की आवश्यकता हैउदाहरण के लिए, चीनी चरित्र तीन बाइट्स द्वारा प्रतिनिधित्व किया जाएगा: 11101000 10101010 10011110UTF-16 में एक ही चरित्र 10001010 10011110 की तरह दिखेगा

इसका परिणाम क्या है


एकल एन्कोडिंग शुरू करने की समस्या पर बहस लंबे समय से चल रही है। यह सवाल लगभग ग्यारह साल पहले स्टैक ओवरफ्लो पर एक सूत्र में उठाया गया था । पावेल रेड्ज़विलोव्स्की (पावेल रेड्ज़विलोवस्की) - घोषणापत्र के लेखकों में से एक ने इसमें भाग लिया। तब से, UTF-8 पहले से ही इंटरनेट पर सबसे लोकप्रिय एन्कोडिंग में से एक बन गया है । और इसे WHATWG में "सभी स्थितियों" के लिए अनिवार्य माना गया था , जो HTML और एपीआई विशेषज्ञों का एक समुदाय है जो प्रासंगिक मानकों को विकसित करता है।

हाल ही में, Microsoft ने वेब एप्लिकेशन विकसित करने में UTF-8 के उपयोग की सिफारिश करना भी शुरू कर दिया है । शायद भविष्य में यह अभ्यास अन्य उपयोगिताओं तक विस्तारित होगा।



:

« www»: -
« IaaS»: 1cloud
: AdTech- GDPR?
10- —
,


All Articles