ما هي ترميزات الحروف مثل ANSI و Unicode ، وكيف تختلف؟
نشرت: 2022-01-29ASCII ، UTF-8 ، ISO-8859 ... ربما تكون قد رأيت هذه الألقاب الغريبة تطفو حولك ، لكن ماذا تعني في الواقع؟ اقرأ كما نوضح ما هو ترميز الأحرف وكيف ترتبط هذه الاختصارات بالنص العادي الذي نراه على الشاشة.
اللبنات الأساسية
عندما نتحدث عن اللغة المكتوبة ، فإننا نتحدث عن الحروف باعتبارها اللبنات الأساسية للكلمات ، والتي بدورها تبني الجمل والفقرات وما إلى ذلك. الحروف هي رموز تمثل الأصوات. عندما تتحدث عن اللغة ، فأنت تتحدث عن مجموعات من الأصوات تتجمع معًا لتشكل نوعًا من المعنى. يحتوي كل نظام لغوي على مجموعة معقدة من القواعد والتعاريف التي تحكم تلك المعاني. إذا كانت لديك كلمة ، فلا فائدة منها إلا إذا كنت تعرف اللغة التي تنتمي إليها وتستخدمها مع الآخرين الذين يتحدثون تلك اللغة.
(مقارنة بين نصوص جرانثا وتولو والمالايالامية ، صورة من ويكيبيديا)
في عالم الكمبيوتر ، نستخدم مصطلح "الشخصية". الشخصية هي نوع من المفهوم المجرد ، محدد بمعايير محددة ، لكنها الوحدة الأساسية للمعنى. يختلف الحرف اللاتيني "A" عن "alpha" اليونانية أو "alif" العربية لأن لهما سياقات مختلفة - فهما من لغات مختلفة ولديهما طرق نطق مختلفة قليلاً - لذلك يمكننا القول إنهما شخصيات مختلفة. التمثيل المرئي للحرف يسمى "حرف رسومي" وتسمى مجموعات مختلفة من الحروف الرسومية الخطوط. تنتمي مجموعات الشخصيات إلى "مجموعة" أو "ذخيرة".
عندما تكتب فقرة وتغير الخط ، فأنت لا تغير القيم الصوتية للأحرف ، إنك تغير شكلها. إنها مجرد مستحضرات تجميل (ولكنها ليست غير مهمة!). بعض اللغات ، مثل المصرية القديمة والصينية ، لها إيديوغرامات ؛ هذه تمثل أفكارًا كاملة بدلاً من الأصوات ، ويمكن أن يختلف نطقها بمرور الوقت والمسافة. إذا استبدلت شخصية بأخرى ، فأنت تستبدل فكرة. إنه أكثر من مجرد تغيير الحروف ، إنه تغيير إيديوغرام.
ترميز الأحرف
(صورة من ويكيبيديا)
عندما تكتب شيئًا ما على لوحة المفاتيح ، أو تقوم بتحميل ملف ، كيف يعرف الكمبيوتر ما يجب عرضه؟ هذا ما هو ترميز الأحرف. النص الموجود على جهاز الكمبيوتر الخاص بك ليس أحرفًا في الواقع ، إنه سلسلة من القيم الأبجدية الرقمية المقترنة. يعمل ترميز الأحرف كمفتاح للقيم التي تتوافق مع الأحرف ، تمامًا مثل الطريقة التي تملي بها قواعد الإملاء الأصوات التي تتوافق مع الأحرف. شفرة مورس هي نوع من ترميز الأحرف. يشرح كيف تمثل مجموعات الوحدات الطويلة والقصيرة مثل أصوات التنبيه الأحرف. في شفرة مورس ، تكون الأحرف عبارة عن أحرف وأرقام ونقاط كاملة باللغة الإنجليزية. هناك العديد من ترميزات أحرف الكمبيوتر التي تترجم إلى أحرف وأرقام وعلامات تشكيل وعلامات ترقيم ورموز دولية وما إلى ذلك.
غالبًا في هذا الموضوع ، يتم استخدام مصطلح "صفحات الرموز" أيضًا. إنها في الأساس ترميزات للأحرف كما تستخدمها شركات معينة ، مع تعديلات طفيفة في كثير من الأحيان. على سبيل المثال ، صفحة رموز Windows 1252 (المعروفة سابقًا باسم ANSI 1252) هي شكل معدل من ISO-8859-1. يتم استخدامها في الغالب كنظام داخلي للإشارة إلى ترميزات الأحرف القياسية والمعدلة الخاصة بنفس الأنظمة. في البداية ، لم يكن ترميز الأحرف مهمًا جدًا لأن أجهزة الكمبيوتر لم تتواصل مع بعضها البعض. نظرًا لارتفاع الإنترنت إلى الصدارة وكون الشبكات أمرًا شائعًا ، فقد أصبحت ذات أهمية متزايدة في حياتنا اليومية دون أن ندرك ذلك.
العديد من الأنواع المختلفة
(صورة من سارة سوسياك)
هناك الكثير من ترميزات الأحرف المختلفة ، وهناك الكثير من الأسباب لذلك. يعتمد ترميز الأحرف الذي تختار استخدامه على احتياجاتك. إذا كنت تتواصل باللغة الروسية ، فمن المنطقي استخدام ترميز الأحرف الذي يدعم السيريلية جيدًا. إذا كنت تتواصل باللغة الكورية ، فأنت تريد شيئًا يمثل Hangul و Hanja جيدًا. إذا كنت عالم رياضيات ، فأنت تريد شيئًا يحتوي على جميع الرموز العلمية والرياضية ممثلة جيدًا ، بالإضافة إلى الحروف الرسومية اليونانية واللاتينية. إذا كنت مخادعًا ، فربما تستفيد من النص المقلوب. وإذا كنت تريد عرض كل هذه الأنواع من المستندات من قبل أي شخص معين ، فأنت تريد ترميزًا شائعًا جدًا ويمكن الوصول إليه بسهولة.
دعنا نلقي نظرة على بعض أكثرها شيوعًا.
(مقتطف من جدول ASCII ، صورة من asciitable.com)

- ASCII - الكود القياسي الأمريكي لتبادل المعلومات هو أحد ترميزات الأحرف القديمة. تم تصميمه في الأصل استنادًا إلى رموز التلغراف وتطور بمرور الوقت ليشمل المزيد من الرموز وبعض أحرف التحكم غير المطبوعة التي عفا عليها الزمن. من المحتمل أن تكون أساسية بقدر ما يمكنك الحصول عليها من حيث الأنظمة الحديثة ، لأنها تقتصر على الأبجدية اللاتينية بدون أحرف معلمة. يسمح ترميزها المكون من 7 بتات بـ 128 حرفًا فقط ، وهذا هو سبب وجود العديد من المتغيرات غير الرسمية المستخدمة في جميع أنحاء العالم.
- ISO-8859 - مجموعة ترميزات الأحرف الأكثر استخدامًا في المنظمة الدولية للتوحيد القياسي هي رقم 8859. كل ترميز محدد محدد برقم ، غالبًا ما يكون مسبوقًا بلقب وصفي ، على سبيل المثال ISO-8859-3 (لاتيني -3) ، ISO- 8859-6 (لاتيني / عربي). إنها مجموعة شاملة من ASCII ، مما يعني أن أول 128 قيمة في الترميز هي نفس ASCII. ومع ذلك ، فهو مكون من 8 بتات ، ويسمح بـ 256 حرفًا ، لذا فهو يبني من هناك ويتضمن مجموعة أكبر من الأحرف ، مع تركيز كل ترميز محدد على مجموعة مختلفة من المعايير. تضمنت Latin-1 مجموعة من الأحرف والرموز المحركة ، ولكن تم استبدالها لاحقًا بمجموعة منقحة تسمى Latin-9 والتي تتضمن صورًا رمزية محدثة مثل رمز اليورو.
(مقتطف من النص التبتي ، Unicode v4 ، من unicode.org)
- Unicode - يهدف معيار التشفير هذا إلى العالمية. يشتمل حاليًا على 93 نصًا منظمًا في عدة مجموعات ، مع وجود العديد من البرامج قيد التنفيذ. يعمل Unicode بشكل مختلف عن مجموعات الأحرف الأخرى في ذلك بدلاً من الترميز المباشر للحرف الرسومي ، يتم توجيه كل قيمة إلى "نقطة رمز". هذه هي القيم السداسية العشرية التي تتوافق مع الأحرف ولكن يتم توفير الحروف الرسومية نفسها بطريقة منفصلة عن طريق البرنامج ، مثل متصفح الويب الخاص بك. عادةً ما يتم وصف نقاط الرمز هذه على النحو التالي: U + 0040 (والتي تُترجم إلى "@"). ترميزات محددة بموجب معيار Unicode هي UTF-8 و UTF-16. يحاول UTF-8 السماح بأقصى قدر من التوافق مع ASCII. إنه 8 بت ، لكنه يسمح لجميع الأحرف عبر آلية استبدال وأزواج متعددة من القيم لكل حرف. يتخلى UTF-16 عن توافق ASCII المثالي لتوافق 16 بت أكثر اكتمالاً مع المعيار.
- ISO-10646 - هذا ليس ترميزًا فعليًا ، فقط مجموعة أحرف من Unicode تم توحيدها بواسطة ISO. إنها مهمة في الغالب لأنها ذخيرة الأحرف المستخدمة بواسطة HTML. بعض الوظائف الأكثر تقدمًا التي يوفرها Unicode والتي تسمح بالترتيب ومن اليمين إلى اليسار جنبًا إلى جنب مع البرمجة النصية من اليسار إلى اليمين مفقودة. ومع ذلك ، فهو يعمل جيدًا للاستخدام على الإنترنت لأنه يسمح باستخدام مجموعة متنوعة من البرامج النصية ويسمح للمتصفح بترجمة الصور الرمزية. هذا يجعل الترجمة أسهل إلى حد ما.
ما هو الترميز الذي يجب علي استخدامه؟
حسنًا ، يعمل ASCII مع معظم المتحدثين باللغة الإنجليزية ، ولكن ليس مع أشياء أخرى كثيرة. في كثير من الأحيان سترى ISO-8859-1 ، والذي يعمل مع معظم لغات أوروبا الغربية. تعمل الإصدارات الأخرى من ISO-8859 مع النصوص السيريلية والعربية واليونانية أو غيرها من النصوص المحددة. ومع ذلك ، إذا كنت ترغب في عرض نصوص متعددة في نفس المستند أو على نفس صفحة الويب ، فإن UTF-8 يسمح بتوافق أفضل بكثير. كما أنه يعمل جيدًا للأشخاص الذين يستخدمون علامات الترقيم الصحيحة أو الرموز الرياضية أو الأحرف غير الرسمية ، مثل المربعات ومربعات الاختيار.
(لغات متعددة في مستند واحد ، لقطة شاشة لموقع gujaratsamachar.com)
ومع ذلك ، هناك عيوب لكل مجموعة. ASCII محدود في علامات الترقيم الخاصة به ، لذلك فهو لا يعمل بشكل جيد للغاية بالنسبة لعمليات التحرير الصحيحة المطبعية. هل كتبت نسخًا / لصقًا من Word فقط للحصول على مجموعة غريبة من الصور الرمزية؟ هذا هو عيب ISO-8859 ، أو بشكل أكثر صحة ، قابلية التشغيل البيني المفترض مع صفحات الرموز الخاصة بنظام التشغيل (نحن ننظر إليك ، Microsoft!). العيب الرئيسي لـ UTF-8 هو نقص الدعم المناسب في تحرير التطبيقات ونشرها. مشكلة أخرى هي أن المتصفحات في كثير من الأحيان لا تفسر وتعرض فقط علامة ترتيب البايت للحرف المشفر UTF-8. ينتج عن هذا عرض صور رمزية غير مرغوب فيها. وبالطبع ، فإن الإعلان عن ترميز واستخدام أحرف من أخرى دون الإعلان عنها / الرجوع إليها بشكل صحيح على صفحة الويب يجعل من الصعب على المتصفحات عرضها بشكل صحيح وعلى محركات البحث فهرستها بشكل مناسب.
بالنسبة إلى المستندات والمخطوطات الخاصة بك وما إلى ذلك ، يمكنك استخدام كل ما تحتاجه لإنجاز المهمة. فيما يتعلق بالويب ، يبدو أن معظم الناس يتفقون على استخدام إصدار UTF-8 الذي لا يستخدم علامة ترتيب البايت ، ولكن هذا ليس بالإجماع تمامًا. كما ترى ، كل ترميز له استخداماته الخاصة وسياقه ونقاط القوة والضعف. بصفتك مستخدمًا نهائيًا ، ربما لن تضطر إلى التعامل مع هذا الأمر ، ولكن يمكنك الآن اتخاذ الخطوة الإضافية للأمام إذا اخترت ذلك.