- துரை குமரன் -
முத்தமிழுடன் நான்காம் தமிழாகிய அறிவியல் தமிழும் அதன் உட்கூறாகிய கணினித்தமிழும் கணினியாலும், இணையத்தாலும் இன்று பெருவளர்ச்சி கண்டுள்ளது. கணினித் தொழில்நுட்பத்தை முழுமையாகப் பயன்படுத்துவதில் உலகத்தமிழர் முன்னிற்கின்றனர். உலகெங்கும் பரவி வாழ்ந்து வரும் அத்தமிழர்களை ஒன்றுகூட்டும் சாதனமாகக் கணினியும், அதன் தொழில்நுட்ப வளர்ச்சியுமாகிய இணையமும் விளங்குகிறது.
அண்மைக்காலத்தில் கணினி மற்றும் இணையப் பயன்பாட்டில் ஏற்பட்ட வியத்தகு மாற்றங்களில் ஒன்று கணினித்தமிழ். பெரும்பான்மை கணினிப் பயன்பாட்டில் ஆங்கிலத்தையடுத்து, தமிழின் பயன்பாடு சிறப்பிடம் வகிக்கிறது. தொடக்க காலத்தில் கணினியில் தமிழைப் பயன்படுத்த மேற்கொண்ட முயற்சிகள் பல. அம் முயற்சிகளின் முதல்படியாகக் கணினியில் தமிழ் எழுத்துரு குறியாக்கத்தின் வளர்ச்சி அமைந்தது. அவ்வகையில் தற்போது பொதுவாகப் பயன்பாட்டில் இருந்து வரும் யுனிகோடு குறியாக்கம் (Unicode Encoding) குறித்த வரலாற்றினை ஆய்கிறது இக்கட்டுரை.
கணிப்பொறியில் குறியாக்க( Encoding ) முறை :
உலகில் பல மொழிகளிலும் கணினி பயன்படுத்தப்பட்டு வருகிறது. எந்தவொரு மொழியாக இருந்தாலும் கணினியில் பயன்படுத்தும் போது ஒவ்வோர் எழுத்துக்கும் ஓர் எண் ஒதுக்கப்படும். சான்றாக, ‘A’ என்ற எழுத்துக்கு 01000001 என்ற எண்ணும், ‘B’ எழுத்துக்கு 01000010 என்ற எண்ணும் பயன்படுத்தப்படுகிறது. இதற்கு ஆஸ்கி முறை (ASCII - American standard code for Information Interchange) என்று பெயர். இதேபோல் ஒவ்வொரு மொழியில் உள்ள எழுத்துருவிற்கும் ஒவ்வொரு எண் ஒதுக்கப்படும். எண் அமைப்பினைக் கொண்டே கணினி இயங்குகிறது. இப்படிக் கணினியில் ஒவ்வொரு எண்ணையும் நிர்ணயிக்கும் குறியீட்டு முறைக்கு குறியாக்கம் (Encoding) என்று பெயர்1. இவ்வாறு குறியாக்கம் செய்வதில் உலக மொழியாக உள்ள ஆங்கிலம் பாதி இடத்தைப் பிடித்துக் கொண்டது.
அதாவது, எழுத்துருவிற்கு எண்ணாக ஒதுக்கப்படும் கணினியின் இடமானது 16x16 என்ற அளவில் 256 கீற்றுகளாக (glyph) அமைகிறது. இதில் 128 கீற்றுகளில் ஆங்கிலமொழி குறியாக்கம் செய்யப் பட்டுள்ளது. அதிலும் எழுத்துக்கள், எண்கள், நிறுத்தற்குறிகள் மற்றும் கணிதக் குறியீடுகள் என 94 எழுத்துக்கள்2 குறியாக்கம் செய்யப் பட்டுள்ளது. மீதமுள்ள 128 கீற்றுகளில் மற்ற உலக மொழிகளுக்கு இடம் ஒதுக்கப்பட்டன.
தமிழ் எழுத்துரு குறியாக்கத்தின் தொடக்கம் :
மேற்சொன்னதன் அடிப்படையில் கணினியின் பயன்பாட்டில் தமிழானது தொடக்கத்தில் தமிழ் தட்டச்சுக் கருவியைத் தழுவி ‘பாமினி’ என்கிற எழுத்துரு அறிமுகமானது. இது ஆங்கிலக் குறியாக்கத்தில் அமைந்த எழுத்துருக்களுக்குப் பதிலாகத் தமிழை உட்புகுத்தியது. இதுபோன்றே பலரும் சொந்தத் தயாரிப்பில் பலவகை எழுத்துருக்களை உருவாக்கினர். ஆனால், காலப்போக்கில் இணையத்தின் வரவால் பல்வேறு நடைமுறைச் சிக்கல்கள் இதில் உருவாகின. இக்காலத்தில் வேறுசில குறியாக்க மென்பொருள்களும் பயன்பாட்டிற்கு வந்தன. அதனால் இணையத்தில் செய்தி பரிமாற்றத்தில் பலவகைச் சிக்கல்கள் ஏற்பட்டன.
மேலும் இவ்வகையில் தமிழ் - ஆங்கிலம் என இரு மொழிகளிலும் ஆவணம் ஒன்றைத் தொகுப்பது கடினமானது. இந்நிலையில் பல மென்பொருள் தயாரிப்பாளர்கள், தமிழ் அறிஞர்கள், தமிழைக் கணினியில் பயன்படுத்துவோர், தமிழ் ஆர்வலர்கள் மற்றும் பலரின் முயற்சியால் புதிய தமிழ் நியமக் குறியாக்க முறை உருவாக்கப்பட்டது. இம்முறையென்பது, “ கணினி சார் தேவைகளுக்குத் தமிழ் எழுத்துக்களைப் பயன்படுத்துவதற்கென உருவாக்கப்பட்ட 8 பிட் அடிப்படையில் அமைந்த, தமிழ் - ஆங்கிலம் என இரு மொழிகளைக் கையாளத்தக்க ஒரு எழுத்துக் குறிமுறை நியமமாகும். இக்குறிமுறையின் பெயர் ஆங்கிலத்தில் சுருக்கமாக TSCII (Tamil standard code for Information Interchange) என்றவாறு குறிக்கப்படுகிறது. தமிழில் திஸ்கி எனவும், தகுதரம் எனவும் (தமிழ் குறியீட்டுத் தராதரம்) வழங்கப்படும். இதுவே முதன்முதலில் உலகம் தழுவிய இணைய உரையாடல் மூலம் தரப்படுத்தப்பட்டு உருவாக்கப்பட்ட குறிமுறை நியமமாகும்3” என்று தமிழ் விக்கிப்பீடியா உரைக்கிறது.
அதுவரை நிலவிவந்த பல்வேறு சிக்கல்களுக்கு, தமிழ் எழுத்துக் குறியாக்க வரலாற்றில் ஒருமொழி (ASCII) குறியாக்கத்தால் ஏற்பட்ட வெற்றிடத்தை நிறைவு செய்ய உருவாகிய அடுத்தகட்ட வளர்ச்சியே திஸ்கி. கணினியில் ஆஸ்கி குறியாக்கத்திற்கான இடம் போக மீதமுள்ள (129 முதல் 256 வரையுள்ள கீற்றுகளில்) இடத்தில் தமிழ் எழுத்துக்களைப் பிரதியீடு செய்தலே திஸ்கி குறியாக்கத்தின் அடிப்படை. ஆங்கில எழுத்துகளின் குறியாக்கத்தில் தமிழைப் பிரதியீடு செய்த முறையினும் இது முன்னேற்றம் உடையதாக, இருமொழிப் பயன்பாட்டிற்கு எளிதாக இருந்தது. இம்முறை தமிழ் இணைய மாநாடு 99 இல் தமிழக அரசால் ஏற்றுக் கொள்ளப்பட்டது.
தமிழ் 99 விசைப்பலகை :
அரசால் ஏற்றுக் கொள்ளப்பட்டு வெளியிடப்பட்ட தமிழ் 99 விசைப்பலகை அச்சுமுறையில் தமிழ் எழுத்துருக்கள் TAM என்றும் TAB என்றும் இருவகையாகப் பிரிக்கப்பட்டன. TAM என்பது Tamil Monolingual. TAB என்பது Tamil Bi-lingual. TAM என்பது முழு வடிவிலான தமிழ் எழுத்துருக்களைக் கொண்டதாகும். இம்முறையில் தட்டச்சு செய்யப்படும் எழுத்துருக்கள் முழு வடிவில் இருக்கும். சான்றாக, ‘நிலா’ என்று தட்டச்சு செய்தால் ந, ¢, ல, ¡ என்று தனித்தனி எழுத்துக்களாக இல்லாமல் நி, லா என முழு எழுத்துக்களாக இருக்கும்4 . அழகுணர்ச்சிக்காக முழு எழுத்துக் களாக இக்குறியீட்டு முறை உருவாக்கப்பட்டது.
TAB முறையில் தமிழ் எழுத்துருக்களைக் குறியாக்கம் செய்யக் கிடைத்த 128 கீற்றுகளில் 247 எழுத்துக்களைப் பொருத்த முடியாத காரணத்தால் எழுத்துக்களைக் கூறிட்டுப் பொருத்த வேண்டியதாயிற்று. ‘கொடு அழகு மொழிச் சொல்’ என்னும் வாக்கில் உள்ள கொ,டு,அ,ழ,கு,மொ,ழி,ச்,சொ,ல் என்னும் பத்து எழுத்துக்களைத் திஸ்கி குறியாக்கத்தில் ¦,க,¡,டு,அ,ழ,கு,¦,ம,¡,ழ,¢,ச்,¦,ச,¡,ல் எனப் பதினேழு கீற்றுகளாகக் குறியாக்கம் செய்தனர்5 என்று மேற்கண்ட சான்றின் மூலம் இம்முறைக் குறியாக்கத்தை ஒரு குறையாகக் கூறுவார் ஆய்வாளர் முனைவர் திரு.இராம.கி.
யுனிகோடு முறையின் விளக்கமும் தேவையும் :
யுனிகோடு அல்லது ஒருங்குறி என்பது எழுத்துக்களை வரியுருக்களையும் எண்முறை உபகரணங்களில் பயன்படுத்துவதற்கென உருவாக்கப்பட்ட ஒரு குறிமுறை நியமம் ஆகும். இந்நியமத்தில் தற்காலத்தில் உலகில் பரவலாகப் பயன்படுத்தப்படும் பல்வேறு வரி வடிவங்கள் அடங்கியுள்ளன. அவற்றுடன் சில அரிதாகப் பயன் படுத்தப்படும் வரிவடிவங்களும், கணிதம், மொழியியல் போன்ற துறைகளில் பயன்படும் வரியுருக்களும் அடங்கியுள்ளன. தற்போது கணியுலகில் வெவ்வேறு வரி வடிவங்களுக்கு வெவ்வேறு குறிமுறைகள் பயன்பாட்டில் உள்ளன. மேலும் தமிழ் போன்ற சில மொழிகளில் ஒரே வரிவடிவத்திற்குப் பல்வேறு குறி முறைகளும் காணப்படுகின்றன. பன்மொழிச் சூழலில் இத்தகைய வேறுபட்ட குறிமுறைகளைப் பயன் படுத்துவதால் பல்வேறு சிக்கல்கள் உருவாகின்றன. யுனிகோடு என்பது இத்தகைய வேறுபட்ட குறிமுறைகளுக்கு மாற்றாக ஒரு நியமக் குறிமுறையை நிறுவுவதற்கான திட்டமாகும்6 என்று தமிழ் விக்கிபீடியா கூறுகிறது.
தமிழைப் போலவே உலக மொழிகள் யாவிலும் உள்ள பெரும் பிரச்சனை எந்தக் குறியாக்க முறையை இணையதளங்கள் அமைப்பதிலும், மின்னஞ்சல் பரிமாற்றத்திற்கும் பயன்படுத்துவது என்பதே. பலரும் பல குறியாக்க முறையைப் பின்பற்றுவதால் செய்தி பரிமாற்றத்தில் பல்வேறு குளறுபடிகள். இக் குளறுபடிகளைப் போக்க உருவாக்கப்பட்டதே யுனிகோடு குறியாக்க முறை.
யுனிகோடு கூட்டமைப்பு (Unicode Consortium) :
ஆங்கிலம் தவிர உலகளாவிய மொழிகளில் ஏற்பட்ட இக்குறியாக்கப் பிரச்சனையைப் போக்கவும், உலகில் உள்ள அனைத்து மொழிகளையும் ஒன்றிணைக்கவும் யுனிகோடு கூட்டமைப்பு (Unicode Consortium) என்ற அமைப்பு உருவாக்கப்பட்டது. இலாப நோக்கற்ற நிலையில் மிகப்பெரிய கணினி நிறுவனங்களும், உலக நாடுகள் பலவும், கணினி ஆர்வலர் பலரும் உறுப்பினர்களாக உள்ள இவ்வமைப்பு உலக மொழிகள் அனைத்தையும் ஒரு குடையின் கீழ் கொண்டுவரவே நிறுவப்பட்டது.
இக்கூட்டமைப்பில் உறுப்பினர்களாக உள்ளவர்கள் அவரவர் மொழியை யுனிகோடு மூலம் கணினியில் எப்படிக் கொண்டுவருவது என்றும், அதில் ஏற்படும் சிக்கல்களுக்கு எவ்வாறு தீர்வு காண்பது என்றும் ஆராய்ந்து திட்ட அறிக்கைகளை இவ்வமைப்பிடம் வழங்குவர். அதனை ஆராய்ந்து ஒவ்வொரு மொழிக்கும் எவ்வளவு இடம் ஒதுக்குவது என இவ்வமைப்பு முடிவு செய்யும். இவ்வமைப்பில் இந்திய அரசும், தமிழக அரசும் உறுப்பினர்களாக உள்ளன. தமிழக அரசு சார்பில் தமிழ் இணையப் பல்கலைக் கழகம் தமிழ் வளர்ச்சிக்கான பணியை மேற்கொண்டு வருகிறது7.
யுனிகோடு குறியாக்க முறை(Unicode Encoding) :
யுனிகோடு குறியாக்க முறை என்பது உலகளாவிய குறியாக்க முறை. இதில் உலக மொழிகள் அனைத்திற்கும் இடம் உண்டு. இது 32 பிட் திட்டம். இதில் 65000 கீற்றுகளில் பல்வேறு மொழிகளுக்கும் இடம் ஒதுக்கப்படுகிறது. சைனீஸ் போன்ற சில மொழிகள் தவிர ஒவ்வொரு மொழிக்கும் 128 பிட்கள் ஒதுக்கப்படும்8. இவ்வாறு இந்திய மொழிகளுக்கு ஒதுக்கப்பட்ட குறியாக்க முறை ISCII (Indian standard code for Information Interchange) என்று அழைக்கப்பட்டது. ஆனால், இது தேவநாகரி முறையில் குறியாக்கம் செய்யப்பட்டதால் தமிழ் மொழிக்குக் குறைந்த இடங்கள் ஒதுக்கப்பட்டது. இதனால் தமிழ் பயன்பாட்டில் சில சிக்கல்கள் ஏற்பட்டன. என்றாலும் யுனிகோடு நமது அசிரத்தையினால் இஸ்கி சார்ந்த குறியாக்க முறையை ஏற்றுக்கொண்டுவிட்டது9 என்பார் ஆய்வாளர்.
யுனிகோடு தமிழ் குறியாக்கமும் எழுத்துரு பயன்பாடும் :
தற்போது யுனிகோடில் தமிழ் மொழிக்கும் 8 பிட் அடிப்படையில் குறியாக்க முறை வரையறை செய்யப்பட்டுள்ளது. இதனால் நம்மிடையே இருமொழிப் பயன்பாட்டிற்கென உள்ள TAB TSCII முறைகளை விட யுனிகோடில் பன்மொழி உள்ளடக்கிய எழுத்துருவைப் பயன்படுத்த வழி ஏற்படுகிறது. மேலும், TAM,TAB,TSCII போன்ற குறியாக்க முறையில் குறியீடுகள் வேற்று மொழி எழுத்துருக்களைக் கொண்டதாக இருக்கும். குறியாக்க முறையிலும் ஒரு குறியாக்க முறை ‘அ’ வை 140 ஆவது இடத்தில் புகுத்தி இருந்தால், வேறொரு குறியாக்க முறை ‘ன’ வைப் புகுத்தியிருக்கும். யுனிகோடில் மேற்கண்ட இடர்ப்பாடு களையப் படுவதுடன், பிறமொழிக் குறியாக்கத்தில் தமிழைப் பிரதியீடு செய்த முறையும் மாற்றம் பெற்று தமிழ் மொழி எழுத்துருக்கள் உட்புகுத்தப்படுகிறது.
யுனிகோடில் எண் 2946 முதல் எண் 3071 (OB80-OBFF Hex) வரை தமிழுக்காக இடம் ஒதுக்கப்படும். அந்நிலையில், எந்தமொழியைச் சேர்ந்தவராயினும் 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது தமிழ் ‘அ’ வாகவே கணினியில் வெளிப்படும்10. மேற்கூறியவாறு உலகம் முழுவதும் ஒரே குறியாக்கம் பயன்பட்டால் செய்திப் பரிமாற்றத்தில் குழப்பமேற்படாது.
யுனிகோடும் கணினி நிறுவனங்களும் :
கணினிப் பயன்பாட்டில் மைக்ரோசாப்ட், ஆப்பிள் போன்ற கணினி நிறுவனங்கள் யுனிகோடு முறையினை ஏற்றுக் கொண்டுள்ளன. மைக்ரோசாப்ட் நிறுவனம் யுனிகோடு பயன்பாட்டிற்கு ‘லதா’ என்ற எழுத்துருவைத் தருகிறது. தற்போது விண்டோஸ் 2000, விண்டோஸ் XP, விண்டோஸ் 2003, ஆப்பிள், புதிய மெக்கிண்டாஷ் கணினிகளில் யுனிகோடு முறை தடையின்றிப் பயன்படுத்த முடிகிறது. புதிய லினக்ஸ் தளத்திலும் யுனிகோடு பயன்பாடு உள்ளது.
முழுக்க முழுக்க யுனிகோடு அமைப்பில் இயங்கும் செயலிகள் நாளுக்கு நாள் அதிகரித்து வருகின்றன. மைக்ரோசாப்ட் ஆபிஸ், XP, Internet Explorer, Outlook Express, Adope InDesign முதலிய செயலிகள் இவ்வரிசையில் அடங்கும். இலவசத் தொகுப்பாக வழங்கப்படும் Open Office . org செயலிகளிலும் கூட யுனிகோடு அமலாக்கப்பட்டு உள்ளது11 என்பது யுனிகோடு முறைக்குக் கணினி நிறுவனங்கள் காட்டும் வரவேற்பைக் காட்டுகிறது.
தமிழ் யுனிகோடு செயலிகள், எழுத்துருக்கள் :
பல்வேறு தமிழ் யுனிகோடு செயலிகளும், எழுத்துருக்களும் இன்று இணையதளங்களில் இலவசமாகவும் கிடைக்கின்றன. அவற்றில் சில இங்கு பட்டியலிடப்படுகிறது.
செயலிகள் :
1. சர்மாஸ் சொல்யூஷன்ஸ் மென்பொருள்.
2. அழகி தமிழ் மென்பொருள்.
3. எ.கலப்பை 2.0
4. முரசு அஞ்சல்
5. குறள் தமிழ் செயலி
6. புதுவை தமிழ் எழுதி.
7. புதுவை தமிழ் யுனிகோடு எழுத்துரு மாற்றி.
எழுத்துருக்கள் :
1. யுனிகோடு இணைமதி
2. தமிழ் யுனிகோடு இளங்கோ பாரதி
3. கோட் 2001
4. தேனீ யுனிகோடு
5. தமிழ் யுனிகோடு ஆவரங்கால்
6. லதா யுனிகோடு எழுத்துரு
7. TSCuthamba - யுனிகோடு எழுத்துரு
8. சூரியன் . கொம். ttf -தொகுப்பு : கணிஞர் உமர்.
முடிவுரை :
கணித்தமிழானது பல்வேறு நிலைகளில் பெற்ற வளர்ச்சியால் இன்று உலகளாவிய நிலையில் யுனிகோடு குறியாக்கம் மாற்றம் பெற்றுள்ளது. இந்த யுனிகோடு முறையிலும் சிலபல குறைபாடுகள் உள்ளன. ஆயினும் அக்குறைபாடுகள் களையப்பட முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. நாமும் இனி உள்ளிடும் தமிழ் எல்லாம் யுனிகோடில் இருப்பதாகப் பயன்படுத்த வேண்டும்.
சான்றெண் விளக்கம் :
1.த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப - 66. பெரிகாம், சென்னை - 6. மு.ப - டிசம்பர் 2005.
2.மேற்படி ப - 21.
3.தமிழ் விக்கிபீடியா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப் பட்டது.
4.முனைவர் இராம.கி. மொழியியற் பார்வையில் தமிழ்க் குறியேற்றங்களுக்கான ஒரு முன்னீடு தமிழ் இணையம் 2003 மாநாட்டுக் கட்டுரைகள். பக் - 275,276
5.த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப - 19.
6.தமிழ் விக்கிபீடியா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப் பட்டது.
7.த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப - 68.
8.K.Kalyanasundaram.Ph.D. Tamil Unicode FAQ. எழில்நிலா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.
9.எஸ்.ரெங்கராஜன் (சுஜாதா). தமிழ்க் கணினி : சில சிந்தனைகள். தமிழ் இணையம் 2003 மாநாட்டுக் கட்டுரைகள்.
10.கணிஞர் உமர். யுனிகோடும் தமிழ் இணையமும். எழில்நிலா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.
11.முத்து நெடுமாறன். தமிழுக்கு சொந்த வீடு. எழில்நிலா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.
[அன்புள்ள பதிவுகள் இணைய இதழ் ஆசிரியருக்கு வணக்கம். யுனிகோடு ( ஒருங்குறி ) தமிழ் எழுத்துரு வரலாறு - என்ற இந்த கட்டுரை ‘ஆர்’ அனைத்திந்திய ஆராய்ச்சி அரங்கின் இரண்டாம் தேசியக் கருத்தரங்கு - புதுச்சேரியில் வாசிக்கப்பட்டது. ஆய்வரங்கில் மூன்றாம் பரிசுக்குரிய கட்டுரையாகத் தேர்ந்தெடுக்கப்பட்டது என்பதை மகிழ்வுடன் தெரிவித்துக்கொள்கிறேன்.- துரைகுமரன்]
மின்னஞ்சல் முகவரி : WWW.duraiaadav@yahoo.co.in