Apr 19, 2017

தமிழில் பேசுவதில்லையே?

அன்பு மணிகண்டன்,

அண்மையில் பன்மொழி தொலைபேசி உரையாடல்களின் தரவு (Multi-lingual speech telephone conversation data) குறித்தான தொழில் நுட்ப சாத்தியங்கள் பற்றிய கருத்தரங்கை நடத்த சென்று இருந்தேன். (நான் மொழியியல் ஆராய்ச்சியில் ஈடுபடவில்லை, ஆனாலும், இத்திட்டத்தில் என் ஆராய்ச்சி சம்பந்தப்பட்ட வேறு சில காரணிகளும் இருந்ததால் சென்று இருந்தேன்). 

சிங்கப்பூரில் தமிழ் அங்கீகரிகப்பட்ட தேசிய மொழி என்பதை நீங்கள் அறிவீர்கள்.  தேசிய மொழிகளுக்கு ‘ஆழக்கற்றலின் மூலம் பேச்சைக் கண்டறிதல்’ (Speech recongnition by deep learning) ஆராய்ச்சிக்கு நிதி ஒதுக்கியிருக்கிறார்கள். தரவு வைத்திருக்கும் அமைப்பைப் பொறுத்தவரையில் தமிழ் மொழிக்கு அதிகம் முக்கியத்துவம் இல்லை, ஏனெனில், தமிழ் மக்கள் தொலைபேசியில் உரையாடும் போது ஆங்கிலத்திலேயே உரையாடுவதாகக் குறிப்பிட்டனர். ஆகையால், தமிழ் மொழிக்கான தரவு (data)அதிகம் இல்லை எனக் கூறினார். (ஆனால் சீனர்கள் அவர்கள் மொழியில் உரையாடி இருப்பதால் அந்த மொழிக்கானத் தொழில் நுட்பம் தேவை எனக் கூறினர்).

இதில் கவனிக்க வேண்டியது என்னவெனில், நாம் தமிழில் பேசுவதைத் தவிர்த்து ஆங்கிலத்தில் பேச முனைய, அது நம் மொழியியல் ஆராய்ச்சிக்கு பெரும் இடையூறாக ஆகியிருக்கிறது. இதுவரைத் தமிழ் மொழி அழிவதைப் பற்றிக் கவலை அற்று இருந்தேன்- தமிழின் தொன்மையைப் பற்றி பேசுவோரிடம், தமிழ் மொழித் தன்னையே காத்துக்கொள்ளும் என பேசி இருக்கிறேன். இந்த சம்பவத்திற்குப்பின் கொஞ்சம் பதட்டம் வந்திருகிறது. உண்மையில், தமிழ் மொழிக்கான தொழில்நுட்பம் வளர நாம் ஏதாவது வகையில் தரவுகளைத் தயார் செய்ய வேண்டும். மொழியில் போதுமான தரவுகள் இல்லாமல், போதுமான பயன்பாடு இல்லாமல்,  எவ்வளவு தொழில்நுட்ப ஆராய்ச்சி மேற்கொண்டாலும் பயன் தராது. இதற்கு எதாவது வழிவகை செய்ய இயலுமா என தீர்க்கமாக யோசிக்க வேண்டும். ​நாம் ஃபேஸ்புக்கிலும், வலைப்பதிவுகளிலும் தமிழ் மொழி உபயோகிப்பதின் மூலம் தமிழ்மொழிக்கான எழுத்துத் தொழில்நுட்பம் (Text related techonologies) வளரும். ஆனால், உரையாடல்கள் சம்பந்தப்பட்ட தொழில்நுட்பங்கள் வளர பலதரப்பட்ட்ட துறைகளில் (மருத்துவம், விஞ்ஞானம், தொழில் துறை) பேச்சுமொழிக்கான தொழில்நுட்பம் அவசியம் இல்லையா? ​மருத்துவம் போன்ற இன்றியமையாத துறைகளில், தமிழ் மொழியின் பயன்பாடும், அதற்கு தேவையான தொழில் நுட்பமும் இருத்தல் தேவையானது இல்லையா? 

உங்களுடைய எண்ணம் பற்றிப் பகிரவும்.​ ​

நன்றி

அன்புடன்
சவிதா

முனைவர் சவிதா சிங்கப்பூரில் கணினியியல் விஞ்ஞானியாக இருக்கிறார். அவரிடமிருந்து இம்மின்னஞ்சல் வந்திருந்தது. ‘நாம் பேசுவதிலும் எழுதுவதிலும் தமிழ் மொழியைப் பயன்படுத்தாவிட்டால் என்ன குறைந்துவிடும்’ என்கிற மனநிலை நம்மில் பலருக்கும் உண்டு. அதன் எதிர்விளைவுகளை மின்னஞ்சல் சுட்டிக் காட்டுகிறது.

நாம் வாழ்ந்து கொண்டிருப்பது Big data யுகம்.

மனிதன் நேருக்கு நேர் அமர்ந்து பேசுகிற தருணங்கள் மிகக் குறைந்துவிட்டன. நம்முடைய எண்ணங்கள் யாவுமே பிறருக்குத் தகவல் தொடர்பு சாதனங்களின் வழியாகவே கடத்தப்பட்டுக் கொண்டிருக்கின்றன. கணவனும் மனைவியும் கூட நேரில் பேசுவதைவிடவும் அலைபேசியில் பேசுகிற நேரம்தானே அதிகமாகிக் கொண்டிருக்கிறது? இப்படி சாதனங்களின் வழியாக பரிமாறிக்கொள்ளப்படுகிற பெரும்பாலானவை data வாக மாறுகிறது. சாதனங்களின் வழியாக நாம் பேசுவதையும், எழுதுவதையும் யாரோ எங்கோ எடுத்து ஆராய்ச்சி செய்து கொண்டிருக்கு வாய்ப்பிருக்கிறது. பலவிதமான ஆராய்ச்சிகள். ‘மதியம் மூன்றிலிருந்து ஐந்து மணி வரைக்கும் தமிழர்களுக்கு எந்த நடிகையைப் பிடிக்கும்?’ என்கிற அளவுக்கு சொல்லக் கூடிய அளவுக்கு ஆராய்ச்சிகள் நடைபெறுகின்றன.

இத்தகைய ஆராய்ச்சிகளில் பல பிரிவுகள் உண்டு. தனிமனித உளவியல், சமூக உளவியல் என்றொரு ரீதியில் நடைபெற்றால் நம்முடைய டேட்டாவை வைத்து தொழில்நுட்ப ரீதியிலான ஆராய்ச்சிகளையும் பல குழுக்கள் செய்து கொண்டிருக்கின்றன. 

முனைவர் சவிதா குறிப்பிட்டிருப்பது அப்படியானதொரு தொழில்நுட்பம் சார்ந்த ஆராய்ச்சி. 

Speech recognition என்பதை எளிதாகச் சொல்ல வேண்டுமானால் நம் உரையாடலை எழுத்து வடிவுக்கு மாற்றுதல். உதாரணமாக, கணினியின் ஒலிவாங்கியில் திருக்குறளை ஒருவர் படித்தால் அது எழுத்து வடிவுக்கு மாற்றப்பட்டுவிட வேண்டும். இதற்காக மென்பொருட்கள் இருக்கின்றன என்றாலும் ஆயிரம் பிரச்சினைகள் இருக்கின்றன. ஒரே சொல்லை ஒவ்வொருவரும் ஒவ்வொரு வகையில் உச்சரிக்கக் கூடும், குரல் தொனி மாறியிருக்கலாம் இதையெல்லாம் புரிந்து கொண்டு சொற்களை எழுத்து வடிவத்துக்கு கணினி மாற்ற வேண்டும். நம் மொழியில் இருக்கக் கூடிய பல லட்சம் சொற்களையும் எழுத்து வடிவில் மாற்ற வேண்டுமானால் தொடர்ச்சியான ஆராய்ச்சிகள் நடைபெற வேண்டியிருக்கிறது.

அத்தகையதொரு ஆராய்ச்சிக்கு தொலைபேசி உரையாடல்களிலிருந்து தரவுகளை எடுத்திருக்கிறார்கள். நம்மவர்கள் நிறையப் பேர் ஆங்கிலத்திலேயே பேசுவதால் ‘தமிழுக்கு அவசியமில்லை..சீன மொழியின் பக்கம் கவனம் செலுத்துவோம்’ என்று சொல்லியிருக்கிறார்கள். 

சர்வதேச அறிவியல் கருத்தரங்கில் இப்படியானதொரு ஒதுக்குதல் மிகப்பெரிய இழப்புதான். பிரச்சினை புரிகிறது. ஆனால் இதற்கான தீர்வு என்ன?

மெல்ல மெல்லத் தமிழை விட்டு விலகிக் கொண்டிருக்கிறோம் என்றுதான் தோன்றுகிறது. தனித்தமிழ் உரையாடல் என்று கொடி பிடிக்கவில்லை. குறைந்தபட்ச உரையாடலைக் கூட தமிழில் நிகழ்த்துவதில்லை. ‘இல்லையே தமிழில்தானே பேசுகிறோம்’ என்று சொல்லலாம்தான். பேசுகிறோம். எத்தனை கலைச் சொற்களை நம் உரையாடலில் பயன்படுத்துகிறோம்? நோய்கள், மருந்துகள், அறிகுறிகள், கணினி சம்பந்தப்பட்ட சொற்கள், தொழில்நுட்பச் சொற்கள் என பல்துறைக் கலைச் சொற்களையும் நாம் ஆங்கிலத்தில்தான் புழக்கத்தில் வைத்திருக்கிறோம். 

வளம், செழுமை, தொன்மை என்பதையெல்லாம் தாண்டி மொழியின் தினசரி பயன்பாடுதான் அதனை உயிர்ப்போடு வைத்திருக்கிறது. கடந்த இரண்டாயிரம் ஆண்டுகளில் இல்லாத அளவிற்கு சமீப ஐம்பதாண்டுகளில் மொழியில் கலைச் சொற்கள் நிரம்பியிருக்கின்றன. ஜப்பானியர்களும் சீனர்களும் பெரும்பாலான கலைச் சொற்களை அவர்களது தாய் மொழியிலேயேதான் பயன்படுத்துகிறார்கள். நாம் அப்படியில்லை. பெரும்பாலான சொற்களுக்கு ஆங்கிலத்தை நம்புகிறோம். 

அதன் எதிர்விளைவுகள் நம் கண்களுக்குத் தெரியாதவையாக இருக்கின்றன. தொழில்நுட்ப ஆராய்ச்சிகள் நம் மொழியை ஒதுக்குவது அப்படியொரு மோசமான எதிர்விளைவு. அதைத்தான் இந்த மின்னஞ்சல் சுட்டிக் காட்டுகிறது.

கலைச் சொல் அகராதி உருவாக்கம், சொற்களை தினசரிப் பயன்பாட்டுக்கு கொண்டு வருதல் என நாம் செய்ய வேண்டிய வேலைகள் நிறைய இருக்கின்றன. பிரச்சினை என்னவென்றால் சொற்களை மொழி பெயர்க்கிறவர்கள் நம்முடைய முழியைப் பெயர்க்கிறார்கள். பெரும்பாலான புதுச் சொற்களை கடப்பாரையை விழுங்கியவனைப் போல உச்சரிக்க வேண்டியிருக்கிறது. மைக்ரோடிப் பென்சில் என்பதை நுண்முனை கரி எழுதுகோல் என்று மொழி பெயர்த்துக் கொடுத்தால் அதை எப்படி தினசரி பயன்பாட்டுக்குக் கொண்டு வருவது? இயல்பான சொற்கள் இல்லாமை, அதனைப் பயன்பாட்டுக்கு கொண்டு வரும் வழிமுறைகளும் அணுகுமுறைகளும் இல்லாமை என நிறையக் குறைகளைச் சுட்டிக்காட்டலாம்.

அரசாங்கம், கல்வியாளர்கள், மொழியியல் அறிஞர்கள், ஊடகங்கள், பொதுமக்கள் என சகலரும் இணைந்து செயல்பட வேண்டியிருக்கிறது. இன்றைக்கு ஆரம்பித்தாலும் கூட சீனர்களையும் ஜப்பானியர்களையும் எட்டிப்பிடிக்க பத்தாண்டு காலம் தேவைப்படலாம். ஆனால் நாம் தொடங்குவதற்கே பத்தாண்டு காலம் ஆகும் என்றுதான் தோன்றுகிறது. பத்தாண்டு காலம் என்பது கூட பேராசைதான்.

5 எதிர் சப்தங்கள்:

சேக்காளி said...

//சொற்களை தினசரிப் பயன்பாட்டுக்கு கொண்டு வருதல்//
இதுதான் இன்றைய அத்தியாவசிய தேவை.
அப்புறம் மற்றவை தானாக நடக்க வாய்ப்புகள் உள்ளன.

Paramasivam said...

//நோய்கள், மருந்துகள், அறிகுறிகள், கணினி சம்பந்தப்பட்ட சொற்கள், தொழில்நுட்பச் சொற்கள் என பல்துறைக் கலைச் சொற்களையும் நாம் ஆங்கிலத்தில்தான் புழக்கத்தில் வைத்திருக்கிறோம். //
உண்மையில் இதற்கான தமிழ் சொற்கள் யாருக்கும் தெரியாது. தெரிந்து இருந்தால், பயன்பாடு அதிகரித்து இருக்கும். தமிழ் நாடு அரசு கடந்த எழுபதுகளில் இருந்து தனி துறை வைத்து இருந்து என்ன பயன்? வருத்தமாக உள்ளது.

வஸாபி said...

ஜப்பானிய மொழியில் புதிதாக அறிமுகப்படுத்தும் தொழில்நுட்பம் அனைத்திற்கும் அறிமுகப்படுத்தப்பட்ட மொழியின் உச்சரிப்பிலேயே தங்கள் மொழியிலும் சொற்கள் அமைக்கிறார்கள்.. உதாரணமாக smart phone , mobile app என்ற சொற்களை ஜப்பானிய மொழியில் சொல்வதானால் சுமாத்டோ ஃபோன், மொபைரு அபுரி.

அதே போல் pen என்ற ஆங்கிலச் சொல்லை 'எழுதுகோல்' என்பதை விட 'பேனா' என்கையில் எளிதாக இருக்கிறது...

Thulasi said...

அருமை மணி.. நான் பனிரெண்டாம் வகுப்பு வரை தமிழ் வழி கல்வி தான் ஆனா படிச்சது கொஞ்சம் மட்டும் தான் நினைவில் இருக்கிறது; அதற்கு மொழியாக்கம் ஒரு காரணம்.. synchronized circuit ன்னு ஒன்ன மொழியாக்கம் பண்ணினது பக்கணுமே...யப்பா..
ஞாபகம் இருக்கிறது ஆரம்ப கால வேலை நாட்களில் டிராகன் க்கு எப்படி தமிழில் சொல்லுறதுன்னு ஒரு ஈமெயில் உரையாடல்... அத படிச்சா விழுந்து விழுந்து சிரிக்கலாம் அப்படி ஒரு creativity (🤔).. இந்த technical சப்ஜெக்ட் மொழியாக்கம் செய்றவங்க கொஞ்சம் நடப்பு மொழியில் இருந்தா எப்பவுமே மறக்காது... microtip pencil க்கு நீங்க போட்டது படிச்சு 5 நிமிசம் ஆகல அனா மறந்து போச்சு.. ☺

சேக்காளி said...

//நுண்முனை கரி எழுதுகோல் என்று மொழி பெயர்த்துக் கொடுத்தால் அதை எப்படி தினசரி பயன்பாட்டுக்குக் கொண்டு வருவது?//
ரூம், கலர்,லீவு போன்ற எளிய வார்த்தைகளை மாற்றி பேசலாமே.தொலைக் காட்சி, தொலை பேசி என்றெல்லாம் சொல்லும் போது அந்நியமாய் தெரியவில்லை தானே.