Jan 24, 2018

ஊர் கூடி...

மென்பொருள் துறையில் உருவாகக் கூடிய அழுத்தங்கள், புதிய சவால்கள், நுட்பங்கள் என்பதைப் பற்றியெல்லாம் எழுதுகிற போது நிறைய மின்னஞ்சல்கள் வரும். விவாதங்களுக்கும் புதிய திறப்புகளுக்குமான மின்னஞ்சல் அவை. அப்படித்தான் பிக் டேட்டா பற்றி எழுதிய போது கீதா சுரேஷ் மின்னஞ்சல் அனுப்பியிருந்தார். அமெரிக்காவில் வசிக்கிறார். பிக்டேட்டாவுக்கான இணைய வகுப்புகளையும் நடத்துகிறார். ‘தமிழில் பிக்டேட்டா பற்றி விரிவாக எழுதுகிறேன்’ என்றார். அப்படி அவர் எழுதுகிற கட்டுரைகளின் தொடர்ச்சி இது. மற்ற கட்டுரைகளைவிடவும் மிகச் சிறப்பாக வந்திருப்பதாக நினைக்கிறேன். வாசித்துவிட்டு கருத்துக்களைப் பகிர்ந்து கொள்ளவும்.

                                                               ***

பெருந்தகவலை (பிக்டேட்டா) கையாளும் போது ஏற்படும் சவால்கள் என்ன?

அளவில் அதிகமான மற்றும் பல வகையான தகவல்களை ஒரு சேரக் கையாளும் போது பல சவால்களை எதிர் கொள்ள வேண்டி இருக்கிறது. சேகரிப்பு, வகை பிரித்தல், பராமரித்தல் என தொழில்நுட்பம் சார்ந்த பல பிரச்சினைகள் இருக்கின்றன. அதனால்தான் வல்லுநர்களுக்குத் தேவை உருவாகிறது.

பெருந்தகவலை எவ்வாறு சேர்த்து வைப்பது ?

இன்றைய நிறுவனங்கள் முன் எப்போதையும் விட அதிகமான தகவல்களை தகவல்களை கையாள வேண்டி இருக்கிறது. உலகம் முழுவதும் கிட்டத்தட்ட 200 கோடி (2 பில்லியன்) மக்கள் இன்டர்நெட்டை பயன் படுத்துகிறார்கள். எல்லா வகையான தொழில்களும் வளர்ந்து வருகின்றன. இதனால் மேலும் மேலும் புதிய தகவல்கள் உருவாகிக் கொண்டேயிருக்கின்றன. இப்படியே போனால் 2020 வருடவாக்கில் கிட்டத்தட்ட 44 ஸிட்டா பைட்டு (zetabyte) அளவு தகவல்கள் உருவாகி இருக்கும்.

1 ZB = 1 Million petabytes = 1Billion Terabytes = 1Trillion Gigabytes (கணக்குப் போட்டால் தலையே சுற்றுகிறது)

ஆக, இந்தப் பெருந்தகவலை எங்கே சேகரிக்கப் போகிறோம்? எப்படிச் சமாளிக்கப் போகிறோம்? இதெல்லாம்தான் பிக்டேட்டா நுட்பங்களின் முன்னால் இருக்கக் கூடிய சவால்கள்.

அதே போலவே, பெருந்தகவலின் மற்றொரு சவால் தகவல் செயலாக்கம் (data processing). தகவல் செயலாக்கம் என்பது வேறொன்றுமில்லை. குப்பையில் இருந்து பொறுக்குமணியைச் சேகரிப்பது மாதிரி. கொட்டிக் கிடக்கும் தகவல்களிலிருந்து பயனுள்ள தகவலை அறிவதற்காக தகவலை ஆய்வு செய்வது, உருமாற்றும் செய்வது போன்ற செயல்பாடுகளை உள்ளடக்கியது.

பெருந்தகவல் பல்வகையான தகவல்களாக (அமைப்புள்ள தகவல் - structured data, ஒளி வடிவிலான தகவல், ஒலி வடிவிலான அல்லது கோப்பு வடிவிலான தகவல்) என கசமுசாவென்று பல வடிவிலும் இருக்கக் கூடும். இவை எந்த ஒழுங்குமற்ற அமைப்பில்லா தகவலாகவும் (unstructured data)) இருக்கலாம். இப்படிக் குப்பையாகக் கொட்டுகிற தகவல்களை ப்ராஸஸ் செய்வதே மலை போன்ற காரியம்தான்.

இதில் இன்னொரு பெரிய பிரச்சினையும் இருக்கிறது. உருவாகும் 90% தகவல் அமைப்பில்லா தகவல் (unstructured data). எந்த ஒழுங்குமில்லாத இந்த அமைப்பில்லா தகவலை அமைப்புள்ள தகவலாக மாற்றினால் மட்டுமே அதிலிருந்து மிகவும் பயனுள்ள அறிவை (knowledge) உருவாக்க முடியும்.

இதை எவ்வாறு செய்வது? ஆரக்கிள் (Oracle), டெராடாட்டா (Teradata) போன்ற பாரம்பரிய (Traditional) டேட்டாபேஸ் மென்பொருள் இதை செய்ய முடியுமா?

பொதுவாக பெருந்தகவலை பகுப்பாய்வு செய்ய பெரிய அளவில் பகுப்பாய்வு/சிபியு (CPU) திறன் தேவைப் படுகிறது. ஆரக்கிள் மாதிரியான பாரம்பரிய டேட்டாபேஸ் மென்பொருட்கள் ஒப்பீட்டளவில் சிறிய தகவல்களை மட்டுமே பகுப்பாய்வு செய்ய பயன்படுகின்றன. இவை வேகமான செயலி (Processor) மற்றும் அதிக மெமரியைப் பயன்படுத்துகின்றன. அதனால் முதலீடு அதிகம். அப்படியே பணத்தைக் கொட்டி முதலீடு செய்தாலும் கூட இருப்பதிலேயே வேகமான செயலியாலும் கூட பெருந்தகவலைப் பகுப்பாய்வு செய்ய முடிவதில்லை.

ஆக, பாரம்பரிய டேட்டாபேஸ் மென்பொருள்களால் பெருந்தகவலை பகுப்பாய்வு செய்ய முடிவதில்லை எனும் போது பெருந்தகவல் பகுப்பாய்வு எவ்வாறு செய்வது?

பரவுக் கணினிச் செய்முறை (Distributed Computing)

பரவுக் கணினிச் செய்முறை என்பது ஒரே கட்டளை நிரலை (ப்ரோக்ராமை) ஒரே நேரத்தில் பல கணினிகளுக்கு வேலையை பிரித்து கொடுத்து, வேலையைச் செய்து முடிப்பதாகும். இது ஒரு பலசாலியால் முடியாத வேலையை ஊர் மக்கள் கூடி ஒரு குழுவாக வெற்றிகரமாக முடிப்பது போன்றதாகும்.


பரவுக் கணினிச் செய்முறைக்கு அதிக விலையுயர்ந்த கணினிகள் தேவை இல்லை. சாதாரண கணினிகள் போதுமானது. இது நிறுவனங்களுக்கான செலவை பெருமளவில் குறைத்து அதிக பயனை தருகிறது.

பரவுக் கணினிச் செய்முறையில் உள்ள சவால்கள் என்ன?

1. பல கணினிகளுக்கு வேலையை பிரித்து கொடுத்து வேலையை ஆரம்பித்த பின் ஒரு கணினியின் செயல் பழுதடைந்து விட்டால், மொத்த வேலையும் பாதிக்கப் படக் கூடாது. அதே சமயம் வேலை தொடர்பான தகவல்களும் தொலைந்து போகக் கூடாது. வேலையின் பயன்முடிவு (result) சரியாகக் கொடுக்கப் பட வேண்டும்.

2. ஒரு கணினியின் பயன்முடிவு மற்ற கணினிகளின் பயன்முடிவுகளோடு சரியான முறையில் சேர்த்து கொடுக்கப் பட வேண்டும்.

3. கணினி வலைப்பின்னல் (network) தொடர்பான சிக்கல்கள், துண்டிப்புகள் கையாளப்பட வேண்டும்.

இந்தச் சவால்களையெல்லாம் சமாளிப்பது எப்படி?

பெருந்தகவல் தொடர்பான மென்பொருள்கள் இந்த சிக்கல்களை திறமையாக கையாள்கின்றன. இவற்றில் ஹடூப் (Hadoop) முன்னணியில் நிற்கிறது. ஹடூப் என்பது ஓபன் சோர்ஸ் (Open source) எனும் வகை மென்பொருள் கூட்டணி (Software Platform). யார் வேண்டுமானாலும் மேம்படுத்தலாம். இது இலவசமாகக் கிடைக்கக் கூடியது. இதனை வாங்குவதற்கு பணம் செலவழிக்க தேவை இல்லை. மேற்சொன்ன பெருந்தகவல்களை ஹடூப் மென்பொருள்கள் மூலமாக சேமிக்கவும் வகைப்படுத்தவும் முடியும். இலவசமாகக் கிடைக்கிறது என்பதால் பல நிறுவனங்களுக்கு கோடிக்கணக்கான டாலர்கள் தொகையை மிச்சப் படுத்த முடிகிறது.

நிறுவனங்கள் ஹடூப் மென்பொருளை உபயோகப் படுத்த முடிவு செய்யும் பொது, அவற்றுக்கு சில சிக்கலான மற்றும் அவசர உதவிகள் பெறுவதற்காக ஹடூப் மென்பொருள் உதவிகளை விற்கும் கிளொட்ரா (Cloudera) அல்லது ஹார்ட்டன்ஒர்க்ஸ் (Hortonworks) நிறுவனங்களுடன் ஒப்பந்தம் செய்து அதற்கு சிறு பணம் செலவு செய்கின்றன. அது ஆரக்கிள் (Oracle), டெரா டாட்டா (Teradata) நிறுவனங்களுக்கு செலவு செய்வதை விட மிகக் குறைவான பணம்.

2005-இல் டக் கட்டிங் (Doug Cutting) மற்றும் மைகேல் சபாரெலா இணைந்து ஹடூப்பை உருவாக்கினர். இதற்கு யாஹூ நிறுவனம் நிதி உதவி வழங்கியது.

2006-இல் யாஹூ நிறுவனம் இதை அபாச்சே (Apache) நிறுவனத்திடம் ஒப்படைத்து ஓபன் சோர்ஸ் (Open source) மென்பொருளாக மாற்றியது.

ஒரு சுவாரசியமான கதை: டக் (Doug)-இன் மகன் ஹடூப் எனும் ஒரு மஞ்சள் யானை பொம்மை வைத்திருந்தான். டக் பல பெயர்கள் யோசித்து விட்டு, கடைசியில் ஹடூப் எனும் பெயரையே வைத்து
விட்டார்.

ஹடூப் எவ்வாறு பரவுக் கணினிச் செய்முறையில் உள்ள சவால்களை கையாள்கிறது?

ஹடூப் பெருந்தகவல்களை கையாள்வதில் ஒரு முன்னணி மென்பொருளாக திகழ்கிறது. ஹடூப் தகவல்களை பல கணினிகளில் பிரித்து சேமித்து வைக்கிறது. பல கணினிகள் ஒன்றாக சேர்த்து ஒரு ஹடூப் திரள் அல்லது கிளஸ்ட்டர் (Cluster) என்று அழைக்க படுகிறது. ஹடூப் தகவல் சேமிப்பு மற்றும் தகவல் செயலாக்கம் இரண்டையும் திறமையாக பல கணினிகளுக்கு பிரித்து கொடுத்து வேலை செய்கிறது. ஹடூப் எந்த ஒரு தகவலையும் 2 அல்லது 3 கணினிகளில் சேமித்து வைக்கிறது. இதனால் ஒரு கணினியின் செயல் பழுதடைந்து விட்டால் அதில் உள்ள தகவல்கள் இழப்பு ஆகாது.

அதே சமயம், ஹடூப் தகவல் செயலாக்கதிலும் ஒரு பாதிப்பும் வராது. ஒரு கணினியின் செயல் பழுதடைந்து விட்டால் அதில் உள்ள தகவல் செயலாக்கங்கள் மற்றொரு கணினியில் ஆரம்பிக்கப்பட்டு அதன் முடிவுகள் மற்ற கணினிகளுடன் சேர்ந்து தரப்படும்.

ஹடூப் திரளில் சில கணினிகளை இணைத்தால், அதற்கு ஏற்றவாறு, அந்த ஹடூப் திரளின் செயல் வேகம் அதிகரிக்கும். ஒரு கணினியின் செயல் பழுதடைந்து விட்டால், ஹடூப் திரளின் செயல் வேகம் சற்று குறையுமே அன்றி, செயல் முடிவுகளில் தவறு எதுவும் நேராது.

ஹடூப் நிரல்களை ஜாவா, ரூபி, பைதான் மொழிகளில் எழுதலாம்.

இந்த பல சிறு கணினிகள் சேர்ந்து ஒரு பெரிய தகவலை கையாளும் ‘கூட்டு முயற்சி’ வித்தையை, நம் வாழ்க்கைக்கும் பொருத்திப் பார்க்கலாம்.

சில சமயம் நாம் தேவை இல்லாமல் நமது பிரச்சனைகளை நம்மை விட பெரிதாக கற்பனை செய்து கொள்கிறோம். நாம் எந்த ஒரு பெரிய பிரச்சினையையும் சிறு பிரிவுகளாக பிரித்தால், ஒவ்வொன்றுக்கும் சில மணி நேரம் ஒதுக்கி அதை தீர்க்கமாக எதிர்கொண்டால் சமாளித்து விடலாம். உதரணத்திற்கு ஹடூப் படிப்பதை சிறு சிறு பகுதிகளாக பிரித்து ஒரு தகுந்த வழிகாட்டி அல்லது நண்பனின் உதவியுடன் எளிதாக படித்து விட முடியும்.

(பிக்டேட்டா கட்டுரைகளை ‘பிக்டேட்டா’ என்ற லேபிளில் க்ளிக் செய்து வாசிக்கலாம்).

geethashdp@gmail.com

12 எதிர் சப்தங்கள்:

Santhosh Kumar said...

This artical has got some technical things not explained properly I will try to explain tomorrow

சேக்காளி said...

நன்றி கீதா சுரேஷ்.

சேக்காளி said...

//This artical has got some technical things not explained properly I will try to explain tomorrow//
ன்னு சந்தோஷ் குமார் சொல்லிருக்காரு.
நல்லது. புதிய விசயங்கள் தொடரட்டும் இடைஞ்சல்களின்றி

சேக்காளி said...

//Distributed Computing//
டொரண்ட் தரவிறக்க செயலை உதாரணமாக கொள்ள முடியுமா?

saravanan sekar said...

இயந்திரம், கருவி, பாய்லர், உயர் அழுத்தகலன் - என்பதே என் வேலை.. பிக் டேட்டா பற்றி நிறைய கேள்விப்படுகிறேன் சமீபத்தில்

IT நண்பர்களோடு நிச்சயம் பகிர்கிறேன், நன்றி

Dany R said...

Excellent translation Geetha! Thanks!!

Vinoth Subramanian said...

Nice attempt of explanation. Keep going.

Dhandayuthapani Kumarasamy said...

Thanks for Geetha. The way you explained the basics about data and how to handle the big data with the hadoop was amazed. Keep explore and teach us.

அன்பே சிவம் said...

யாத்தாடி யாத்தா இதெல்லாம் 'சிட்டுக்குருவி' மூமூளைங்களுக்கு மட்டுமே சிக்கும்.

Jaypon , Canada said...

கனவு மெய்ப்பட வேண்டும்.....!

எத்தனையோ பல முக்கிய நிகழ்வுகள் நம்மைச் சுற்றி நடந்து கொண்டிருகின்றன. ஆண்டாள் சர்ச்சை, உச்ச நீதிமன்ற நீதியரசர்களின் பொறுமல்கள், பேருந்து பயணச்சீட்டின் கடுமையான உயர்வு என எண்ணற்ற நிகழ்வுகள்.

மாணவர்களின் வாழ்க்கையினை மாற்றிட வல்ல கலாபாரதி வேலைகள் கடுமையாக நடந்து கொண்டிருப்பதால் மேற்கண்ட விஷயங்கள் குறித்து கருத்துக்களை(பதிய விரும்பியும்) பதிய இயலவில்லை.

நிற்க, தற்போது 400 வீடியோக்களை (தமிழில்) கலாபாரதி youtube சானலில் பதிவேற்றம் செய்துள்ளோம் என்பதனை மிக மகிழ்வுடன் தெரிவித்துக்கொள்கிறோம்.
அவை வருமாறு...

No Content type Uploaded videos
1 NEET questions- cell cycle and division 11
2 Differential calculus 86
3 Neural control &coordination 27
4 Kinematics exercise problems 22
5 NEET questions- Basics of cell biology 20
6 Chemical coordination and integration 14
7 Cell cycle and division 12
8 cell biology 19
9 Trigonometry 91
10 Kinematics 51
11 General science(videos on interesting facts) 07
12 Solved problems in Kinematics 15
13 Origin of life 27
Total 402

இது தமிழ் பேசும் நல்லுலகத்திற்கு மிகுந்த உதவியாக இருக்கும் என்பது எம் குழுவினரின் ஆழ்ந்த நம்பிக்கை.

மேல்நிலை மாணவர்கள் மட்டுமன்றி diploma படிக்கும் மாணவர்கள், இளங்கலை(B.Sc) மாணவர்கள், பொறியியற் கல்லூரி மாணவர்கள், போட்டித் தேர்வுகளுக்கு தயாராகும் மாணவர்கள், மிக முக்கியமாக சொந்தமாக படிக்க விரும்பும் நண்பர்கள் முதலிய அனைவருக்கும் இந்த வீடியோக்கள் பெரும் உதவியாக இருக்கும் என நம்புகிறோம்.

ஆங்கிலத்தில் இருப்பதை போன்று உயர்தர அறிவியல் மற்றும் கணித வீடியோ பதிவுகள் தமிழில் இல்லை என்ற வருத்தம் எனக்கும் என் நண்பர்கள் பலருக்கும் உண்டு. கலாபாரதி academy youtube சேனல் அக்குறையினை போக்கும்.

எனினும் நம்முடைய கலாபாரதி academy youtube சேனல் நம் தமிழர்கள் அனைவரின் இல்லங்களையும் சென்றடைய வேண்டும்.

ஊடகங்கள் ப்ரேக்கிங் நியூஸ் இல் மும்முரமாக இருப்பதால் கலாபாரதி academy youtube சேனல் ஐ மக்களிடம் நிச்சயமாக கொண்டு செல்லப் போவதில்லை.

நீட் தேர்வினால் அடுத்து யாரேனும் தற்கொலை செய்து கொண்டால் மட்டுமே ஊடகங்கள் பரபரப்பாகும்.

எனவே, நண்பர்களே, எவ்வாறு விக்கிபீடியா போன்றவை மக்களிடம் மக்களால் விரிவாக கொண்டு செல்லப்பட்டதோ, அதைப் போன்றே கலாபாரதி academy youtube சேனல் நம் அனைவராலும் தமிழ் இல்லங்கள் அனைத்திற்கும் கொண்டு செல்லப்பட வேண்டும்.

பணம் இருந்தால் மட்டுமே தரமாக படிக்கமுடியும் என அரசு சொல்கின்றது.

இல்லை என்கின்றோம் நாம்...!!!

கல்வி நம் பிறப்புரிமை என்கின்றோம் நாம்...!!!

ஒருவர் கற்பதை பணம் தீர்மானிக்க கூடாது என உறுதியாக கூறுகின்றோம்...!!!

கலாபாரதி academy youtube சேனல்ஐ நம் தமிழ் இல்லங்கள் அனைத்திற்கும் கொண்டு செல்லுங்கள்....!!!

கனவு மெய்ப்பட வேண்டும்.....!

வாழ்த்துகள் கோடி...!

அன்புடன் யோகராஜன்...
கலாபாரதி அகடமி.
http://www.youtube.com/c/KalabharathiAcademy

டி.என்.முரளிதரன் -மூங்கில் காற்று said...

பிக் டேட்டா பற்றிய தகவல்கள் பயனுள்ளவை எளிய தமிழில் என்னைப் போன்றோர் புரிந்துக் கொள்ளும் வகையில் கட்டுரை அமைந்திருந்தது. என் மகனுக்கு பரிந்துரைக்கிறேன். மற்ற கட்டுரைகளையும் வாசிக்கிறேன்.

சேக்காளி said...

கலாபாரதி குழுவினருக்கு நன்றி