Nov 7, 2017

புதுசா படிக்கலாம் - 2

ஹடூப், பெருந்தகவல் (Bigdata) பற்றியதொரு விரிவான உரையாடலை கீதா சுரேஷின் கட்டுரைகள் சாத்தியப்படுத்தியிருக்கின்றன. அவரிடம் கேட்கப்பட்ட கேள்விகளுக்கு உடனடியாக மின்னஞ்சலில் பதில் அனுப்பியிருக்கிறார். அது இன்னமும் பார்வையை விசாலமாக்குகிறது. புதிய தொழில்நுட்பங்கள் சார்ந்த இத்தகைய உரையாடல்கள் தமிழில் அவசியம் எனத் தோன்றுகிறது.  

உரையாடலில் கலந்து கொண்ட அனைவருக்கும் நன்றி.

                                                                     ***
ஹடூப் பிக்டேட்டா என்பது குறித்து எளிய தமிழில் விளக்குங்கள். பிக்டேட்டா என்பது பெருந்தகவல். கொட்டிக் கிடக்கும் தகவல் கடலிலிருந்து சரியான தகவல்களை எடுப்பதற்கு உதவும் நுட்பம்தான் ஹடூப்பா? ஹடூப் போல வேறு என்ன தொழில்நுட்பங்கள் இருக்கின்றன?

பிக்டேட்டா என்பது பெருந்தகவல். பொதுவாக பெருந்தகவலைப் பொறுத்தவரையிலும் மூன்று கூறுகள் உள்ளன. 

அ) Volume (அளவில் அதிகமான தகவல்- உதாரணமாக மக்கட்தொகை, இனப்பிரிவுகள் மாதிரியானவை)

ஆ) Velocity (வேகமாக வளரக்கூடிய தகவல்- உதாரணமாக பங்குச் சந்தை குறித்தான விவரங்கள். மிக விரைவாகக் கிரகித்து முடிவுகளை எடுக்க வேண்டும்)

இ) Variety (பல்வகையான தகவல் - நோயாளிகள், மருந்துகள், எந்த நிறுவனத்தில் கிடைக்கும், அதன் கலவை என்ன (அல்லது) ஒளி வடிவிலான தகவல், ஒலி வடிவிலான அல்லது கோப்பு வடிவிலான தகவல்)

பல நிறுவனங்களுக்கும் அவர்களின் செயல்பாடுகளைப் பொறுத்து இந்த மூன்று வகையிலான கூறுகளுமோ அல்லது இவற்றில் ஏதேனும் ஒன்று அல்லது இரண்டு கூறுகளோ தேவைப்படலாம். உதாரணமாகச் சொன்னால் தேர்தல் கருத்துக் கணிப்புகளை நடத்துகிற நிறுவனத்துக்கு மக்கட்தொகை போன்ற விவரமும் (Volume), சாதிவாரியான மக்களின் எண்ணிக்கை, யாருக்கு எப்பொழுது எப்படி வாக்களித்தார்கள் உள்ளிட்ட விவரங்களும் (Variety) தேவைப்படும்.  

இத்தகைய தகவல்களை எங்கே சேகரித்து வைப்பது?

தகவல்களைச் சேகரித்து வைக்க வைக்க ஆரக்கிள் (Oracle), டெரா டாட்டா (Teradata) போன்ற டேட்டாபேஸ் மென்பொருள் தேவை படுகிறது - இவை தகவல்களின் அளவை பொறுத்து அதிக பணம் கொடுத்து வாங்க வேண்டிய மென்பொருள்கள். இப்பொழுது பொதுவான டேட்டாபேஸ் சந்தைகளில் கிடைக்கின்றன. Cloud computing என்று இன்னொரு சூடான களம் அது. 

ஹடூப் என்பது என்ன?

ஹடூப் என்பது ஓபன் சோர்ஸ் (Open source) எனும் வகை மென்பொருள். யார் வேண்டுமானால் மேம்படுத்தலாம். இது இலவசமாகக் கிடைக்கக் கூடியது. இதனை வாங்குவதற்கு பணம் செலவழிக்க தேவை இல்லை. மேற்சொன்ன பெருந்தகவல்களை ஹடூப் மென்பொருள்கள் மூலமாக சேமிக்கவும் வகைப்படுத்தவும் முடியும். இலவசமாகக் கிடைக்கிறது என்பதால் பல நிறுவனங்களுக்கு கோடிக்கணக்கான டாலர்கள் தொகையை மிச்சப் படுத்த முடிகிறது.

எல்லா நிறுவனங்களும் வலைத்தலங்கள் வைத்திருக்கின்றன. இந்த வலைத்தலங்கள் மூலம் எப்படி வியாபாரத்தை அதிகரிக்க முடியும் என்று முயற்சி செய்து கொண்டிருக்கின்றன. ஆனால் இதை முறையாகச் சேமித்து முறையாக வகைப்படுத்தி அதில் இருந்து பயனுள்ள விஷயங்களை எடுக்கும் சூட்சுமத்தை வெகு சில நிறுவனங்களே கற்று வைத்திருக்கின்றன.

நிறுவனங்களுக்கு ஏன் பெருந் தகவல் தேவை படுகிறது?

பெரும் நிறுவனங்கள் தங்கள் வாடிக்கையாளர்களுக்கு எப்படி உதவுவது, அதன் வழியாக எப்ப்டி தங்களின் வருமானத்தை அதிகப் படுத்துவது என்று யோசிக்கின்றன. அது குறித்த முடிவுகளை தங்கள் உள்ளுணர்வு மூலம் மட்டுமே எடுக்க முனைவதில்லை. மாறாக கையில் இருக்கும் தகல்வல்களின் உதவியுடன் அது குறித்தான முடிவுகளை எடுக்கின்றன.

உதாரணத்திற்கு அமேசான் நிறுவனம் வலைதளத்தின் மூலம் மக்கள் புத்தகங்கள் வாங்குகின்றனர். அமேசான் நிறுவனம் தன் வலைத்தளத்தில் வாங்கும் ஒவ்வொரு புத்தகம் குறித்த விவரங்களை ஹடூப் போன்ற மென்பொருள்களில் சேமித்து வைக்கின்றன. பின்னர் அது குறித்த புள்ளிவிவரங்களை சில மென்பொருள்கள் மூலம் சேகரிக்கின்றனர். புத்தகம் வாங்குபவர்களின் ரசனையை குறித்து ஆராய்ந்து, புத்தகங்களை சில குழுக்களாக பிரிக்கின்றன. நீங்கள் ஒரு புத்தகம் வாங்கும் போது, அந்த புத்தகம் சார்ந்த ரசனை குழுவில் உள்ள மற்ற புத்தகங்களை அமேசான் உங்களுக்கு பரிந்துரை செய்கிறது. இந்த பரிந்துரை செய்யும் மென்பொருள் மட்டுமே அமேசானுக்கு ஆரம்ப களங்களில் மிக பெரிய பலமாக இருந்து வாடிக்கையாளர்களை மிக கவர்ந்திருக்கிறது. இதனால் அதன் வருமானமும் பெருகியது. இந்த பரிந்துரை செய்யும் மென்பொருளை, ஹடூப் மற்றும் சில மென்பொருள் மூலம் உருவாக்கி விட முடியும்.

ஹடூப் மென்பொருள் இலவசமாகக் கிடைக்கிறதா? காசு கொடுத்து வாங்க வேண்டுமா? கணினிகளில் நாமாகவே நிறுவ முடியுமா?

ஹடூப் ஓபன் சோர்ஸ் (Open source) எனும் வகை மென்பொருள்கள், இதனை வாங்குவதற்கு பணம் செலவழிக்க தேவை இல்லை. இலவசமாக இணையத்தில் இருந்து இறக்குமதி செய்து கொள்ளலாம். நம் மடிக்கணினிகளில் நாமாகவே நிறுவ முடியும்.

நிறுவனங்கள் ஹடூப் மென்பொருளை உபயோகப் படுத்த முடிவு செய்யும் பொது, அவற்றுக்கு சில சிக்கலான மற்றும் அவசர உதவிகள் பெறுவதற்காக ஹடூப் மென்பொருள் உதவிகளை விற்கும் கிளௌடெரா (Cloudera ) அல்லது ஹார்ட்டன்ஒர்க்ஸ் (Hortonworks) நிறுவனங்களுடன் ஒப்பந்தம் செய்து அதற்கு சிறு பணம் செலவு செய்வர். அது ஆரக்கிள் (Oracle), டெரா டாட்டா (Teradata) நிறுவனங்களுக்கு செலவு செய்வதை விட மிக குறைவான பணம் தான் ஆகும்.

கருத்துக்களை அல்லது கேள்விகளை பின்னூட்டமிடுங்கள். விரிவாக உரையாடவும் தகவல்களைப் பகிர்ந்து கொள்ளவும் தயாராக இருக்கிறேன்.

geethashdp@gmail.com


                                                        ***

ரவீந்திரன் ராமசாமி ஃபேஸ்புக்கில் எழுதிய பின்னூட்டம்:

1. Hadoop distributed File system (HDFS) என்பது ஒரு கோப்பு அமைப்புமுறை. பெருந்தரவை பிரித்து, வேகமாக தகவல் பரிவர்த்தனை செய்யும்படி தகவல் கோப்புகளை சேமித்து வைப்பதே ஹடூப்.

2. அது நமது தேவையைப் பொருத்தது. உதாரணமாக உங்களது இன்பாக்ஸில் உள்ள மொத்த ஈமெயில்களில் உள்ள தகவல்களை ஒரு வார்த்தை கூட விடாமல் அப்படியே எடுத்து சேமித்தால் கூட அது பெருந்தரவு தான். அந்த தகவலை வைத்து உங்களுக்கு வரும் மெயில்களின் pattern, அமேசானில் எந்தக் கிழமையில் நீங்கள் அதிகம் வாங்குகிறீர்கள், எத்தனை கிலோமீட்டர் ஆண்டுதோறும்
பயணம் செய்திருக்கிறீர்கள் என்பது வரை கணிக்கலாம்.

3. மகிழ்ச்சியான விசயம். பெருந்தரவு தொடர்பான apache foundationன் அத்தனை மென்பொருள்களும் இலவசம். நாமாகவே நிறுவலாம். உதவிக்கு youtube, stack overflow, அந்தந்த மென்பொருள்களின் forums இருக்கிறது. 

பெருந்தரவு என்பது சமுத்திரம் போன்றது. தரவுகளை சேகரிப்பது, தரவுகளை ஹடூப் சர்வருக்கு அனுப்புவது, ஹடூப் சர்வரை மேற்பார்வையிடுவது, ஹடூப்பில் இருந்து தேவையான தகவல்களை எடுப்பது, தகவல்களை விருப்பமான வடிவில் காண்பது என ஏகப்பட்ட வேலைகள் பெருந்தரவு உலகில் நடக்கிறது. ஒவ்வொரு பணிக்கும் பல மென்பொருள்கள் இருக்கின்றன. எல்லாவற்றையும் கற்றுக்கொள்வது கடினம். ஏற்கனவே இருக்கும் அனுபவத்தை வைத்து ஏதாவது ஒன்றை தேர்ந்தெடுத்து கற்றுக் கொள்ளலாம்.

4 எதிர் சப்தங்கள்:

Asok said...

Sorry, If I will type tamil, it would take time, so I am writing in English.

Hadoop is next level of Datawarehousing. If we do not know about the business knowledge and analytics knowledge, still we are just a developer, we can keep up our job but we cannot make more money. If you learn Data scientist and know more about analytic techniques, you can make real money. Lot of free online documents and tools are available, Cloudera.com, udacity.com etc.

Geetha Suresh said...

Thanks Mani for publishing this article. You can send if you have have any other questions to geethashdp@gmail.com

You can check the Hadoop/Hive training at the site learnhadoopfast.com, I cover all aspects of Hadoop training as well as how to get the job after the training.

Sundar Kannan said...

hi ,

I'm an Oracle DBA, want to improve my skills on Big Data.

Is there something like hadoop DBA ?
Which course/track I can take on to improve my skills?? (to be precisely)

Thanks in advance

raja said...

இன்னும் Hadoop ல் தகவல் பாதுகாப்பு பெரிய தலைவலியாக இருக்கிறது. இலவசம்தான், ஆனால் நமக்கு எதை தேர்ந்தெடுப்பது என்பதில் அனுபவம் வாய்ந்தவர்களே திணறுவார்கள். நான் சொல்வது Hadoop வழங்கும் கம்பெனிகளை பற்றி.

கீதா சுரேஷின் தளத்தை பார்த்தேன். அவருக்கு இந்த துறையில் எந்த அளவு experience இருக்கிறது என்று குறிப்பிட பட வில்லை. தகவல்கள் மேம்போக்காக இல்லாமல் விரிவாக குடுத்தால் நல்லது.

பொதுவாக அந்த துறையில் வேலை செய்து கொண்டு பயிற்சி குடுப்பவர்களிடம் படித்தால் மிகவும் நல்லது. படித்து முடித்து வேலை தேடும் மாணவர்களுக்கு Hadoop மிகவும் பயனளிக்கும். ஆரம்ப நிலை வேலைகளுக்கு ஜாவா தெரிய வேண்டும் என்று அவசியமில்லை. SQL நன்கு தெரிந்திருக்க வேண்டும்.