உள்ளடக்கம்
- ஹடூப் அதன் தொடக்கத்தை எவ்வாறு பெற்றார்?
- ஹடூப்பைப் பற்றி என்ன முக்கியம்?
- படிக்கும்போது ஸ்கீமா என்றால் என்ன?
- ஹைவ் என்றால் என்ன?
- ஹடூப் எந்த வகையான தரவை பகுப்பாய்வு செய்கிறார்?
- ஹடூப்பின் நிஜ உலக உதாரணத்தை நீங்கள் கொடுக்க முடியுமா?
- ஹடூப் ஏற்கனவே வழக்கற்றுப் போய்விட்டதா அல்லது மார்பிங் செய்கிறாரா?
ஆதாரம்: Pressureua / Dreamstime.com
எடுத்து செல்:
பல ஆண்டுகளாக தரவை பகுப்பாய்வு செய்ய ஹடூப் உதவுகிறார், ஆனால் இதைப் பற்றி உங்களுக்குத் தெரியாத சில விஷயங்களை விட அதிகமாக இருக்கலாம்.
ஹடூப் என்றால் என்ன? இது ஒரு மஞ்சள் பொம்மை யானை. நீங்கள் எதிர்பார்த்தது அல்லவா? இது எப்படி: டக் கட்டிங் - இந்த திறந்த மூல மென்பொருள் திட்டத்தின் இணை உருவாக்கியவர் - தனது பொம்மை யானை ஹடூப் என்று அழைக்கப்பட்ட தனது மகனிடமிருந்து பெயரைக் கடன் வாங்கினார். சுருக்கமாக, ஹடூப் என்பது அப்பாச்சி மென்பொருள் அறக்கட்டளையால் உருவாக்கப்பட்ட ஒரு மென்பொருள் கட்டமைப்பாகும், இது தரவு-தீவிரமான, விநியோகிக்கப்பட்ட கம்ப்யூட்டிங்கை உருவாக்க பயன்படுகிறது. மற்றொரு கடவுச்சொல் வாசகர்களில் அதன் முக்கிய அங்கமாக ஒருபோதும் போதுமானதாகத் தெரியவில்லை: பெரிய தரவு. இந்த தனித்துவமான, இலவசமாக உரிமம் பெற்ற மென்பொருளைப் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டிய ஏழு விஷயங்கள் இங்கே.ஹடூப் அதன் தொடக்கத்தை எவ்வாறு பெற்றார்?
பன்னிரண்டு ஆண்டுகளுக்கு முன்பு, கூகிள் அது சேகரிக்கும் தரவுகளை கையாள ஒரு தளத்தை உருவாக்கியது. நிறுவனம் பெரும்பாலும் செய்வது போலவே, கூகிள் அதன் வடிவமைப்பை இரண்டு ஆவணங்களின் வடிவத்தில் மக்களுக்கு வழங்கியது: கூகிள் கோப்பு முறைமை மற்றும் மேப்ரூட்யூஸ்.அதே நேரத்தில், டக் கட்டிங் மற்றும் மைக் கஃபரெல்லா ஆகியோர் புதிய தேடுபொறியான நட்சில் பணிபுரிந்து வந்தனர். பெரிய அளவிலான தரவை எவ்வாறு கையாள்வது என்பதில் இருவரும் சிரமப்பட்டுக் கொண்டிருந்தனர். இரண்டு ஆராய்ச்சியாளர்களும் கூகிளின் ஆவணங்களைப் பெற்றனர். கட்டிங் மற்றும் கஃபரெல்லாவை ஒரு சிறந்த கோப்பு முறைமை மற்றும் தரவைக் கண்காணிக்கும் ஒரு வழியாக அறிமுகப்படுத்துவதன் மூலம் அந்த அதிர்ஷ்டமான குறுக்குவெட்டு எல்லாவற்றையும் மாற்றியது, இறுதியில் ஹடூப்பை உருவாக்க வழிவகுத்தது.
ஹடூப்பைப் பற்றி என்ன முக்கியம்?
இன்று, தரவுகளை சேகரிப்பது முன்னெப்போதையும் விட எளிதானது. இந்த எல்லா தரவையும் வைத்திருப்பது பல வாய்ப்புகளை அளிக்கிறது, ஆனால் சவால்களும் உள்ளன:- அதிக அளவு தரவு செயலாக்கத்திற்கு புதிய முறைகள் தேவை.
- கைப்பற்றப்பட்ட தரவு கட்டமைக்கப்படாத வடிவத்தில் உள்ளது.
அடுத்து, நிலையான தொடர்புடைய தரவுத்தள அமைப்புகளால் கையாள முடியாத வடிவங்களில் கட்டமைக்கப்படாத தரவு அல்லது தரவை அவர்கள் சமாளிக்க வேண்டியிருந்தது. கட்டிங் மற்றும் கஃபரெல்லா எந்தவொரு தரவையும் கொண்டு செயல்பட ஹடூப்பை வடிவமைத்தன: கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத, படங்கள், ஆடியோ கோப்புகள் கூட. இது ஏன் முக்கியமானது என்பதை இந்த கிளவுட்ரா (ஹடூப் ஒருங்கிணைப்பாளர்) வெள்ளை அறிக்கை விளக்குகிறது:
- "உங்கள் தரவுத்தளங்களில் உள்ளவை மட்டுமல்லாமல், உங்கள் எல்லா தரவையும் பயன்படுத்தக்கூடியதாக மாற்றுவதன் மூலம், மறைக்கப்பட்ட உறவுகளை வெளிக்கொணரவும், எப்போதுமே எட்டாத பதில்களை வெளிப்படுத்தவும் ஹடூப் உங்களை அனுமதிக்கிறது. ஹன்ச் தரவுகளுக்குப் பதிலாக, ஹன்ச்ஸுக்குப் பதிலாக அதிக முடிவுகளை எடுக்கத் தொடங்கலாம் மாதிரிகள் மற்றும் சுருக்கங்கள் மட்டுமின்றி முழுமையான தரவுத் தொகுப்புகளில். "
படிக்கும்போது ஸ்கீமா என்றால் என்ன?
முன்னர் குறிப்பிட்டபடி, ஹடூப்பின் நன்மைகளில் ஒன்று கட்டமைக்கப்படாத தரவைக் கையாளும் திறன் ஆகும். ஒரு விதத்தில், அது "சாலையில் கேனை உதைப்பது." இறுதியில் தரவு பகுப்பாய்வு செய்ய ஒருவித கட்டமைப்பு தேவைப்படுகிறது.அங்குதான் வாசிப்புத் திட்டம் நடைமுறைக்கு வருகிறது. தரவு எந்த வடிவத்தில் உள்ளது, தரவை எங்கே கண்டுபிடிப்பது (தரவு பல சேவையகங்களில் சிதறிக்கிடக்கிறது என்பதை நினைவில் கொள்ளுங்கள்), மற்றும் தரவுக்கு என்ன செய்ய வேண்டும் - ஒரு எளிய பணி அல்ல. ஒரு ஹடூப் அமைப்பில் தரவைக் கையாளுவதற்கு வணிக ஆய்வாளர், புள்ளிவிவர நிபுணர் மற்றும் ஜாவா புரோகிராமர் ஆகியோரின் திறன்கள் தேவை என்று கூறப்படுகிறது. துரதிர்ஷ்டவசமாக, அந்த தகுதிகளுடன் பலர் இல்லை.
ஹைவ் என்றால் என்ன?
ஹடூப் வெற்றிபெறப் போகிறதென்றால், தரவுகளுடன் பணிபுரிவது எளிமைப்படுத்தப்பட வேண்டும். எனவே, திறந்த மூல கூட்டம் வேலைக்கு வந்து ஹைவ் உருவாக்கியது:- "ஹைவ் இந்த தரவுகளில் கட்டமைப்பைத் திட்டமிடுவதற்கும், ஹைவ் க்யூல் எனப்படும் SQL போன்ற மொழியைப் பயன்படுத்தி தரவை வினவுவதற்கும் ஒரு பொறிமுறையை ஹைவ் வழங்குகிறது. அதே நேரத்தில் இந்த மொழி பாரம்பரிய வரைபடத்தை அனுமதிக்கிறது / புரோகிராமர்களை தங்கள் தனிப்பயன் மேப்பர்கள் மற்றும் குறைப்பாளர்களை சிரமத்திற்குள்ளாக்கும்போது செருக அனுமதிக்கிறது. இந்த தர்க்கத்தை HiveQL இல் வெளிப்படுத்த இயலாது. "
ஹைவ் இரு உலகங்களிலும் சிறந்ததை செயல்படுத்துகிறது: SQL கட்டளைகளை நன்கு அறிந்த தரவுத்தள பணியாளர்கள் தரவை கையாள முடியும், மேலும் வாசிப்பு செயல்பாட்டில் ஸ்கீமாவை அறிந்த டெவலப்பர்கள் தனிப்பயனாக்கப்பட்ட வினவல்களை இன்னும் உருவாக்க முடியும்.
ஹடூப் எந்த வகையான தரவை பகுப்பாய்வு செய்கிறார்?
வலைத்தளங்களை மேம்படுத்துவதற்காக வலை பதிவுகள் மற்றும் வலை போக்குவரத்தை பகுப்பாய்வு செய்வது, வலை பகுப்பாய்வு என்பது முதலில் நினைவுக்கு வருகிறது. எடுத்துக்காட்டாக, நிச்சயமாக வலை பகுப்பாய்வுகளில் உள்ளது, நிறுவனம் குவிக்கும் தரவின் டெராபைட்டுகளின் மூலம் வரிசைப்படுத்த ஹடூப்பைப் பயன்படுத்துகிறது.நிறுவனங்கள் ஆபத்து பகுப்பாய்வு, மோசடி கண்டறிதல் மற்றும் வாடிக்கையாளர் தளப் பிரிவு ஆகியவற்றைச் செய்ய ஹடூப் கிளஸ்டர்களைப் பயன்படுத்துகின்றன. பயன்பாட்டு நிறுவனங்கள் தங்கள் மின் கட்டத்திலிருந்து சென்சார் தரவை பகுப்பாய்வு செய்ய ஹடூப்பைப் பயன்படுத்துகின்றன, மேலும் அவை மின்சார உற்பத்தியை மேம்படுத்த அனுமதிக்கின்றன. இலக்கு, 3 எம் மற்றும் மெட்ரானிக்ஸ் போன்ற ஒரு பெரிய நிறுவனங்கள் தயாரிப்பு விநியோகம், வணிக இடர் மதிப்பீடுகள் மற்றும் வாடிக்கையாளர்-அடிப்படை பிரிவு ஆகியவற்றை மேம்படுத்த ஹடூப்பைப் பயன்படுத்துகின்றன.
ஹடூப்பிலும் பல்கலைக்கழகங்கள் முதலீடு செய்யப்படுகின்றன. மென்பொருளில் உள்ள செயின்ட் தாமஸ் பட்டதாரி திட்டங்களின் இணை பேராசிரியரான பிராட் ரூபின், தனது ஹடூப் நிபுணத்துவம் பல்கலைக்கழகத்தின் ஆராய்ச்சி குழுக்களால் தொகுக்கப்பட்ட ஏராளமான தரவுகளை வரிசைப்படுத்த உதவுகிறது என்று குறிப்பிட்டார்.
ஹடூப்பின் நிஜ உலக உதாரணத்தை நீங்கள் கொடுக்க முடியுமா?
சிறந்த அறியப்பட்ட எடுத்துக்காட்டுகளில் ஒன்று டைம்ஸ்மச்சின். நியூயார்க் டைம்ஸ் முழு பக்க செய்தித்தாள் TIFF படங்கள், தொடர்புடைய மெட்டாடேட்டா மற்றும் 1851 முதல் 1922 வரையிலான கட்டுரை ஆகியவற்றின் தொகுப்பைக் கொண்டுள்ளது, இது டெராபைட் தரவைக் கொண்டுள்ளது. NYT இன் டெரெக் கோட்ஃப்ரிட், EC2 / S3 / Hadoop அமைப்பு மற்றும் சிறப்பு குறியீட்டைப் பயன்படுத்தி ,:- "405,000 மிகப் பெரிய டிஐஎஃப்எஃப் படங்கள், எஸ்ஜிஎம்எல்லில் 3.3 மில்லியன் கட்டுரைகள் மற்றும் டிஐஎஃப்எப்களில் செவ்வக பகுதிகளுக்கு கட்டுரைகளை மேப்பிங் செய்யும் 405,000 எக்ஸ்எம்எல் கோப்புகள். இந்தத் தரவு மிகவும் வலை நட்பு 810,000 பிஎன்ஜி படங்கள் (சிறு உருவங்கள் மற்றும் முழு படங்கள்) மற்றும் 405,000 ஜாவாஸ்கிரிப்ட் கோப்புகளாக மாற்றப்பட்டது. "
அமேசான் வலை சேவைகள் கிளவுட்டில் சேவையகங்களைப் பயன்படுத்தி, கோட்ஸ்ஃப்ரிட் டைம்ஸ்மச்சினுக்குத் தேவையான எல்லா தரவையும் 36 மணி நேரத்திற்குள் செயலாக்க முடிந்தது என்று குறிப்பிட்டார்.
ஹடூப் ஏற்கனவே வழக்கற்றுப் போய்விட்டதா அல்லது மார்பிங் செய்கிறாரா?
ஹடூப் இப்போது ஒரு தசாப்தத்திற்கும் மேலாக உள்ளது. அது வழக்கற்றுப் போய்விட்டது என்று பலர் கூறுகிறார்கள். ஒரு நிபுணர், டாக்டர் டேவிட் ரிக்கோ, "ஐடி தயாரிப்புகள் குறுகிய காலம். நாய் ஆண்டுகளில், கூகிள்ஸ் தயாரிப்புகள் சுமார் 70, ஹடூப் 56 ஆகும்."ரிக்கோ சொல்வதில் சில உண்மை இருக்கலாம். ஹடூப் ஒரு பெரிய மாற்றத்தை மேற்கொள்கிறார் என்று தெரிகிறது. இதைப் பற்றி மேலும் அறிய, ரூபின் என்னை ஒரு இரட்டை நகரங்களின் ஹடூப் பயனர் குழு கூட்டத்திற்கு அழைத்தார், மேலும் விவாதத்தின் தலைப்பு YARN அறிமுகம்:
- "அப்பாச்சி ஹடூப் 2 ஒரு புதிய மேப்ரூட் எஞ்சினை உள்ளடக்கியது, இது முந்தைய செயல்படுத்தலை விட சிறந்த அளவிடுதல் மற்றும் வள பயன்பாடு உள்ளிட்ட பல நன்மைகளைக் கொண்டுள்ளது. புதிய செயல்படுத்தல் YARN எனப்படும் விநியோகிக்கப்பட்ட பயன்பாடுகளை இயக்குவதற்கான பொது வள மேலாண்மை அமைப்பில் கட்டப்பட்டுள்ளது."