ஹடூப் பற்றி தெரிந்து கொள்ள வேண்டிய 7 விஷயங்கள்

நூலாசிரியர்: Eugene Taylor
உருவாக்கிய தேதி: 8 ஆகஸ்ட் 2021
புதுப்பிப்பு தேதி: 10 மே 2024
Anonim
5 நிமிடத்தில் ஹடூப் | ஹடூப் என்றால் என்ன? | ஹடூப் அறிமுகம் | ஹடூப் விளக்கினார் |Simplilearn
காணொளி: 5 நிமிடத்தில் ஹடூப் | ஹடூப் என்றால் என்ன? | ஹடூப் அறிமுகம் | ஹடூப் விளக்கினார் |Simplilearn

உள்ளடக்கம்


ஆதாரம்: Pressureua / Dreamstime.com

எடுத்து செல்:

பல ஆண்டுகளாக தரவை பகுப்பாய்வு செய்ய ஹடூப் உதவுகிறார், ஆனால் இதைப் பற்றி உங்களுக்குத் தெரியாத சில விஷயங்களை விட அதிகமாக இருக்கலாம்.

ஹடூப் என்றால் என்ன? இது ஒரு மஞ்சள் பொம்மை யானை. நீங்கள் எதிர்பார்த்தது அல்லவா? இது எப்படி: டக் கட்டிங் - இந்த திறந்த மூல மென்பொருள் திட்டத்தின் இணை உருவாக்கியவர் - தனது பொம்மை யானை ஹடூப் என்று அழைக்கப்பட்ட தனது மகனிடமிருந்து பெயரைக் கடன் வாங்கினார். சுருக்கமாக, ஹடூப் என்பது அப்பாச்சி மென்பொருள் அறக்கட்டளையால் உருவாக்கப்பட்ட ஒரு மென்பொருள் கட்டமைப்பாகும், இது தரவு-தீவிரமான, விநியோகிக்கப்பட்ட கம்ப்யூட்டிங்கை உருவாக்க பயன்படுகிறது. மற்றொரு கடவுச்சொல் வாசகர்களில் அதன் முக்கிய அங்கமாக ஒருபோதும் போதுமானதாகத் தெரியவில்லை: பெரிய தரவு. இந்த தனித்துவமான, இலவசமாக உரிமம் பெற்ற மென்பொருளைப் பற்றி நீங்கள் தெரிந்து கொள்ள வேண்டிய ஏழு விஷயங்கள் இங்கே.

ஹடூப் அதன் தொடக்கத்தை எவ்வாறு பெற்றார்?

பன்னிரண்டு ஆண்டுகளுக்கு முன்பு, கூகிள் அது சேகரிக்கும் தரவுகளை கையாள ஒரு தளத்தை உருவாக்கியது. நிறுவனம் பெரும்பாலும் செய்வது போலவே, கூகிள் அதன் வடிவமைப்பை இரண்டு ஆவணங்களின் வடிவத்தில் மக்களுக்கு வழங்கியது: கூகிள் கோப்பு முறைமை மற்றும் மேப்ரூட்யூஸ்.

அதே நேரத்தில், டக் கட்டிங் மற்றும் மைக் கஃபரெல்லா ஆகியோர் புதிய தேடுபொறியான நட்சில் பணிபுரிந்து வந்தனர். பெரிய அளவிலான தரவை எவ்வாறு கையாள்வது என்பதில் இருவரும் சிரமப்பட்டுக் கொண்டிருந்தனர். இரண்டு ஆராய்ச்சியாளர்களும் கூகிளின் ஆவணங்களைப் பெற்றனர். கட்டிங் மற்றும் கஃபரெல்லாவை ஒரு சிறந்த கோப்பு முறைமை மற்றும் தரவைக் கண்காணிக்கும் ஒரு வழியாக அறிமுகப்படுத்துவதன் மூலம் அந்த அதிர்ஷ்டமான குறுக்குவெட்டு எல்லாவற்றையும் மாற்றியது, இறுதியில் ஹடூப்பை உருவாக்க வழிவகுத்தது.

ஹடூப்பைப் பற்றி என்ன முக்கியம்?

இன்று, தரவுகளை சேகரிப்பது முன்னெப்போதையும் விட எளிதானது. இந்த எல்லா தரவையும் வைத்திருப்பது பல வாய்ப்புகளை அளிக்கிறது, ஆனால் சவால்களும் உள்ளன:

  • அதிக அளவு தரவு செயலாக்கத்திற்கு புதிய முறைகள் தேவை.
  • கைப்பற்றப்பட்ட தரவு கட்டமைக்கப்படாத வடிவத்தில் உள்ளது.
கட்டமைக்கப்படாத தரவின் அளவைக் கையாளுவதற்கான சவால்களை சமாளிக்க, கட்டிங் மற்றும் கஃபரெல்லா இரண்டு பகுதி தீர்வைக் கொண்டு வந்தன. தரவு-அளவு சிக்கலைத் தீர்க்க, ஹடூப் ஒரு விநியோகிக்கப்பட்ட சூழலைப் பயன்படுத்துகிறது - பண்ட சேவையகங்களின் நெட்வொர்க் - ஒரு இணையான செயலாக்கக் கிளஸ்டரை உருவாக்குகிறது, இது ஒதுக்கப்பட்ட பணியைத் தாங்க அதிக செயலாக்க சக்தியைக் கொண்டுவருகிறது.

அடுத்து, நிலையான தொடர்புடைய தரவுத்தள அமைப்புகளால் கையாள முடியாத வடிவங்களில் கட்டமைக்கப்படாத தரவு அல்லது தரவை அவர்கள் சமாளிக்க வேண்டியிருந்தது. கட்டிங் மற்றும் கஃபரெல்லா எந்தவொரு தரவையும் கொண்டு செயல்பட ஹடூப்பை வடிவமைத்தன: கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத, படங்கள், ஆடியோ கோப்புகள் கூட. இது ஏன் முக்கியமானது என்பதை இந்த கிளவுட்ரா (ஹடூப் ஒருங்கிணைப்பாளர்) வெள்ளை அறிக்கை விளக்குகிறது:

    "உங்கள் தரவுத்தளங்களில் உள்ளவை மட்டுமல்லாமல், உங்கள் எல்லா தரவையும் பயன்படுத்தக்கூடியதாக மாற்றுவதன் மூலம், மறைக்கப்பட்ட உறவுகளை வெளிக்கொணரவும், எப்போதுமே எட்டாத பதில்களை வெளிப்படுத்தவும் ஹடூப் உங்களை அனுமதிக்கிறது. ஹன்ச் தரவுகளுக்குப் பதிலாக, ஹன்ச்ஸுக்குப் பதிலாக அதிக முடிவுகளை எடுக்கத் தொடங்கலாம் மாதிரிகள் மற்றும் சுருக்கங்கள் மட்டுமின்றி முழுமையான தரவுத் தொகுப்புகளில். "

படிக்கும்போது ஸ்கீமா என்றால் என்ன?

முன்னர் குறிப்பிட்டபடி, ஹடூப்பின் நன்மைகளில் ஒன்று கட்டமைக்கப்படாத தரவைக் கையாளும் திறன் ஆகும். ஒரு விதத்தில், அது "சாலையில் கேனை உதைப்பது." இறுதியில் தரவு பகுப்பாய்வு செய்ய ஒருவித கட்டமைப்பு தேவைப்படுகிறது.

அங்குதான் வாசிப்புத் திட்டம் நடைமுறைக்கு வருகிறது. தரவு எந்த வடிவத்தில் உள்ளது, தரவை எங்கே கண்டுபிடிப்பது (தரவு பல சேவையகங்களில் சிதறிக்கிடக்கிறது என்பதை நினைவில் கொள்ளுங்கள்), மற்றும் தரவுக்கு என்ன செய்ய வேண்டும் - ஒரு எளிய பணி அல்ல. ஒரு ஹடூப் அமைப்பில் தரவைக் கையாளுவதற்கு வணிக ஆய்வாளர், புள்ளிவிவர நிபுணர் மற்றும் ஜாவா புரோகிராமர் ஆகியோரின் திறன்கள் தேவை என்று கூறப்படுகிறது. துரதிர்ஷ்டவசமாக, அந்த தகுதிகளுடன் பலர் இல்லை.

ஹைவ் என்றால் என்ன?

ஹடூப் வெற்றிபெறப் போகிறதென்றால், தரவுகளுடன் பணிபுரிவது எளிமைப்படுத்தப்பட வேண்டும். எனவே, திறந்த மூல கூட்டம் வேலைக்கு வந்து ஹைவ் உருவாக்கியது:

    "ஹைவ் இந்த தரவுகளில் கட்டமைப்பைத் திட்டமிடுவதற்கும், ஹைவ் க்யூல் எனப்படும் SQL போன்ற மொழியைப் பயன்படுத்தி தரவை வினவுவதற்கும் ஒரு பொறிமுறையை ஹைவ் வழங்குகிறது. அதே நேரத்தில் இந்த மொழி பாரம்பரிய வரைபடத்தை அனுமதிக்கிறது / புரோகிராமர்களை தங்கள் தனிப்பயன் மேப்பர்கள் மற்றும் குறைப்பாளர்களை சிரமத்திற்குள்ளாக்கும்போது செருக அனுமதிக்கிறது. இந்த தர்க்கத்தை HiveQL இல் வெளிப்படுத்த இயலாது. "

ஹைவ் இரு உலகங்களிலும் சிறந்ததை செயல்படுத்துகிறது: SQL கட்டளைகளை நன்கு அறிந்த தரவுத்தள பணியாளர்கள் தரவை கையாள முடியும், மேலும் வாசிப்பு செயல்பாட்டில் ஸ்கீமாவை அறிந்த டெவலப்பர்கள் தனிப்பயனாக்கப்பட்ட வினவல்களை இன்னும் உருவாக்க முடியும்.

ஹடூப் எந்த வகையான தரவை பகுப்பாய்வு செய்கிறார்?

வலைத்தளங்களை மேம்படுத்துவதற்காக வலை பதிவுகள் மற்றும் வலை போக்குவரத்தை பகுப்பாய்வு செய்வது, வலை பகுப்பாய்வு என்பது முதலில் நினைவுக்கு வருகிறது. எடுத்துக்காட்டாக, நிச்சயமாக வலை பகுப்பாய்வுகளில் உள்ளது, நிறுவனம் குவிக்கும் தரவின் டெராபைட்டுகளின் மூலம் வரிசைப்படுத்த ஹடூப்பைப் பயன்படுத்துகிறது.

நிறுவனங்கள் ஆபத்து பகுப்பாய்வு, மோசடி கண்டறிதல் மற்றும் வாடிக்கையாளர் தளப் பிரிவு ஆகியவற்றைச் செய்ய ஹடூப் கிளஸ்டர்களைப் பயன்படுத்துகின்றன. பயன்பாட்டு நிறுவனங்கள் தங்கள் மின் கட்டத்திலிருந்து சென்சார் தரவை பகுப்பாய்வு செய்ய ஹடூப்பைப் பயன்படுத்துகின்றன, மேலும் அவை மின்சார உற்பத்தியை மேம்படுத்த அனுமதிக்கின்றன. இலக்கு, 3 எம் மற்றும் மெட்ரானிக்ஸ் போன்ற ஒரு பெரிய நிறுவனங்கள் தயாரிப்பு விநியோகம், வணிக இடர் மதிப்பீடுகள் மற்றும் வாடிக்கையாளர்-அடிப்படை பிரிவு ஆகியவற்றை மேம்படுத்த ஹடூப்பைப் பயன்படுத்துகின்றன.

ஹடூப்பிலும் பல்கலைக்கழகங்கள் முதலீடு செய்யப்படுகின்றன. மென்பொருளில் உள்ள செயின்ட் தாமஸ் பட்டதாரி திட்டங்களின் இணை பேராசிரியரான பிராட் ரூபின், தனது ஹடூப் நிபுணத்துவம் பல்கலைக்கழகத்தின் ஆராய்ச்சி குழுக்களால் தொகுக்கப்பட்ட ஏராளமான தரவுகளை வரிசைப்படுத்த உதவுகிறது என்று குறிப்பிட்டார்.

ஹடூப்பின் நிஜ உலக உதாரணத்தை நீங்கள் கொடுக்க முடியுமா?

சிறந்த அறியப்பட்ட எடுத்துக்காட்டுகளில் ஒன்று டைம்ஸ்மச்சின். நியூயார்க் டைம்ஸ் முழு பக்க செய்தித்தாள் TIFF படங்கள், தொடர்புடைய மெட்டாடேட்டா மற்றும் 1851 முதல் 1922 வரையிலான கட்டுரை ஆகியவற்றின் தொகுப்பைக் கொண்டுள்ளது, இது டெராபைட் தரவைக் கொண்டுள்ளது. NYT இன் டெரெக் கோட்ஃப்ரிட், EC2 / S3 / Hadoop அமைப்பு மற்றும் சிறப்பு குறியீட்டைப் பயன்படுத்தி ,:

    "405,000 மிகப் பெரிய டிஐஎஃப்எஃப் படங்கள், எஸ்ஜிஎம்எல்லில் 3.3 மில்லியன் கட்டுரைகள் மற்றும் டிஐஎஃப்எப்களில் செவ்வக பகுதிகளுக்கு கட்டுரைகளை மேப்பிங் செய்யும் 405,000 எக்ஸ்எம்எல் கோப்புகள். இந்தத் தரவு மிகவும் வலை நட்பு 810,000 பிஎன்ஜி படங்கள் (சிறு உருவங்கள் மற்றும் முழு படங்கள்) மற்றும் 405,000 ஜாவாஸ்கிரிப்ட் கோப்புகளாக மாற்றப்பட்டது. "

அமேசான் வலை சேவைகள் கிளவுட்டில் சேவையகங்களைப் பயன்படுத்தி, கோட்ஸ்ஃப்ரிட் டைம்ஸ்மச்சினுக்குத் தேவையான எல்லா தரவையும் 36 மணி நேரத்திற்குள் செயலாக்க முடிந்தது என்று குறிப்பிட்டார்.

ஹடூப் ஏற்கனவே வழக்கற்றுப் போய்விட்டதா அல்லது மார்பிங் செய்கிறாரா?

ஹடூப் இப்போது ஒரு தசாப்தத்திற்கும் மேலாக உள்ளது. அது வழக்கற்றுப் போய்விட்டது என்று பலர் கூறுகிறார்கள். ஒரு நிபுணர், டாக்டர் டேவிட் ரிக்கோ, "ஐடி தயாரிப்புகள் குறுகிய காலம். நாய் ஆண்டுகளில், கூகிள்ஸ் தயாரிப்புகள் சுமார் 70, ஹடூப் 56 ஆகும்."

ரிக்கோ சொல்வதில் சில உண்மை இருக்கலாம். ஹடூப் ஒரு பெரிய மாற்றத்தை மேற்கொள்கிறார் என்று தெரிகிறது. இதைப் பற்றி மேலும் அறிய, ரூபின் என்னை ஒரு இரட்டை நகரங்களின் ஹடூப் பயனர் குழு கூட்டத்திற்கு அழைத்தார், மேலும் விவாதத்தின் தலைப்பு YARN அறிமுகம்:

    "அப்பாச்சி ஹடூப் 2 ஒரு புதிய மேப்ரூட் எஞ்சினை உள்ளடக்கியது, இது முந்தைய செயல்படுத்தலை விட சிறந்த அளவிடுதல் மற்றும் வள பயன்பாடு உள்ளிட்ட பல நன்மைகளைக் கொண்டுள்ளது. புதிய செயல்படுத்தல் YARN எனப்படும் விநியோகிக்கப்பட்ட பயன்பாடுகளை இயக்குவதற்கான பொது வள மேலாண்மை அமைப்பில் கட்டப்பட்டுள்ளது."
தரவுத்தளம் மற்றும் உள்ளடக்க மேலாண்மை வட்டங்களில் ஹடூப் நிறைய சலசலப்புகளைப் பெறுகிறார், ஆனால் அதைச் சுற்றி இன்னும் பல கேள்விகள் உள்ளன, அதை எவ்வாறு சிறப்பாகப் பயன்படுத்தலாம். இவை ஒரு சில. உங்களிடம் இன்னும் இருந்தால், அவை எங்கள் வழி. Techopedia.com இல் சிறந்தவற்றுக்கு பதிலளிக்கவும்.