நீங்கள் தெரிந்து கொள்ள வேண்டிய மற்றும் புரிந்து கொள்ள வேண்டிய 10 மிக முக்கியமான ஹடூப் விதிமுறைகள்

நூலாசிரியர்: Eugene Taylor
உருவாக்கிய தேதி: 10 ஆகஸ்ட் 2021
புதுப்பிப்பு தேதி: 1 ஜூலை 2024
Anonim
60 நிமிடங்களில் ஸ்ப்ளங்க் | ஆரம்பநிலைக்கான ஸ்ப்ளங்க் டுடோரியல் | ஸ்ப்ளங்க் பயிற்சி | ஸ்ப்ளங்க் டுடோரியல் | எடுரேகா
காணொளி: 60 நிமிடங்களில் ஸ்ப்ளங்க் | ஆரம்பநிலைக்கான ஸ்ப்ளங்க் டுடோரியல் | ஸ்ப்ளங்க் பயிற்சி | ஸ்ப்ளங்க் டுடோரியல் | எடுரேகா

உள்ளடக்கம்



ஆதாரம்: ட்ரூஃபெல்பிக்ஸ் / ட்ரீம்ஸ்டைம்.காம்

எடுத்து செல்:

பெரிய தரவை உண்மையில் புரிந்து கொள்ள, ஹடூப் மற்றும் அதைச் சுற்றியுள்ள மொழியைப் பற்றி நீங்கள் கொஞ்சம் புரிந்து கொள்ள வேண்டும்.

பெரிய தரவு, கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத அல்லது அரை கட்டமைக்கப்பட்ட தரவுகளின் பெரிய பெயர்களுக்கான கவர்ச்சியான பெயர், குறைந்தது பாரம்பரிய தரவுத்தள மற்றும் மென்பொருள் பயன்பாடுகளைப் பயன்படுத்தி, கைப்பற்றுவது, சேமிப்பது, நிர்வகிப்பது, பகிர்வது, பகுப்பாய்வு செய்வது மற்றும் காட்சிப்படுத்துவது இழிவானது. அதனால்தான் பெரிய தரவு தொழில்நுட்பங்கள் பாரிய அளவிலான தரவை திறம்பட மற்றும் திறமையாக நிர்வகிக்கும் மற்றும் செயலாக்கும் திறனைக் கொண்டுள்ளன. கணினிகளின் கொத்துகள் முழுவதும் விநியோகிக்கப்பட்ட வழியில் பெரிய தரவுத் தொகுப்புகளை செயலாக்க கட்டமைப்பையும் அதனுடன் தொடர்புடைய தொழில்நுட்பங்களையும் வழங்கும் அதன் அப்பாச்சி ஹடூப். எனவே, பெரிய தரவை உண்மையில் புரிந்து கொள்ள, நீங்கள் ஹடூப்பைப் பற்றி கொஞ்சம் புரிந்து கொள்ள வேண்டும். ஹடூப் தொடர்பாக நீங்கள் கேட்கும் சிறந்த சொற்களையும், அவை எதைக் குறிக்கின்றன என்பதையும் இங்கே பாருங்கள்.


ஆனால் முதலில், ஹடூப் எவ்வாறு செயல்படுகிறது என்பதைப் பாருங்கள்

ஹடூப் சூழல் அமைப்புக்குச் செல்வதற்கு முன், நீங்கள் இரண்டு அடிப்படை விஷயங்களை தெளிவாக புரிந்து கொள்ள வேண்டும். முதலாவது ஹடூப்பில் ஒரு கோப்பு எவ்வாறு சேமிக்கப்படுகிறது; இரண்டாவது சேமிக்கப்பட்ட தரவு எவ்வாறு செயலாக்கப்படுகிறது என்பதுதான். அனைத்து ஹடூப் தொடர்பான தொழில்நுட்பங்களும் முக்கியமாக இந்த இரண்டு பகுதிகளிலும் செயல்படுகின்றன, மேலும் இது பயனர் நட்பை அதிகமாக்குகின்றன. (பெரிய தரவு சிக்கலை தீர்க்க ஹடூப் எவ்வாறு உதவுகிறது என்பதில் ஹடூப் எவ்வாறு செயல்படுகிறது என்பதற்கான அடிப்படைகளைப் பெறுங்கள்.)

இப்போது, ​​விதிமுறைகளுக்கு.

ஹடூப் காமன்

ஹடூப் கட்டமைப்பில் வெவ்வேறு செயல்பாடுகளுக்கு வெவ்வேறு தொகுதிகள் உள்ளன, மேலும் இந்த தொகுதிகள் பல்வேறு காரணங்களுக்காக ஒருவருக்கொருவர் தொடர்பு கொள்ளலாம். ஹடூப் சுற்றுச்சூழல் அமைப்பில் இந்த தொகுதிக்கூறுகளை ஆதரிக்க ஹடூப் காமன் ஒரு பொதுவான பயன்பாட்டு நூலகமாக வரையறுக்கப்படுகிறது. இந்த பயன்பாடுகள் அடிப்படையில் ஜாவா அடிப்படையிலான, காப்பகப்படுத்தப்பட்ட (JAR கள்) கோப்புகள். இந்த பயன்பாடுகள் முக்கியமாக புரோகிராமர்கள் மற்றும் டெவலப்பர்களால் வளர்ச்சி நேரத்தில் பயன்படுத்தப்படுகின்றன.


ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை (HDFS)

ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமை (எச்.டி.எஃப்.எஸ்) என்பது அப்பாச்சி மென்பொருள் அறக்கட்டளையின் கீழ் அப்பாச்சி ஹடூப்பின் துணைத் திட்டமாகும். இது ஹடூப் கட்டமைப்பில் சேமிப்பின் முதுகெலும்பாகும். இது விநியோகிக்கப்பட்ட, அளவிடக்கூடிய மற்றும் தவறு-சகிப்புத்தன்மை கொண்ட கோப்பு முறைமை ஆகும், இது ஹடூப் கிளஸ்டர் எனப்படும் பல பொருட்களின் வன்பொருள் முழுவதும் பரவியுள்ளது. பயன்பாட்டுத் தரவிற்கான அதிக செயல்திறன் அணுகலுடன் நம்பகத்தன்மையுடன் ஒரு பெரிய அளவிலான தரவைச் சேமிப்பதே HDFS இன் நோக்கம். எச்டிஎஃப்எஸ் மாஸ்டர் / அடிமை கட்டமைப்பைப் பின்பற்றுகிறது, அங்கு மாஸ்டர் நேம்நோட் என்றும், அடிமைகள் டேட்டாநோட்ஸ் என்றும் அழைக்கப்படுகின்றன.

MapReduce

ஹடூப் வரைபடம் அப்பாச்சி மென்பொருள் அறக்கட்டளையின் துணைத் திட்டமாகும். MapReduce உண்மையில் ஜாவாவில் எழுதப்பட்ட ஒரு மென்பொருள் கட்டமைப்பாகும். விநியோகிக்கப்பட்ட சூழலில் (பொருட்களின் வன்பொருள் கொண்ட) பெரிய தரவுத்தொகுப்புகளை முற்றிலும் இணையான முறையில் செயலாக்குவதே இதன் முதன்மை நோக்கமாகும். வேலை திட்டமிடல், கண்காணித்தல், செயல்படுத்துதல் மற்றும் மீண்டும் செயல்படுத்துதல் (தோல்வியுற்ற பணிகளின் விஷயத்தில்) போன்ற அனைத்து செயல்பாடுகளையும் இந்த கட்டமைப்பு நிர்வகிக்கிறது.

HBase

அப்பாச்சி ஹெச்பேஸ் ஹடூப் தரவுத்தளமாக அறியப்படுகிறது. இது ஒரு நெடுவரிசை, விநியோகிக்கப்பட்ட மற்றும் அளவிடக்கூடிய பெரிய தரவுக் கடை. இது ஒரு தொடர்புடைய தரவுத்தள மேலாண்மை அமைப்பு அல்லாத NoSQL தரவுத்தள வகை என்றும் அழைக்கப்படுகிறது. HBase பயன்பாடுகள் ஜாவாவிலும் எழுதப்பட்டுள்ளன, அவை ஹடூப்பின் மேல் கட்டப்பட்டு HDFS இல் இயங்குகின்றன. பெரிய தரவுக்கான நிகழ்நேர வாசிப்பு / எழுதுதல் மற்றும் சீரற்ற அணுகல் தேவைப்படும்போது HBase பயன்படுத்தப்படுகிறது. கூகிள்ஸ் பிக்டேபிள் கருத்துகளின் அடிப்படையில் HBase வடிவமைக்கப்பட்டுள்ளது.

ஹைவ்

அப்பாச்சி ஹைவ் ஒரு திறந்த மூல தரவுக் கிடங்கு மென்பொருள் அமைப்பு. ஹைவ் முதலில் அப்பாச்சி மென்பொருள் அறக்கட்டளையின் கீழ் வந்து திறந்த மூலமாக மாற்றப்பட்டது. விநியோகிக்கப்பட்ட ஹடூப் இணக்கமான சேமிப்பகத்தில் பெரிய தரவுத் தொகுப்புகளை நிர்வகிக்கவும் வினவவும் இது உதவுகிறது. HiveQL எனப்படும் SQL போன்ற மொழியைப் பயன்படுத்துவதன் மூலம் ஹைவ் அதன் அனைத்து செயல்பாடுகளையும் செய்கிறது. (அப்பாச்சி ஹைவ் மற்றும் பன்றிக்கு ஒரு சுருக்கமான அறிமுகத்தில் மேலும் அறிக.)

பிழைகள் இல்லை, மன அழுத்தமும் இல்லை - உங்கள் வாழ்க்கையை அழிக்காமல் வாழ்க்கையை மாற்றும் மென்பொருளை உருவாக்குவதற்கான படி வழிகாட்டியின் படி

மென்பொருள் தரத்தைப் பற்றி யாரும் கவலைப்படாதபோது உங்கள் நிரலாக்க திறன்களை மேம்படுத்த முடியாது.

அப்பாச்சி பன்றி

பெரிய அளவிலான விநியோகிக்கப்பட்ட தரவுகளில் மேப்ரூட் வேலைகளை உருவாக்கி செயல்படுத்துவதற்காக பன்றி முதலில் யாகூவால் தொடங்கப்பட்டது. இப்போது இது அப்பாச்சி மென்பொருள் அறக்கட்டளையின் கீழ் ஒரு திறந்த மூல திட்டமாக மாறியுள்ளது. அப்பாச்சி பன்றியை மிகப் பெரிய தரவுத் தொகுப்புகளை திறமையான முறையில் பகுப்பாய்வு செய்வதற்கான தளமாக வரையறுக்கலாம். பன்றிகள் உள்கட்டமைப்பு அடுக்கு உண்மையான செயலாக்கத்தை செய்ய MapReduce வேலைகளின் வரிசைகளை உருவாக்குகிறது. பன்றிகள் மொழி அடுக்கு பன்றி லத்தீன் என அழைக்கப்படுகிறது, மேலும் இது விநியோகிக்கப்பட்ட தரவுத் தொகுப்புகளில் வினவல்களைச் செய்ய SQL போன்ற அம்சங்களை வழங்குகிறது.

அப்பாச்சி தீப்பொறி

ஸ்பார்க் முதலில் யு.சி. பெர்க்லியில் AMPLab ஆல் உருவாக்கப்பட்டது. இது பிப்ரவரி 2014 இல் ஒரு அப்பாச்சி உயர்மட்ட திட்டமாக மாறியது. அப்பாச்சி தீப்பொறியை ஒரு திறந்த மூல, பொது நோக்கம், கிளஸ்டர்-கம்ப்யூட்டிங் கட்டமைப்பாக வரையறுக்கலாம், இது தரவு பகுப்பாய்வுகளை மிக வேகமாக செய்கிறது. இது ஹடூப் விநியோகிக்கப்பட்ட கோப்பு முறைமையின் மேல் கட்டப்பட்டுள்ளது, ஆனால் இது MapReduce கட்டமைப்போடு இணைக்கப்படவில்லை. MapReduce உடன் ஒப்பிடும்போது தீப்பொறி செயல்திறன் மிக வேகமாக இருக்கும். இது ஸ்கலா, பைதான் மற்றும் ஜாவாவில் உயர் மட்ட API களை வழங்குகிறது.

அப்பாச்சி கசாண்ட்ரா

அப்பாச்சி கசாண்ட்ரா மற்றொரு திறந்த மூல NoSQL தரவுத்தளமாகும். பல தரவு மையங்கள் மற்றும் மேகக்கணி சேமிப்பகங்களில் கட்டமைக்கப்பட்ட, அரை கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவு வரம்புகளை நிர்வகிக்க கசாண்ட்ரா பரவலாகப் பயன்படுத்தப்படுகிறது. கசாண்ட்ரா ஒரு "மாஸ்டர்லெஸ்" கட்டமைப்பை அடிப்படையாகக் கொண்டு வடிவமைக்கப்பட்டுள்ளது, அதாவது இது மாஸ்டர் / அடிமை மாதிரியை ஆதரிக்காது. இந்த கட்டமைப்பில், எல்லா முனைகளும் ஒரே மாதிரியானவை மற்றும் தரவு தானாகவும் சமமாகவும் அனைத்து முனைகளிலும் விநியோகிக்கப்படுகிறது. தொடர்ச்சியான கிடைக்கும் தன்மை, நேரியல் அளவிடுதல், உள்ளமைக்கப்பட்ட / தனிப்பயனாக்கக்கூடிய பிரதி, தோல்வி மற்றும் செயல்பாட்டு எளிமை ஆகியவை இல்லை.

மற்றொரு வள பேச்சுவார்த்தையாளர் (YARN)

மற்றொரு வள பேச்சுவார்த்தையாளர் (YARN) MapReduce 2.0 என்றும் அழைக்கப்படுகிறது, ஆனால் இது உண்மையில் ஹடூப் 2.0 இன் கீழ் வருகிறது. YARN ஐ வேலை திட்டமிடல் மற்றும் வள மேலாண்மை கட்டமைப்பாக வரையறுக்கலாம். YARN இன் அடிப்படை யோசனை, ஜாப் ட்ராக்கரின் செயல்பாடுகளை வள மேலாண்மை மற்றும் திட்டமிடல் / கண்காணிப்புக்கு பொறுப்பான இரண்டு தனித்தனி டீமன்களால் மாற்றுவதாகும். இந்த புதிய கட்டமைப்பில், உலகளாவிய ரிசோர்ஸ் மேனேஜர் (ஆர்எம்) மற்றும் அப்ளிகேஷன் மாஸ்டர் (ஏஎம்) எனப்படும் பயன்பாட்டு-குறிப்பிட்ட மாஸ்டர் இருக்கும். உலகளாவிய ரிசோர்ஸ் மேனேஜர் (ஆர்.எம்) மற்றும் நோட் மேனேஜர் (ஒரு முனை அடிமைக்கு) உண்மையான தரவு கணக்கீட்டு கட்டமைப்பை உருவாக்குகின்றன. தற்போதுள்ள MapReduce v1 பயன்பாடுகளையும் YARN இல் இயக்க முடியும், ஆனால் அந்த பயன்பாடுகளை Hadoop2.x ஜாடிகளுடன் மீண்டும் தொகுக்க வேண்டும்.

இம்பலா

இம்பாலாவை பாரிய இணையான செயலாக்கம் (எம்.பி.பி) சக்தியுடன் ஒரு SQL வினவல் இயந்திரமாக வரையறுக்கலாம். இது அப்பாச்சி ஹடூப் கட்டமைப்பில் இயல்பாக இயங்குகிறது. ஹடூப் சுற்றுச்சூழல் அமைப்பின் ஒரு பகுதியாக இம்பலா வடிவமைக்கப்பட்டுள்ளது. இது மற்ற ஹடூப் சுற்றுச்சூழல் அமைப்பு கூறுகளால் பயன்படுத்தப்படும் அதே நெகிழ்வான கோப்பு முறைமை (HDFS), மெட்டாடேட்டா, வள மேலாண்மை மற்றும் பாதுகாப்பு கட்டமைப்புகளைப் பகிர்ந்து கொள்கிறது. ஹைவ் உடன் ஒப்பிடும்போது வினவல் செயலாக்கத்தில் இம்பலா மிக வேகமாக உள்ளது என்பதைக் குறிப்பிடுவது மிக முக்கியமான விஷயம். ஆனால் இம்பலா என்பது ஒரு சிறிய தரவுகளின் வினவல் / பகுப்பாய்விற்கானது என்பதையும், முக்கியமாக செயலாக்கப்பட்ட மற்றும் கட்டமைக்கப்பட்ட தரவுகளில் செயல்படும் பகுப்பாய்வு கருவியாக வடிவமைக்கப்பட்டுள்ளது என்பதையும் நாம் நினைவில் கொள்ள வேண்டும்.

ஐ.டி.யில் ஹடூப் ஒரு முக்கியமான தலைப்பு, ஆனால் அதன் நீண்டகால நம்பகத்தன்மை குறித்து சந்தேகம் கொண்டவர்கள் உள்ளனர். ஹடூப் என்றால் என்ன? ஒரு சினிக்ஸ் கோட்பாடு.