பெரிய தரவு சிக்கலை தீர்க்க ஹடூப் எவ்வாறு உதவுகிறது

நூலாசிரியர்: Eugene Taylor
உருவாக்கிய தேதி: 8 ஆகஸ்ட் 2021
புதுப்பிப்பு தேதி: 12 மே 2024
Anonim
Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka
காணொளி: Python Tutorial For Beginners | Python Full Course From Scratch | Python Programming | Edureka

உள்ளடக்கம்



எடுத்து செல்:

பெரிய தரவு சில பெரிய சவால்களை தீர்க்க ஹடூப் உதவும்.

பெரிய தரவு ... நன்றாக ... அளவு பெரியது! பெரிய தரவு என எவ்வளவு தரவை வகைப்படுத்த முடியும் என்பது மிகவும் தெளிவான வெட்டு அல்ல, எனவே அந்த விவாதத்தில் சிக்கிக் கொள்ள வேண்டாம். ஜிகாபைட்டுகளில் தரவைக் கையாள்வதற்குப் பயன்படுத்தப்படும் ஒரு சிறிய நிறுவனத்திற்கு, 10 காசநோய் தரவு பெரியதாக இருக்கும். இருப்பினும், யாகூ போன்ற நிறுவனங்களுக்கு, பெட்டாபைட்டுகள் பெரியவை.

பெரிய தரவுகளின் அளவு, தரவுத்தளங்கள் அல்லது வழக்கமான கோப்புதாரர்கள் போன்ற பாரம்பரிய சேமிப்பகத்தில் சேமிக்க இயலாது (அல்லது குறைந்தபட்சம் செலவு தடைசெய்யக்கூடியது). ஜிகாபைட் தரவைச் சேமிப்பதற்கான செலவு பற்றி நாங்கள் பேசுகிறோம். பாரம்பரிய சேமிப்பக கோப்புகளைப் பயன்படுத்துவதால் பெரிய தரவைச் சேமிக்க நிறைய பணம் செலவாகும்.

இங்கே பெரிய தரவு, அதன் சவால்கள் மற்றும் அவற்றை தீர்க்க ஹடூப் எவ்வாறு உதவ முடியும் என்பதைப் பாருங்கள்.முதலில், பெரிய தரவு மிகப்பெரிய சவால்கள்.

பெரிய தரவு கட்டமைக்கப்படாதது அல்லது அரை கட்டமைக்கப்பட்டதாகும்

நிறைய பெரிய தரவு கட்டமைக்கப்படவில்லை. எடுத்துக்காட்டாக, ஸ்ட்ரீம் பதிவு தரவு என்பதைக் கிளிக் செய்க:

நேர முத்திரை, பயனர்_ஐடி, பக்கம், பரிந்துரை_பக்கம்

கட்டமைப்பின் பற்றாக்குறை பெரிய தரவுகளை சேமிக்க தொடர்புடைய தரவுத்தளங்களை சரியாகப் பொருட்படுத்தாது. கூடுதலாக, பல தரவுத்தளங்கள் பில்லியன் கணக்கான வரிசைகளை சேமிப்பதை சமாளிக்க முடியாது.

பெரிய தரவைச் செயலாக்க முடியாவிட்டால் அதைச் சேமிப்பதில் எந்தப் பயனும் இல்லை

பெரிய தரவை சேமிப்பது விளையாட்டின் ஒரு பகுதியாகும். அதிலிருந்து என்னுடைய உளவுத்துறைக்கு நாம் அதை செயலாக்க வேண்டும். பாரம்பரிய சேமிப்பக அமைப்புகள் பிட்களை சேமித்து வைக்கின்றன என்ற பொருளில் அழகாக "ஊமை" ஆகும். அவர்கள் எந்த செயலாக்க சக்தியையும் வழங்க மாட்டார்கள்.

பாரம்பரிய தரவு செயலாக்க மாதிரியானது ஒரு சேமிப்பக கிளஸ்டரில் சேமிக்கப்பட்ட தரவைக் கொண்டுள்ளது, இது செயலாக்கத்திற்கான ஒரு கம்ப்யூட் கிளஸ்டருக்கு நகலெடுக்கப்படுகிறது. முடிவுகள் மீண்டும் சேமிப்புக் கொத்துக்கு எழுதப்படுகின்றன.

இருப்பினும், இந்த மாதிரி பெரிய தரவுகளுக்கு மிகவும் வேலை செய்யாது, ஏனென்றால் ஒரு கணக்குக் கிளஸ்டருக்கு இவ்வளவு தரவை நகலெடுப்பது அதிக நேரம் எடுக்கும் அல்லது சாத்தியமற்றது. எனவே பதில் என்ன?

ஒரு சேமிப்பக கிளஸ்டரில் கம்ப்யூட் கிளஸ்டராக இரட்டிப்பாக்குவது போன்ற பெரிய தரவை செயலாக்குவது ஒரு தீர்வாகும்.

நாம் மேலே பார்த்தபடி, பெரிய தரவு பாரம்பரிய சேமிப்பிடத்தை மீறுகிறது. பெரிய தரவை எவ்வாறு கையாள்வது?

ஹடூப் பெரிய தரவு சிக்கலை எவ்வாறு தீர்க்கிறார்

இயந்திரங்களின் தொகுப்பில் இயங்குவதற்காக ஹடூப் கட்டப்பட்டுள்ளது
ஒரு எடுத்துக்காட்டுடன் ஆரம்பிக்கலாம். நாம் நிறைய புகைப்படங்களை சேமிக்க வேண்டும் என்று சொல்லலாம். ஒற்றை வட்டுடன் தொடங்குவோம். ஒற்றை வட்டுக்கு மேல் இருக்கும்போது, ​​கணினியில் அடுக்கப்பட்ட சில வட்டுகளைப் பயன்படுத்தலாம். ஒரு கணினியில் உள்ள அனைத்து வட்டுகளையும் நாம் அதிகபட்சமாக வெளியேற்றும்போது, ​​நாம் ஒரு சில இயந்திரங்களைப் பெற வேண்டும், ஒவ்வொன்றும் ஒரு சில வட்டுகளைக் கொண்டுள்ளன.

ஹடூப் எவ்வாறு கட்டப்பட்டுள்ளது என்பது இதுதான். கெட் கோவில் இருந்து இயந்திரங்களின் கிளஸ்டரில் இயங்குவதற்காக ஹடூப் வடிவமைக்கப்பட்டுள்ளது.




ஹடூப் கிளஸ்டர்கள் கிடைமட்டமாக அளவிடப்படுகின்றன
ஹடூப் கிளஸ்டரில் அதிக முனைகளைச் சேர்ப்பதன் மூலம் அதிக சேமிப்பகம் மற்றும் கணக்கீட்டு சக்தியை அடைய முடியும். இது மேலும் மேலும் சக்திவாய்ந்த மற்றும் விலையுயர்ந்த வன்பொருள் வாங்க வேண்டிய தேவையை நீக்குகிறது.

ஹடூப் கட்டமைக்கப்படாத / அரை கட்டமைக்கப்பட்ட தரவைக் கையாள முடியும்
ஹடூப் அது சேமிக்கும் தரவில் ஒரு திட்டத்தை செயல்படுத்தாது. இது தன்னிச்சையான மற்றும் பைனரி தரவைக் கையாள முடியும். எனவே கட்டமைக்கப்படாத எந்த தரவையும் ஹடூப் எளிதில் ஜீரணிக்க முடியும்.

ஹடூப் கிளஸ்டர்கள் சேமிப்பு மற்றும் கணினி ஆகியவற்றை வழங்குகிறது
தனித்தனி சேமிப்பிடம் மற்றும் செயலாக்கக் கொத்துகள் இருப்பது பெரிய தரவுகளுக்கு எவ்வாறு பொருந்தாது என்பதை நாங்கள் கண்டோம். இருப்பினும், ஹடூப் கிளஸ்டர்கள் சேமிப்பகம் மற்றும் விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் அனைத்தையும் ஒன்றாக வழங்குகின்றன.

ஹடூப்பிற்கான வணிக வழக்கு


ஹடூப் பெரிய தரவுகளுக்கான நியாயமான விலையில் சேமிப்பிடத்தை வழங்குகிறது
பாரம்பரிய சேமிப்பிடத்தைப் பயன்படுத்தி பெரிய தரவைச் சேமிப்பது விலை உயர்ந்ததாக இருக்கும். ஹடூப் பொருட்கள் வன்பொருளைச் சுற்றி கட்டப்பட்டுள்ளது, எனவே இது ஒரு நியாயமான விலையில் மிகவும் பெரிய சேமிப்பிடத்தை வழங்க முடியும். ஹடூப் புலத்தில் பெட்டாபைட் அளவில் பயன்படுத்தப்பட்டுள்ளது.

கிள oud டெராவின் ஒரு ஆய்வு, நிறுவனங்கள் பொதுவாக ஆண்டுக்கு ஒரு டெராபைட்டுக்கு $ 25,000 முதல் $ 50,000 வரை செலவிடுகின்றன என்று பரிந்துரைத்தன. ஹடூப் உடன், இந்த செலவு ஆண்டுக்கு ஒரு டெராபைட்டுக்கு சில ஆயிரம் டாலர்களாக குறைகிறது. வன்பொருள் மலிவாகவும் மலிவாகவும் வருவதால், இந்த செலவு தொடர்ந்து குறைகிறது.

புதிய அல்லது அதற்கு மேற்பட்ட தரவைப் பிடிக்க ஹடூப் அனுமதிக்கிறது
சில நேரங்களில் நிறுவனங்கள் ஒரு வகை தரவைப் பிடிக்காது, ஏனெனில் அதைச் சேமிக்க அதிக செலவு தடை இருந்தது. ஹடூப் நியாயமான விலையில் சேமிப்பிடத்தை வழங்குவதால், இந்த வகை தரவைப் பிடித்து சேமிக்க முடியும்.

ஒரு எடுத்துக்காட்டு வலைத்தள கிளிக் பதிவுகள். இந்த பதிவுகளின் அளவு மிக அதிகமாக இருக்கக்கூடும் என்பதால், பல நிறுவனங்கள் இவற்றைக் கைப்பற்றவில்லை. இப்போது ஹடூப் மூலம் பதிவுகளை கைப்பற்றி சேமிக்க முடியும்.

ஹடூப் மூலம், நீங்கள் தரவை நீண்ட நேரம் சேமிக்க முடியும்
சேமிக்கப்பட்ட தரவின் அளவை நிர்வகிக்க, நிறுவனங்கள் அவ்வப்போது பழைய தரவை அழிக்கின்றன. எடுத்துக்காட்டாக, கடந்த மூன்று மாதங்களாக பதிவுகள் மட்டுமே சேமிக்க முடியும், அதே நேரத்தில் பழைய பதிவுகள் நீக்கப்பட்டன. ஹடூப் மூலம் வரலாற்றுத் தரவை நீண்ட நேரம் சேமிக்க முடியும். இது பழைய வரலாற்று தரவுகளில் புதிய பகுப்பாய்வுகளை செய்ய அனுமதிக்கிறது.

எடுத்துக்காட்டாக, ஒரு வலைத்தளத்திலிருந்து கிளிக் பதிவுகளை எடுத்துக் கொள்ளுங்கள். சில ஆண்டுகளுக்கு முன்பு, பிரபலமான பதிவுகள் போன்ற புள்ளிவிவரங்களைக் கணக்கிட இந்த பதிவுகள் ஒரு குறுகிய காலத்திற்கு சேமிக்கப்பட்டன. இப்போது ஹடூப் மூலம், இந்த கிளிக் பதிவுகளை நீண்ட காலத்திற்கு சேமிப்பது சாத்தியமாகும்.

ஹடூப் அளவிடக்கூடிய பகுப்பாய்வுகளை வழங்குகிறது
இந்த எல்லா தரவையும் நாம் பகுப்பாய்வு செய்ய முடியாவிட்டால் அவற்றை சேமிப்பதில் எந்த அர்த்தமும் இல்லை. ஹடூப் விநியோகிக்கப்பட்ட சேமிப்பிடத்தை மட்டுமல்லாமல், விநியோகிக்கப்பட்ட செயலாக்கத்தையும் வழங்குகிறது, அதாவது ஒரு பெரிய அளவிலான தரவை இணையாக நசுக்க முடியும். ஹடூப்பின் கணக்கீட்டு கட்டமைப்பை MapReduce என்று அழைக்கப்படுகிறது. MapReduce பெட்டாபைட்டுகளின் அளவிற்கு நிரூபிக்கப்பட்டுள்ளது.

ஹடூப் பணக்கார பகுப்பாய்வுகளை வழங்குகிறது
நேட்டிவ் மேப்ரூட்யூஸ் ஜாவாவை முதன்மை நிரலாக்க மொழியாக ஆதரிக்கிறது. ரூபி, பைதான் மற்றும் ஆர் போன்ற பிற மொழிகளையும் பயன்படுத்தலாம்.

நிச்சயமாக, தனிப்பயன் மேப்ரூட் குறியீட்டை எழுதுவது ஹடூப்பில் தரவை பகுப்பாய்வு செய்வதற்கான ஒரே வழி அல்ல. உயர் மட்ட வரைபடக் குறைப்பு கிடைக்கிறது. எடுத்துக்காட்டாக, பிக் என்ற கருவி தரவு ஓட்ட மொழி போன்ற ஆங்கிலத்தை எடுத்து அவற்றை மேப்ரூட்ஸில் மொழிபெயர்க்கிறது. மற்றொரு கருவி, ஹைவ், SQL வினவல்களை எடுத்து அவற்றை MapReduce ஐப் பயன்படுத்தி இயக்குகிறது.

வணிக நுண்ணறிவு (BI) கருவிகள் இன்னும் உயர்ந்த அளவிலான பகுப்பாய்வை வழங்க முடியும். இந்த வகை பகுப்பாய்விற்கான கருவிகளும் உள்ளன.

இந்த உள்ளடக்கம் மார்க் கெர்ஸ்னர் மற்றும் சுஜி மணியம் ஆகியோரால் "ஹடூப் இல்லுமினேட்டட்" இலிருந்து எடுக்கப்பட்டுள்ளது. இது கிரியேட்டிவ் காமன்ஸ் அட்ரிபியூஷன்-வர்த்தகரீதியான-ஷேர்அலைக் 3.0 இறக்குமதி செய்யப்படாத உரிமம் வழியாக கிடைக்கிறது.