உள்ளடக்கம்
- பெரிய தரவு கட்டமைக்கப்படாதது அல்லது அரை கட்டமைக்கப்பட்டதாகும்
- பெரிய தரவைச் செயலாக்க முடியாவிட்டால் அதைச் சேமிப்பதில் எந்தப் பயனும் இல்லை
- ஹடூப் பெரிய தரவு சிக்கலை எவ்வாறு தீர்க்கிறார்
- ஹடூப்பிற்கான வணிக வழக்கு
எடுத்து செல்:
பெரிய தரவு சில பெரிய சவால்களை தீர்க்க ஹடூப் உதவும்.
பெரிய தரவு ... நன்றாக ... அளவு பெரியது! பெரிய தரவு என எவ்வளவு தரவை வகைப்படுத்த முடியும் என்பது மிகவும் தெளிவான வெட்டு அல்ல, எனவே அந்த விவாதத்தில் சிக்கிக் கொள்ள வேண்டாம். ஜிகாபைட்டுகளில் தரவைக் கையாள்வதற்குப் பயன்படுத்தப்படும் ஒரு சிறிய நிறுவனத்திற்கு, 10 காசநோய் தரவு பெரியதாக இருக்கும். இருப்பினும், யாகூ போன்ற நிறுவனங்களுக்கு, பெட்டாபைட்டுகள் பெரியவை.பெரிய தரவுகளின் அளவு, தரவுத்தளங்கள் அல்லது வழக்கமான கோப்புதாரர்கள் போன்ற பாரம்பரிய சேமிப்பகத்தில் சேமிக்க இயலாது (அல்லது குறைந்தபட்சம் செலவு தடைசெய்யக்கூடியது). ஜிகாபைட் தரவைச் சேமிப்பதற்கான செலவு பற்றி நாங்கள் பேசுகிறோம். பாரம்பரிய சேமிப்பக கோப்புகளைப் பயன்படுத்துவதால் பெரிய தரவைச் சேமிக்க நிறைய பணம் செலவாகும்.
இங்கே பெரிய தரவு, அதன் சவால்கள் மற்றும் அவற்றை தீர்க்க ஹடூப் எவ்வாறு உதவ முடியும் என்பதைப் பாருங்கள்.முதலில், பெரிய தரவு மிகப்பெரிய சவால்கள்.
பெரிய தரவு கட்டமைக்கப்படாதது அல்லது அரை கட்டமைக்கப்பட்டதாகும்
நிறைய பெரிய தரவு கட்டமைக்கப்படவில்லை. எடுத்துக்காட்டாக, ஸ்ட்ரீம் பதிவு தரவு என்பதைக் கிளிக் செய்க:நேர முத்திரை, பயனர்_ஐடி, பக்கம், பரிந்துரை_பக்கம்
கட்டமைப்பின் பற்றாக்குறை பெரிய தரவுகளை சேமிக்க தொடர்புடைய தரவுத்தளங்களை சரியாகப் பொருட்படுத்தாது. கூடுதலாக, பல தரவுத்தளங்கள் பில்லியன் கணக்கான வரிசைகளை சேமிப்பதை சமாளிக்க முடியாது.
பெரிய தரவைச் செயலாக்க முடியாவிட்டால் அதைச் சேமிப்பதில் எந்தப் பயனும் இல்லை
பெரிய தரவை சேமிப்பது விளையாட்டின் ஒரு பகுதியாகும். அதிலிருந்து என்னுடைய உளவுத்துறைக்கு நாம் அதை செயலாக்க வேண்டும். பாரம்பரிய சேமிப்பக அமைப்புகள் பிட்களை சேமித்து வைக்கின்றன என்ற பொருளில் அழகாக "ஊமை" ஆகும். அவர்கள் எந்த செயலாக்க சக்தியையும் வழங்க மாட்டார்கள்.பாரம்பரிய தரவு செயலாக்க மாதிரியானது ஒரு சேமிப்பக கிளஸ்டரில் சேமிக்கப்பட்ட தரவைக் கொண்டுள்ளது, இது செயலாக்கத்திற்கான ஒரு கம்ப்யூட் கிளஸ்டருக்கு நகலெடுக்கப்படுகிறது. முடிவுகள் மீண்டும் சேமிப்புக் கொத்துக்கு எழுதப்படுகின்றன.
இருப்பினும், இந்த மாதிரி பெரிய தரவுகளுக்கு மிகவும் வேலை செய்யாது, ஏனென்றால் ஒரு கணக்குக் கிளஸ்டருக்கு இவ்வளவு தரவை நகலெடுப்பது அதிக நேரம் எடுக்கும் அல்லது சாத்தியமற்றது. எனவே பதில் என்ன?
ஒரு சேமிப்பக கிளஸ்டரில் கம்ப்யூட் கிளஸ்டராக இரட்டிப்பாக்குவது போன்ற பெரிய தரவை செயலாக்குவது ஒரு தீர்வாகும்.
நாம் மேலே பார்த்தபடி, பெரிய தரவு பாரம்பரிய சேமிப்பிடத்தை மீறுகிறது. பெரிய தரவை எவ்வாறு கையாள்வது?
ஹடூப் பெரிய தரவு சிக்கலை எவ்வாறு தீர்க்கிறார்
இயந்திரங்களின் தொகுப்பில் இயங்குவதற்காக ஹடூப் கட்டப்பட்டுள்ளதுஒரு எடுத்துக்காட்டுடன் ஆரம்பிக்கலாம். நாம் நிறைய புகைப்படங்களை சேமிக்க வேண்டும் என்று சொல்லலாம். ஒற்றை வட்டுடன் தொடங்குவோம். ஒற்றை வட்டுக்கு மேல் இருக்கும்போது, கணினியில் அடுக்கப்பட்ட சில வட்டுகளைப் பயன்படுத்தலாம். ஒரு கணினியில் உள்ள அனைத்து வட்டுகளையும் நாம் அதிகபட்சமாக வெளியேற்றும்போது, நாம் ஒரு சில இயந்திரங்களைப் பெற வேண்டும், ஒவ்வொன்றும் ஒரு சில வட்டுகளைக் கொண்டுள்ளன.
ஹடூப் எவ்வாறு கட்டப்பட்டுள்ளது என்பது இதுதான். கெட் கோவில் இருந்து இயந்திரங்களின் கிளஸ்டரில் இயங்குவதற்காக ஹடூப் வடிவமைக்கப்பட்டுள்ளது.
ஹடூப் கிளஸ்டர்கள் கிடைமட்டமாக அளவிடப்படுகின்றன
ஹடூப் கிளஸ்டரில் அதிக முனைகளைச் சேர்ப்பதன் மூலம் அதிக சேமிப்பகம் மற்றும் கணக்கீட்டு சக்தியை அடைய முடியும். இது மேலும் மேலும் சக்திவாய்ந்த மற்றும் விலையுயர்ந்த வன்பொருள் வாங்க வேண்டிய தேவையை நீக்குகிறது.
ஹடூப் கட்டமைக்கப்படாத / அரை கட்டமைக்கப்பட்ட தரவைக் கையாள முடியும்
ஹடூப் அது சேமிக்கும் தரவில் ஒரு திட்டத்தை செயல்படுத்தாது. இது தன்னிச்சையான மற்றும் பைனரி தரவைக் கையாள முடியும். எனவே கட்டமைக்கப்படாத எந்த தரவையும் ஹடூப் எளிதில் ஜீரணிக்க முடியும்.
ஹடூப் கிளஸ்டர்கள் சேமிப்பு மற்றும் கணினி ஆகியவற்றை வழங்குகிறது
தனித்தனி சேமிப்பிடம் மற்றும் செயலாக்கக் கொத்துகள் இருப்பது பெரிய தரவுகளுக்கு எவ்வாறு பொருந்தாது என்பதை நாங்கள் கண்டோம். இருப்பினும், ஹடூப் கிளஸ்டர்கள் சேமிப்பகம் மற்றும் விநியோகிக்கப்பட்ட கம்ப்யூட்டிங் அனைத்தையும் ஒன்றாக வழங்குகின்றன.
ஹடூப்பிற்கான வணிக வழக்கு
ஹடூப் பெரிய தரவுகளுக்கான நியாயமான விலையில் சேமிப்பிடத்தை வழங்குகிறது
பாரம்பரிய சேமிப்பிடத்தைப் பயன்படுத்தி பெரிய தரவைச் சேமிப்பது விலை உயர்ந்ததாக இருக்கும். ஹடூப் பொருட்கள் வன்பொருளைச் சுற்றி கட்டப்பட்டுள்ளது, எனவே இது ஒரு நியாயமான விலையில் மிகவும் பெரிய சேமிப்பிடத்தை வழங்க முடியும். ஹடூப் புலத்தில் பெட்டாபைட் அளவில் பயன்படுத்தப்பட்டுள்ளது.
கிள oud டெராவின் ஒரு ஆய்வு, நிறுவனங்கள் பொதுவாக ஆண்டுக்கு ஒரு டெராபைட்டுக்கு $ 25,000 முதல் $ 50,000 வரை செலவிடுகின்றன என்று பரிந்துரைத்தன. ஹடூப் உடன், இந்த செலவு ஆண்டுக்கு ஒரு டெராபைட்டுக்கு சில ஆயிரம் டாலர்களாக குறைகிறது. வன்பொருள் மலிவாகவும் மலிவாகவும் வருவதால், இந்த செலவு தொடர்ந்து குறைகிறது.
புதிய அல்லது அதற்கு மேற்பட்ட தரவைப் பிடிக்க ஹடூப் அனுமதிக்கிறது
சில நேரங்களில் நிறுவனங்கள் ஒரு வகை தரவைப் பிடிக்காது, ஏனெனில் அதைச் சேமிக்க அதிக செலவு தடை இருந்தது. ஹடூப் நியாயமான விலையில் சேமிப்பிடத்தை வழங்குவதால், இந்த வகை தரவைப் பிடித்து சேமிக்க முடியும்.
ஒரு எடுத்துக்காட்டு வலைத்தள கிளிக் பதிவுகள். இந்த பதிவுகளின் அளவு மிக அதிகமாக இருக்கக்கூடும் என்பதால், பல நிறுவனங்கள் இவற்றைக் கைப்பற்றவில்லை. இப்போது ஹடூப் மூலம் பதிவுகளை கைப்பற்றி சேமிக்க முடியும்.
ஹடூப் மூலம், நீங்கள் தரவை நீண்ட நேரம் சேமிக்க முடியும்
சேமிக்கப்பட்ட தரவின் அளவை நிர்வகிக்க, நிறுவனங்கள் அவ்வப்போது பழைய தரவை அழிக்கின்றன. எடுத்துக்காட்டாக, கடந்த மூன்று மாதங்களாக பதிவுகள் மட்டுமே சேமிக்க முடியும், அதே நேரத்தில் பழைய பதிவுகள் நீக்கப்பட்டன. ஹடூப் மூலம் வரலாற்றுத் தரவை நீண்ட நேரம் சேமிக்க முடியும். இது பழைய வரலாற்று தரவுகளில் புதிய பகுப்பாய்வுகளை செய்ய அனுமதிக்கிறது.
எடுத்துக்காட்டாக, ஒரு வலைத்தளத்திலிருந்து கிளிக் பதிவுகளை எடுத்துக் கொள்ளுங்கள். சில ஆண்டுகளுக்கு முன்பு, பிரபலமான பதிவுகள் போன்ற புள்ளிவிவரங்களைக் கணக்கிட இந்த பதிவுகள் ஒரு குறுகிய காலத்திற்கு சேமிக்கப்பட்டன. இப்போது ஹடூப் மூலம், இந்த கிளிக் பதிவுகளை நீண்ட காலத்திற்கு சேமிப்பது சாத்தியமாகும்.
ஹடூப் அளவிடக்கூடிய பகுப்பாய்வுகளை வழங்குகிறது
இந்த எல்லா தரவையும் நாம் பகுப்பாய்வு செய்ய முடியாவிட்டால் அவற்றை சேமிப்பதில் எந்த அர்த்தமும் இல்லை. ஹடூப் விநியோகிக்கப்பட்ட சேமிப்பிடத்தை மட்டுமல்லாமல், விநியோகிக்கப்பட்ட செயலாக்கத்தையும் வழங்குகிறது, அதாவது ஒரு பெரிய அளவிலான தரவை இணையாக நசுக்க முடியும். ஹடூப்பின் கணக்கீட்டு கட்டமைப்பை MapReduce என்று அழைக்கப்படுகிறது. MapReduce பெட்டாபைட்டுகளின் அளவிற்கு நிரூபிக்கப்பட்டுள்ளது.
ஹடூப் பணக்கார பகுப்பாய்வுகளை வழங்குகிறது
நேட்டிவ் மேப்ரூட்யூஸ் ஜாவாவை முதன்மை நிரலாக்க மொழியாக ஆதரிக்கிறது. ரூபி, பைதான் மற்றும் ஆர் போன்ற பிற மொழிகளையும் பயன்படுத்தலாம்.
நிச்சயமாக, தனிப்பயன் மேப்ரூட் குறியீட்டை எழுதுவது ஹடூப்பில் தரவை பகுப்பாய்வு செய்வதற்கான ஒரே வழி அல்ல. உயர் மட்ட வரைபடக் குறைப்பு கிடைக்கிறது. எடுத்துக்காட்டாக, பிக் என்ற கருவி தரவு ஓட்ட மொழி போன்ற ஆங்கிலத்தை எடுத்து அவற்றை மேப்ரூட்ஸில் மொழிபெயர்க்கிறது. மற்றொரு கருவி, ஹைவ், SQL வினவல்களை எடுத்து அவற்றை MapReduce ஐப் பயன்படுத்தி இயக்குகிறது.
வணிக நுண்ணறிவு (BI) கருவிகள் இன்னும் உயர்ந்த அளவிலான பகுப்பாய்வை வழங்க முடியும். இந்த வகை பகுப்பாய்விற்கான கருவிகளும் உள்ளன.
இந்த உள்ளடக்கம் மார்க் கெர்ஸ்னர் மற்றும் சுஜி மணியம் ஆகியோரால் "ஹடூப் இல்லுமினேட்டட்" இலிருந்து எடுக்கப்பட்டுள்ளது. இது கிரியேட்டிவ் காமன்ஸ் அட்ரிபியூஷன்-வர்த்தகரீதியான-ஷேர்அலைக் 3.0 இறக்குமதி செய்யப்படாத உரிமம் வழியாக கிடைக்கிறது.