டோக்கனைசேஷன் Tokenization

நூலாசிரியர்: Louise Ward
உருவாக்கிய தேதி: 8 பிப்ரவரி 2021
புதுப்பிப்பு தேதி: 16 மே 2024
Anonim
WordPiece டோக்கனைசேஷன்
காணொளி: WordPiece டோக்கனைசேஷன்

உள்ளடக்கம்

வரையறை - டோக்கனைசேஷன் என்றால் என்ன?

டோக்கனைசேஷன் என்பது சரங்களின் வரிசையை சொற்கள், சொற்கள், சொற்றொடர்கள், சின்னங்கள் மற்றும் டோக்கன்கள் எனப்படும் பிற கூறுகள் போன்ற துண்டுகளாக உடைக்கும் செயல். டோக்கன்கள் தனிப்பட்ட சொற்கள், சொற்றொடர்கள் அல்லது முழு வாக்கியங்களாக இருக்கலாம். டோக்கனைசேஷன் செயல்பாட்டில், நிறுத்தற்குறிகள் போன்ற சில எழுத்துக்கள் நிராகரிக்கப்படுகின்றன. பாகுபடுத்தல் மற்றும் சுரங்க போன்ற மற்றொரு செயல்முறைக்கான டோக்கன்கள் உள்ளீடாகின்றன.


டோக்கனைசேஷன் கணினி அறிவியலில் பயன்படுத்தப்படுகிறது, அங்கு இது லெக்சிகல் பகுப்பாய்வு செயல்பாட்டில் பெரும் பங்கு வகிக்கிறது.

மைக்ரோசாஃப்ட் அஸூர் மற்றும் மைக்ரோசாஃப்ட் கிளவுட் | இந்த வழிகாட்டி முழுவதும், கிளவுட் கம்ப்யூட்டிங் எதைப் பற்றியது என்பதையும், கிளவுட் நிறுவனத்திலிருந்து உங்கள் வணிகத்தை நகர்த்தவும் இயக்கவும் மைக்ரோசாஃப்ட் அஸூர் எவ்வாறு உதவும் என்பதை நீங்கள் அறிந்து கொள்வீர்கள்.

டெக்கோபீடியா டோக்கனைசேஷனை விளக்குகிறது

டோக்கனைசேஷன் சில படிகளைப் பின்பற்றுவதன் மூலம் டோக்கன்களைப் பிரிக்க பெரும்பாலும் எளிய ஹியூரிஸ்டிக்ஸை நம்பியுள்ளது:

  • டோக்கன்கள் அல்லது சொற்கள் இடைவெளி, நிறுத்தற்குறிகள் அல்லது வரி முறிவுகளால் பிரிக்கப்படுகின்றன
  • தேவையைப் பொறுத்து வெள்ளை இடம் அல்லது நிறுத்தற்குறிகள் சேர்க்கப்படலாம் அல்லது சேர்க்கப்படாமல் போகலாம்
  • தொடர்ச்சியான சரங்களுக்குள் உள்ள அனைத்து எழுத்துகளும் டோக்கனின் ஒரு பகுதியாகும். டோக்கன்கள் அனைத்து ஆல்பா எழுத்துக்கள், எண்ணெழுத்து எழுத்துக்கள் அல்லது எண் எழுத்துக்களால் மட்டுமே உருவாக்கப்படலாம்.

டோக்கன்களும் பிரிப்பான்களாக இருக்கலாம். எடுத்துக்காட்டாக, பெரும்பாலான நிரலாக்க மொழிகளில், அடையாளங்காட்டிகளை வெள்ளை இடைவெளிகள் இல்லாமல் எண்கணித ஆபரேட்டர்களுடன் ஒன்றாக வைக்கலாம். இது ஒற்றை வார்த்தையாகவோ அல்லது டோக்கனாகவோ தோன்றும் என்று தோன்றினாலும், மொழியின் இலக்கணம் உண்மையில் கணித ஆபரேட்டரை (ஒரு டோக்கன்) ஒரு பிரிப்பான் என்று கருதுகிறது, எனவே பல டோக்கன்கள் ஒன்றாக இணைக்கப்பட்டிருந்தாலும் கூட, அவை கணிதத்தின் வழியாக பிரிக்கப்படலாம் ஆபரேட்டர்.