கணக்கீட்டு மொழியியல்: முறைகள், வளங்கள், பயன்பாடுகள். ஒரு கணக்கீட்டு மொழியியலாளர் என்ன செய்கிறார்?

அறிமுகம்

கணக்கீட்டு மொழியியல் என்றால் என்ன?

கணினி மொழியியல் , பயன்பாட்டு மொழியியலில் ஒரு திசை, கணினி கருவிகளைப் பயன்படுத்துவதில் கவனம் செலுத்துகிறது - நிரல்கள், தரவை ஒழுங்கமைப்பதற்கும் செயலாக்குவதற்கும் கணினி தொழில்நுட்பங்கள் - சில நிபந்தனைகள், சூழ்நிலைகள், சிக்கல் பகுதிகள் போன்றவற்றில் மொழியின் செயல்பாட்டை மாதிரியாக்குவதற்கு, அத்துடன் முழு நோக்கத்திலும் மொழியியல் மற்றும் தொடர்புடைய துறைகளில் மொழியின் கணினி மாதிரிகளின் பயன்பாடு. உண்மையில், பிந்தைய வழக்கில் மட்டுமே நாம் கடுமையான அர்த்தத்தில் பயன்பாட்டு மொழியியலைப் பற்றி பேசுகிறோம், ஏனெனில் மொழியின் கணினி மாடலிங் கணினி அறிவியல் மற்றும் நிரலாக்க கோட்பாட்டின் பயன்பாடு மற்றும் மொழி அறிவியலில் உள்ள சிக்கல்களைத் தீர்ப்பதற்கான ஒரு துறையாகக் கருதப்படலாம். எவ்வாறாயினும், நடைமுறையில், கணக்கீட்டு மொழியியல் என்பது மொழியியலில் கணினிகளின் பயன்பாடு தொடர்பான அனைத்தையும் உள்ளடக்கியது.

கணக்கீட்டு மொழியியல் 1960 களில் ஒரு சிறப்பு அறிவியல் துறையாக வடிவம் பெற்றது. "கணினி மொழியியல்" என்ற ரஷ்ய சொல் ஆங்கில கணக்கீட்டு மொழியியலில் இருந்து மொழிபெயர்க்கப்பட்டுள்ளது. ரஷ்ய மொழியில் கணக்கீட்டு என்ற பெயரடை "கணக்கீட்டு" என்றும் மொழிபெயர்க்கப்படலாம் என்பதால், "கணக்கீட்டு மொழியியல்" என்ற சொல் இலக்கியத்திலும் காணப்படுகிறது, ஆனால் ரஷ்ய அறிவியலில் இது ஒரு குறுகிய பொருளைப் பெறுகிறது, "அளவு மொழியியல்" என்ற கருத்தை அணுகுகிறது. இந்த பகுதியில் வெளியீடுகளின் ஓட்டம் மிகவும் பெரியது. கருப்பொருள் தொகுப்புகளுக்கு கூடுதலாக, கணினி மொழியியல் இதழ் அமெரிக்காவில் காலாண்டுக்கு ஒருமுறை வெளியிடப்படுகிறது. கணக்கீட்டு மொழியியல் சங்கத்தால் பல நிறுவன மற்றும் அறிவியல் பணிகள் மேற்கொள்ளப்படுகின்றன, இது பிராந்திய கட்டமைப்புகளைக் கொண்டுள்ளது (குறிப்பாக, ஒரு ஐரோப்பிய கிளை). ஒவ்வொரு இரண்டு வருடங்களுக்கும், கணக்கீட்டு மொழியியல் பற்றிய சர்வதேச மாநாடுகள் - COLING - நடத்தப்படுகின்றன. செயற்கை நுண்ணறிவு குறித்த பல்வேறு மாநாடுகளில் தொடர்புடைய சிக்கல்கள் பொதுவாக பரவலாக குறிப்பிடப்படுகின்றன.

பணிகள்

கணக்கீட்டு மொழியியல் மொழி செயல்பாட்டின் கணினி மாதிரியாக்கத்தின் உண்மையான மொழியியல் சிக்கல்களை எடுத்துக்கொள்கிறது. அதன் நோக்கங்கள் மிகவும் துல்லியமான மற்றும் முழுமையான மொழியியல் மாதிரிகள் மற்றும் மேம்பட்ட பகுப்பாய்வு மற்றும் தொகுப்பு வழிமுறைகளை உருவாக்குவதாகும்.

முக்கிய திசைகளை அடையாளம் காணலாம்:

1) மனிதனுக்கும் கணினிக்கும் இடையிலான தொடர்பு: கட்டுப்பாடு - நிரலாக்க மொழிகள், தகவல் பரிமாற்றம் - இடைமுகம்.

2) உரைகளுடன் பணிபுரிதல்: அட்டவணைப்படுத்தல், பகுப்பாய்வு மற்றும் வகைப்பாடு, தானியங்கி எடிட்டிங் (பிழை திருத்தம்), அறிவு அடையாளம், இயந்திர மொழிபெயர்ப்பு.

கதை

70களில் உருவாக்கப்பட்ட ஆரம்பகால அமெரிக்க அமைப்புகளான LIFER (Language Interface Facility wich Elipsis and Recursion) மூலம் தரவுத்தளங்களை அணுகுவதற்கான ஆங்கில மொழியின் துணைக்குழுவின் எளிய தலைமுறை வழங்கப்பட்டது. அதைத் தொடர்ந்து, மற்ற, மிகவும் நெகிழ்வான அமைப்புகள் கணினி சந்தையில் தோன்றின, இது ஒரு கணினியுடன் வரையறுக்கப்பட்ட இயற்கை மொழி இடைமுகத்தை வழங்குகிறது.

80 களில், தரவுத்தளங்கள் மற்றும் நிபுணர் அமைப்புகளுடன் இயற்கை மொழி இடைமுகங்களின் வளர்ச்சி மற்றும் விற்பனையில் ஈடுபட்டுள்ள பல நிறுவனங்கள் அமெரிக்காவில் உருவாக்கப்பட்டன. 1985 இல் Semantek கார்ப்பரேஷன் அத்தகைய Q&A மென்பொருள் தொகுப்பை வழங்கியது, மேலும் Carnegie Group நிறுவனம் இதே போன்ற LanguageCraft தொகுப்பை வழங்கியது.

தானியங்கி மொழிபெயர்ப்பு அமைப்புகளை உருவாக்கும் செயலில் வேலை நடந்து வருகிறது. அமெரிக்க விமானப்படைக்காக டி.டாம் தலைமையில் உருவாக்கப்பட்ட தானியங்கி மொழிபெயர்ப்பு அமைப்பு SYSTRAN பரவலாகிவிட்டது. 1974 - 1975 காலகட்டத்தில் அப்பல்லோ-சோயுஸ் திட்டத்திற்கான ஆவணங்களை மொழிபெயர்க்க நாசா விண்வெளி சங்கத்தால் இந்த அமைப்பு பயன்படுத்தப்பட்டது. இப்போதெல்லாம், அவர் பல மொழிகளில் இருந்து ஆண்டுதோறும் சுமார் 100,000 பக்கங்களை மொழிபெயர்க்கிறார்.

ஐரோப்பாவில், கணினி மொழிபெயர்ப்பு அமைப்புகளை உருவாக்கும் பணி ஐரோப்பிய தகவல் வலையமைப்பின் (EURONET DIANA) உருவாக்கத்தால் தூண்டப்பட்டது. 1982 ஆம் ஆண்டில், ஐரோப்பிய பொருளாதார சமூகம் EUROTRA என்ற ஐரோப்பிய நிரலை உருவாக்குவதாக அறிவித்தது, இதன் குறிக்கோள் அனைத்து ஐரோப்பிய மொழிகளுக்கும் கணினி உதவி மொழிபெயர்ப்பு முறையை உருவாக்குவதாகும். இந்தத் திட்டம் ஆரம்பத்தில் $12 மில்லியனாக மதிப்பிடப்பட்டது; 1987 இல், வல்லுநர்கள் இந்தத் திட்டத்தின் மொத்தச் செலவை $160 மில்லியனுக்கும் அதிகமாகத் தீர்மானித்தனர்.

ஜப்பானில், 1981 இல் அறிவிக்கப்பட்ட நாடு தழுவிய ஐந்தாம் தலைமுறை கணினி நிரலைச் சுற்றியுள்ள கணக்கீட்டு மொழியியல் மையங்களில் ஆராய்ச்சி.

இயற்கையான மொழியில் மனித-இயந்திர இடைமுகங்களை உருவாக்க பல இராணுவ திட்டங்கள் உள்ளன. யுனைடெட் ஸ்டேட்ஸில், அவை முக்கியமாக மூலோபாய கணினி முன்முயற்சியின் கட்டமைப்பிற்குள் மேற்கொள்ளப்படுகின்றன, இது 1983 இல் பாதுகாப்புத் துறையால் ஏற்றுக்கொள்ளப்பட்ட பத்தாண்டு திட்டமாகும். புதிய தலைமுறை "புத்திசாலித்தனமான" ஆயுதங்கள் மற்றும் இராணுவ அமைப்புகளை உருவாக்குவதே இதன் குறிக்கோள். அமெரிக்காவின் நீண்ட கால தொழில்நுட்ப மேன்மையை உறுதிப்படுத்தும் பொருட்டு.

இயற்கையாகவே, கணினிகள் மற்றும் நிரலாக்க மொழிகளில் நன்கு அறிந்த செயற்கை நுண்ணறிவு வல்லுநர்கள், தங்கள் சொந்த முறைகளைப் பயன்படுத்தி மொழியைப் புரிந்துகொள்வதில் உள்ள சிக்கலை ஆற்றலுடன் தீர்க்கத் தொடங்கினர். இயற்கை மொழி அல்காரிதம்களுக்கான தேடல் இருந்தது. மிகவும் குறுகிய சிறப்புப் பகுதிகளுக்கு சிக்கலான மொழிப் புரிதல் திட்டங்கள் உருவாக்கப்பட்டுள்ளன, பகுதி இயந்திர மொழிபெயர்ப்பு திட்டங்கள் மற்றும் பல செயல்படுத்தப்பட்டுள்ளன. ஆனால் மொழியைப் புரிந்துகொள்வதில் உள்ள சிக்கலைத் தீர்ப்பதில் தீர்க்கமான முன்னேற்றம் இல்லை. மொழியும் மக்களும் மிகவும் இணைக்கப்பட்டுள்ளனர், விஞ்ஞானிகள் உலகத்தைப் பற்றிய மனித புரிதலின் சிக்கலைச் சமாளிக்க வேண்டியிருந்தது. இது ஏற்கனவே தத்துவத்தின் பகுதி.

மொழியியலின் அடிப்படைக் கருத்துக்கள்

கணக்கீட்டு மொழியியல்: முறைகள், வளங்கள், பயன்பாடுகள்

அறிமுகம்

கால கணக்கீட்டு மொழியியல்வணிக மென்பொருள் தயாரிப்புகள் உட்பட பல்வேறு பயன்பாட்டு மென்பொருள் அமைப்புகளின் வளர்ச்சி தொடர்பாக சமீபத்திய ஆண்டுகளில் (CL) மிகவும் பொதுவானதாகிவிட்டது. இணையம் உட்பட சமூகத்தில் உரைத் தகவல்களின் விரைவான வளர்ச்சி மற்றும் இயற்கை மொழியில் (NL) உரைகளை தானாக செயலாக்க வேண்டியதன் அவசியம் இதற்குக் காரணம். இந்த சூழ்நிலையானது அறிவியல் துறையாக கணினி மொழியியல் வளர்ச்சியையும் புதிய தகவல் மற்றும் மொழியியல் தொழில்நுட்பங்களின் வளர்ச்சியையும் தூண்டுகிறது.

கணக்கீட்டு மொழியியலின் கட்டமைப்பிற்குள், இது 50 ஆண்டுகளுக்கும் மேலாக உள்ளது (மற்றும் அழைக்கப்படுகிறது இயந்திர மொழியியல், NL இல் தானியங்கி உரை செயலாக்கம்) பல நம்பிக்கைக்குரிய முறைகள் மற்றும் யோசனைகள் முன்மொழியப்பட்டுள்ளன, ஆனால் அவை அனைத்தும் நடைமுறையில் பயன்படுத்தப்படும் மென்பொருள் தயாரிப்புகளில் அவற்றின் வெளிப்பாட்டைக் கண்டறியவில்லை. இந்த ஆராய்ச்சித் துறையின் பிரத்தியேகங்களை வகைப்படுத்துவது, அதன் முக்கிய பணிகளை உருவாக்குவது, பிற அறிவியலுடனான அதன் தொடர்பைக் குறிப்பிடுவது, பயன்படுத்தப்படும் முக்கிய அணுகுமுறைகள் மற்றும் ஆதாரங்களைப் பற்றிய சுருக்கமான கண்ணோட்டத்தை வழங்குவது மற்றும் CL இன் தற்போதைய பயன்பாடுகளை சுருக்கமாக வகைப்படுத்துவது எங்கள் குறிக்கோள். இந்த சிக்கல்களைப் பற்றிய விரிவான அறிமுகத்திற்கு, புத்தகங்களைப் பரிந்துரைக்கலாம்.

1. கணக்கீட்டு மொழியியல் சிக்கல்கள்

கணினி மொழியியல் மொழியியல், கணிதம், கணினி அறிவியல் (கணினி அறிவியல்) மற்றும் செயற்கை நுண்ணறிவு போன்ற அறிவியல்களின் குறுக்குவெட்டில் எழுந்தது. CL இன் தோற்றம் பிரபலமான அமெரிக்க விஞ்ஞானி N. சாம்ஸ்கியின் இயற்கை மொழியின் கட்டமைப்பை முறைப்படுத்தும் துறையில் ஆராய்ச்சிக்கு செல்கிறது; அதன் வளர்ச்சி பொது மொழியியல் துறையில் (மொழியியல்) முடிவுகளை அடிப்படையாகக் கொண்டது. மொழியியல் இயற்கை மொழியின் பொது விதிகளை ஆய்வு செய்கிறது - அதன் அமைப்பு மற்றும் செயல்பாடு, மேலும் பின்வரும் பகுதிகளை உள்ளடக்கியது:

Ø ஒலியியல்- பேச்சு உருவாக்கத்தின் போது பேச்சு ஒலிகள் மற்றும் அவற்றின் இணைப்பின் விதிகளைப் படிக்கிறது;

Ø உருவவியல்- பேச்சு வார்த்தைகளின் உள் அமைப்பு மற்றும் வெளிப்புற வடிவம், பேச்சின் பகுதிகள் மற்றும் அவற்றின் வகைகள் உட்பட;

Ø தொடரியல்- வாக்கியங்களின் அமைப்பு, பொருந்தக்கூடிய விதிகள் மற்றும் ஒரு வாக்கியத்தில் உள்ள சொற்களின் வரிசை, அத்துடன் மொழியின் அலகு என அதன் பொதுவான பண்புகள் ஆகியவற்றை ஆய்வு செய்கிறது.

Ø சொற்பொருள்மற்றும் நடைமுறைகள்- நெருங்கிய தொடர்புடைய பகுதிகள்: சொற்பொருள் சொற்கள், வாக்கியங்கள் மற்றும் பேச்சின் பிற அலகுகளின் பொருளைக் கையாள்கிறது, மேலும் நடைமுறைகள் குறிப்பிட்ட தகவல்தொடர்பு இலக்குகளுடன் இந்த அர்த்தத்தை வெளிப்படுத்தும் தனித்தன்மையைக் கையாளுகின்றன;

Ø அகராதியியல்ஒரு குறிப்பிட்ட NL இன் அகராதியை விவரிக்கிறது - அதன் தனிப்பட்ட சொற்கள் மற்றும் அவற்றின் இலக்கண பண்புகள், அத்துடன் அகராதிகளை உருவாக்கும் முறைகள்.

மொழியியல் மற்றும் கணிதத்தின் குறுக்குவெட்டில் பெறப்பட்ட N. சாம்ஸ்கியின் முடிவுகள், முறையான மொழிகள் மற்றும் இலக்கணங்களின் (பெரும்பாலும் அழைக்கப்படும்) கோட்பாட்டிற்கு அடித்தளம் அமைத்தது. உருவாக்கும், அல்லது உருவாக்கும்இலக்கண அறிஞர்கள்). இந்த கோட்பாடு இப்போது பொருந்தும் கணித மொழியியல்மேலும் NL ஐச் செயலாக்கப் பயன்படுகிறது, ஆனால் செயற்கை மொழிகள், முதன்மையாக நிரலாக்க மொழிகள். அதன் இயல்பால், இது முற்றிலும் கணித ஒழுக்கம்.

கணித மொழியியலும் அடங்கும் அளவு மொழியியல், இது மொழியின் அதிர்வெண் பண்புகளை ஆய்வு செய்கிறது - சொற்கள், அவற்றின் சேர்க்கைகள், தொடரியல் கட்டமைப்புகள், மற்றும் புள்ளிவிவரங்களின் கணித முறைகளைப் பயன்படுத்துகிறது, எனவே அறிவியலின் இந்த கிளையை புள்ளிவிவர மொழியியல் என்று அழைக்கலாம்.

CL ஆனது செயற்கை நுண்ணறிவு (AI) போன்ற ஒரு இடைநிலை அறிவியல் துறையுடன் நெருக்கமாக தொடர்புடையது, இதில் தனிப்பட்ட அறிவுசார் செயல்பாடுகளின் கணினி மாதிரிகள் உருவாக்கப்படுகின்றன. AI மற்றும் CL துறையில் முதல் வேலை திட்டங்களில் ஒன்று T. Winograd இன் பிரபலமான திட்டமாகும், இது க்யூப்ஸ் உலகத்தை மாற்றுவதற்கான எளிய மனித கட்டளைகளை புரிந்து கொண்டது, இது NL இன் வரையறுக்கப்பட்ட துணைக்குழுவில் வடிவமைக்கப்பட்டுள்ளது. CL மற்றும் AI துறையில் ஆராய்ச்சியின் வெளிப்படையான குறுக்குவெட்டு இருந்தபோதிலும் (மொழி புலமை அறிவார்ந்த செயல்பாடுகளுடன் தொடர்புடையது என்பதால்), AI அனைத்து CL ஐயும் உள்வாங்குவதில்லை, ஏனெனில் அது அதன் சொந்த கோட்பாட்டு அடிப்படை மற்றும் வழிமுறையைக் கொண்டுள்ளது. இந்த விஞ்ஞானங்களுக்கு பொதுவானது கணினி மாடலிங் முக்கிய முறை மற்றும் ஆராய்ச்சியின் இறுதி இலக்கு ஆகும்.

எனவே, CL பணியானது NL இல் உள்ள உரைகளை தானியங்கு செயலாக்கத்திற்கான கணினி நிரல்களின் வளர்ச்சியாக உருவாக்கலாம். செயலாக்கம் மிகவும் பரந்த அளவில் புரிந்து கொள்ளப்பட்டாலும், அனைத்து வகையான செயலாக்கங்களையும் மொழியியல் என்றும், அதனுடன் தொடர்புடைய செயலிகளை மொழியியல் என்றும் அழைக்க முடியாது. மொழியியல் செயலிமொழியின் ஒன்று அல்லது மற்றொரு முறையான மாதிரியைப் பயன்படுத்த வேண்டும் (மிகவும் எளிமையானது கூட), அதாவது அது ஒரு வழியில் அல்லது வேறு மொழியில் மொழி சார்ந்ததாக இருக்க வேண்டும் (அதாவது, ஒரு குறிப்பிட்ட NL சார்ந்தது). எனவே, எடுத்துக்காட்டாக, மைக்ரோசாஃப்ட் வேர்ட் உரை எடிட்டரை மொழியியல் என்று அழைக்கலாம் (அது அகராதிகளைப் பயன்படுத்துவதால் மட்டுமே), ஆனால் நோட்பேட் எடிட்டரால் முடியாது.

சி.எல் பணிகளின் சிக்கலானது, என்.எல் என்பது மக்களிடையே தகவல் பரிமாற்றத்திற்காக எழுந்த ஒரு சிக்கலான பல-நிலை அறிகுறிகளின் அமைப்பாகும், இது மனித நடைமுறை செயல்பாட்டின் செயல்பாட்டில் உருவாக்கப்பட்டது மற்றும் இந்த செயல்பாடு தொடர்பாக தொடர்ந்து மாறுகிறது. CL முறைகளை உருவாக்குவதில் மற்றொரு சிரமம் (மற்றும் மொழியியலின் கட்டமைப்பிற்குள் NL ஐப் படிப்பதில் உள்ள சிரமம்) இயற்கை மொழிகளின் பன்முகத்தன்மை, அவற்றின் சொல்லகராதி, உருவவியல், தொடரியல் ஆகியவற்றில் குறிப்பிடத்தக்க வேறுபாடுகளுடன் தொடர்புடையது. வெவ்வேறு மொழிகள்வழங்குகின்றன வெவ்வேறு வழிகளில்அதே அர்த்தத்தின் வெளிப்பாடுகள்.

2. NL அமைப்பின் அம்சங்கள்: நிலைகள் மற்றும் இணைப்புகள்

மொழியியல் செயலிகளின் பொருள் என்எல் நூல்கள். உரைகள் பேச்சு மாதிரிகள் - வாய்வழி மற்றும் எழுதப்பட்ட, எந்த வகையிலும் புரிந்து கொள்ளப்படுகின்றன, ஆனால் முக்கியமாக CL எழுதப்பட்ட உரைகளை கருதுகிறது. உரை ஒரு பரிமாண, நேரியல் கட்டமைப்பைக் கொண்டுள்ளது, மேலும் ஒரு குறிப்பிட்ட அர்த்தத்தையும் கொண்டுள்ளது, அதே நேரத்தில் மொழி கடத்தப்பட்ட பொருளை உரைகளாக (பேச்சு தொகுப்பு) மற்றும் நேர்மாறாக (பேச்சு பகுப்பாய்வு) மாற்றுவதற்கான வழிமுறையாக செயல்படுகிறது. உரை சிறிய அலகுகளால் ஆனது, மேலும் உரையை வெவ்வேறு நிலைகளுக்குச் சொந்தமான அலகுகளாகப் பிரிக்க (வகுத்தல்) பல வழிகள் உள்ளன.

பின்வரும் நிலைகளின் இருப்பு பொதுவாக ஏற்றுக்கொள்ளப்படுகிறது:

முன்மொழிவுகளின் நிலை (அறிக்கைகள்) - தொடரியல் நிலை;

· லெக்சிகோ-உருவவியல்ஹோமோனிமி (மிகவும் பொதுவான வகை) இரண்டு வெவ்வேறு லெக்ஸெம்களின் சொல் வடிவங்கள் ஒன்றிணைந்தால் நிகழ்கிறது, எடுத்துக்காட்டாக, கவிதை- ஒருமையில் ஒரு வினைச்சொல், ஆண்பால், மற்றும் ஒருமையில் ஒரு பெயர்ச்சொல், பெயரிடல் வழக்கில்),

· தொடரியல் ஒத்திசைவுதொடரியல் கட்டமைப்பின் தெளிவின்மையைக் குறிக்கிறது, இது பல விளக்கங்களுக்கு வழிவகுக்கிறது: எல்வோவில் இருந்து மாணவர்கள் கியேவுக்குச் சென்றனர்,பறக்கும் விமானங்கள் முடியும் இரு ஆபத்தானது(சாம்ஸ்கியின் பிரபலமான உதாரணம்) போன்றவை.

3. கணக்கீட்டு மொழியியலில் மாடலிங்

மொழியியல் செயலியின் (LP) வளர்ச்சியானது செயலாக்கப்பட்ட NL உரையின் மொழியியல் பண்புகளின் விளக்கத்தை உள்ளடக்கியது, மேலும் இந்த விளக்கம் பின்வருமாறு ஒழுங்கமைக்கப்பட்டுள்ளது. மாதிரி மொழி. கணிதம் மற்றும் நிரலாக்கத்தில் மாதிரியாக்கத்தைப் போலவே, ஒரு மாதிரியானது ஒரு குறிப்பிட்ட அமைப்பாகப் புரிந்து கொள்ளப்படுகிறது, இது மாதிரியான நிகழ்வின் பல அத்தியாவசிய பண்புகளைக் காட்டுகிறது (அதாவது, SE) எனவே கட்டமைப்பு அல்லது செயல்பாட்டு ஒற்றுமையைக் கொண்டுள்ளது.

CL இல் பயன்படுத்தப்படும் மொழி மாதிரிகள் பொதுவாக மொழியியலாளர்களால் பல்வேறு நூல்களைப் படிப்பதன் மூலம் உருவாக்கப்பட்ட கோட்பாடுகள் மற்றும் அவற்றின் மொழியியல் உள்ளுணர்வு (உள்நோக்கம்) ஆகியவற்றின் அடிப்படையில் உருவாக்கப்படுகின்றன. CL மாடல்களின் குறிப்பிட்ட அம்சங்கள் என்ன? பின்வரும் அம்சங்களை வேறுபடுத்தி அறியலாம்:

· சம்பிரதாயம் மற்றும், இறுதியில், அல்காரிதம்மைசபிலிட்டி;

· செயல்பாடு (மாடலிங் நோக்கம் மனித பேச்சு தொகுப்பு மற்றும் பகுப்பாய்வு ஒரு துல்லியமான மாதிரி உருவாக்க இல்லாமல், ஒரு "கருப்பு பெட்டி" மொழி செயல்பாடுகளை இனப்பெருக்கம் ஆகும்);

· மாதிரியின் பொதுத்தன்மை, அதாவது, இது ஒரு பெரிய அளவிலான நூல்களை கணக்கில் எடுத்துக்கொள்கிறது;

· சோதனை செல்லுபடியாகும், இது வெவ்வேறு உரைகளில் மாதிரியை சோதிப்பதை உள்ளடக்கியது;

· மாதிரியின் கட்டாய அங்கமாக அகராதிகளை நம்புதல்.

NL இன் சிக்கலான தன்மை, அதன் விளக்கம் மற்றும் செயலாக்கம் இந்த செயல்முறையை மொழியின் நிலைகளுக்கு ஏற்ப தனித்தனி நிலைகளாக பிரிக்க வழிவகுக்கிறது, பெரும்பாலான நவீன LP கள் மட்டு வகையாகும், இதில் மொழியியல் பகுப்பாய்வு அல்லது தொகுப்பு ஒவ்வொன்றும் தனித்தனியாக ஒத்திருக்கும். செயலி தொகுதி. குறிப்பாக, உரை பகுப்பாய்வு விஷயத்தில், தனிப்பட்ட LP தொகுதிகள் செயல்படுகின்றன:

Ø வரைகலை பகுப்பாய்வு, அதாவது, உரையில் வார்த்தை வடிவங்களை முன்னிலைப்படுத்துதல் (குறியீடுகளிலிருந்து சொற்களுக்கு மாறுதல்);

Ø உருவவியல் பகுப்பாய்வு - வார்த்தை வடிவங்களிலிருந்து அவற்றின் மாறுதல் லெம்மாஸ்(லெக்ஸீம்களின் அகராதி வடிவங்கள்) அல்லது அடிப்படைகள்(வார்த்தையின் அணுக்கரு பகுதிகள், மைனஸ் இன்ஃப்ளெக்ஷனல் மார்பீம்கள்);

Ø பாகுபடுத்துதல், அதாவது அடையாளம் காணுதல் இலக்கண அமைப்புஉரை வாக்கியங்கள்;

Ø சொற்பொருள் மற்றும் நடைமுறை பகுப்பாய்வு, இது சொற்றொடர்களின் அர்த்தத்தையும் LP செயல்படும் அமைப்பின் தொடர்புடைய எதிர்வினையையும் தீர்மானிக்கிறது.

இந்த தொகுதிகளின் தொடர்புக்கான வெவ்வேறு திட்டங்கள் சாத்தியமாகும் (தொடர் செயல்பாடு அல்லது இணையான இடைப்பட்ட பகுப்பாய்வு), இருப்பினும், தனிப்பட்ட நிலைகள் - உருவவியல், தொடரியல் மற்றும் சொற்பொருள்கள் இன்னும் வெவ்வேறு வழிமுறைகளால் செயலாக்கப்படுகின்றன.

எனவே, எல்பியை பல-நிலை மாற்றியாகக் கருதலாம், இது உரை பகுப்பாய்வின் விஷயத்தில், அதன் ஒவ்வொரு வாக்கியத்தையும் அதன் அர்த்தத்தின் உள் பிரதிநிதித்துவமாகவும், தொகுப்பின் விஷயத்தில் நேர்மாறாகவும் மொழிபெயர்க்கிறது. தொடர்புடைய மொழி மாதிரியை அழைக்கலாம் கட்டமைப்பு.

முழுமையான CL மாதிரிகள் மொழியின் அனைத்து முக்கிய நிலைகளையும் அதனுடன் தொடர்புடைய தொகுதிகள் இருப்பதையும் கணக்கில் எடுத்துக்கொள்ள வேண்டும் என்றாலும், சில பயன்பாட்டு சிக்கல்களைத் தீர்க்கும் போது LP இல் தனிப்பட்ட நிலைகளைக் குறிப்பிடாமல் செய்ய முடியும். எடுத்துக்காட்டாக, ஆரம்பகால சோதனை CL நிரல்களில், பதப்படுத்தப்பட்ட உரைகள் மிகக் குறுகிய சிக்கல் பகுதிகளைச் சேர்ந்தவை (வரையறுக்கப்பட்ட சொற்கள் மற்றும் அவற்றின் கடுமையான வரிசையுடன்), எனவே அவற்றின் ஆரம்ப எழுத்துக்கள் சொற்களை அடையாளம் காண பயன்படுத்தப்படலாம், உருவவியல் மற்றும் தொடரியல் நிலைகளைத் தவிர்க்கலாம். பகுப்பாய்வு.

குறைக்கப்பட்ட மாதிரியின் மற்றொரு எடுத்துக்காட்டு, இப்போது அடிக்கடி பயன்படுத்தப்படுகிறது, ஒரு குறிப்பிட்ட NL இன் உரைகளில் குறியீடுகளின் அதிர்வெண் மற்றும் அவற்றின் சேர்க்கைகள் (டிகிராம்கள், ட்ரைகிராம்கள் போன்றவை) மொழி மாதிரி. அத்தகைய புள்ளிவிவர மாதிரிஉரையின் எழுத்துக்கள் (எழுத்துகள்) மட்டத்தில் மொழியியல் தகவலைக் காட்டுகிறது, எடுத்துக்காட்டாக, உரையில் எழுத்துப்பிழைகளை அடையாளம் காண அல்லது அதன் மொழியியல் அடையாளத்தை அங்கீகரிக்க இது போதுமானது. தனிப்பட்ட சொற்களின் புள்ளிவிவரங்கள் மற்றும் நூல்களில் (பிகிராம்கள், சொற்களின் திரிகிராம்கள்) ஆகியவற்றின் அடிப்படையில் இதேபோன்ற மாதிரி பயன்படுத்தப்படுகிறது, எடுத்துக்காட்டாக, லெக்சிக்கல் தெளிவின்மையைத் தீர்க்க அல்லது ஒரு வார்த்தையின் பேச்சின் பகுதியை தீர்மானிக்க (ஆங்கிலம் போன்ற மொழிகளில்). )

அது சாத்தியம் என்பதை கவனத்தில் கொள்ளவும் கட்டமைப்பு-புள்ளிவிவர மாதிரிகள், இதில், NL இன் தனிப்பட்ட நிலைகளைக் குறிக்கும் போது, ​​ஒன்று அல்லது மற்றொரு புள்ளிவிவரங்கள் கணக்கில் எடுத்துக்கொள்ளப்படுகின்றன - வார்த்தைகள், தொடரியல் கட்டமைப்புகள் போன்றவை.

எல்பியில் மட்டு வகைஉரை பகுப்பாய்வு அல்லது தொகுப்பின் ஒவ்வொரு கட்டத்திலும், தொடர்புடைய மாதிரி (உருவவியல், தொடரியல், முதலியன) பயன்படுத்தப்படுகிறது.

CL இல் இருக்கும் வார்த்தை வடிவங்களை பகுப்பாய்வு செய்வதற்கான உருவ மாதிரிகள் முக்கியமாக பின்வரும் அளவுருக்களில் வேறுபடுகின்றன:

· வேலையின் முடிவு - கொடுக்கப்பட்ட சொல் வடிவத்தின் உருவவியல் பண்புகள் (பாலினம், எண், வழக்கு, அம்சம், நபர், முதலியன) ஒரு லெம்மா அல்லது தண்டு;

· பகுப்பாய்வு முறை - ஒரு மொழியின் சொல் வடிவங்களின் அகராதி அல்லது அடிப்படைகளின் அகராதி அல்லது அகராதி இல்லாத முறையின் அடிப்படையில்;

அகராதியில் சேர்க்கப்படாத லெக்ஸீமின் சொல் வடிவத்தைச் செயலாக்கும் திறன்.

உருவவியல் தொகுப்பில், ஆரம்ப தரவு என்பது இந்த லெக்ஸீமின் கோரப்பட்ட சொல் வடிவத்தின் லெக்ஸீம் மற்றும் குறிப்பிட்ட உருவவியல் பண்புகள் ஆகும்; கொடுக்கப்பட்ட லெக்ஸீமின் அனைத்து வடிவங்களின் தொகுப்புக்கான கோரிக்கையும் சாத்தியமாகும். உருவவியல் பகுப்பாய்வு மற்றும் தொகுப்பு இரண்டின் முடிவு பொதுவாக தெளிவற்றதாக உள்ளது.

CL இன் கட்டமைப்பிற்குள் தொடரியல் மாதிரியை உருவாக்க, ஒரு பெரிய எண்ணிக்கையிலான பல்வேறு யோசனைகள் மற்றும் முறைகள் முன்மொழியப்பட்டுள்ளன, மொழியின் தொடரியல் விவரிக்கும் விதம், NL வாக்கியத்தின் பகுப்பாய்வு அல்லது தொகுப்பில் இந்தத் தகவலைப் பயன்படுத்தும் விதம், வாக்கியத்தின் தொடரியல் அமைப்பைக் குறிக்கும் வழி. மிகவும் வழக்கமாக, மாதிரிகளை உருவாக்குவதற்கான மூன்று முக்கிய அணுகுமுறைகளை நாம் வேறுபடுத்தி அறியலாம்: ஒரு உருவாக்கும் அணுகுமுறை, சாம்ஸ்கியின் யோசனைகளுக்குத் திரும்புதல், I. Melchuk இன் யோசனைகளுக்குச் செல்லும் அணுகுமுறை மற்றும் "அர்த்தம்-உரை" மாதிரியால் குறிப்பிடப்படுகிறது, அத்துடன் முதல் இரண்டு அணுகுமுறைகளின் வரம்புகளை கடக்க சில முயற்சிகள் மேற்கொள்ளப்படும் ஒரு அணுகுமுறை, குறிப்பாக, தொடரியல் குழுக்களின் கோட்பாடு.

உருவாக்கும் அணுகுமுறையில், தொடரியல் பகுப்பாய்வு வழக்கமாக ஒரு வாக்கியத்தின் சொற்றொடர் கட்டமைப்பை விவரிக்கும் முறையான சூழல்-இல்லாத இலக்கணத்தின் அடிப்படையில் அல்லது சூழல்-இலவச இலக்கணத்தின் சில நீட்டிப்புகளின் அடிப்படையில் செய்யப்படுகிறது. இந்த இலக்கணங்கள் ஒரு வாக்கியத்தின் நிலையான நேரியல் பிரிவை சொற்றொடர்களாக (தொடக்கவியல் கட்டுமானங்கள், எடுத்துக்காட்டாக, பெயர்ச்சொல் சொற்றொடர்கள்) அடிப்படையாகக் கொண்டவை, எனவே அதன் தொடரியல் மற்றும் நேரியல் கட்டமைப்புகள் இரண்டையும் ஒரே நேரத்தில் பிரதிபலிக்கின்றன. பகுப்பாய்வின் விளைவாக பெறப்பட்ட NL வாக்கியத்தின் படிநிலை தொடரியல் அமைப்பு விவரிக்கப்பட்டுள்ளது கூறுகளின் மரம், வாக்கியத்தின் சொற்களைக் கொண்ட இலைகள், துணை மரங்கள் வாக்கியத்தில் சேர்க்கப்பட்டுள்ள தொடரியல் கட்டுமானங்களுடன் (சொற்றொடர்கள்) ஒத்திருக்கின்றன, மேலும் வளைவுகள் கட்டுமானங்களின் கூடு உறவுகளை வெளிப்படுத்துகின்றன.

பரிசீலனையில் உள்ள அணுகுமுறை நெட்வொர்க் இலக்கணங்களை உள்ளடக்கியிருக்கலாம், இவை இரண்டும் ஒரு மொழி அமைப்பை விவரிப்பதற்கும் மற்றும் வரையறுக்கப்பட்ட நிலை இயந்திரத்தின் கருத்தின் அடிப்படையில் வாக்கியங்களை பகுப்பாய்வு செய்வதற்கான செயல்முறையைக் குறிப்பிடுவதற்கும் ஒரு கருவியாகும், எடுத்துக்காட்டாக, நீட்டிக்கப்பட்ட மாறுதல் நெட்வொர்க் ATN.

இரண்டாவது அணுகுமுறையில், ஒரு வாக்கியத்தின் தொடரியல் கட்டமைப்பைக் குறிக்க மிகவும் காட்சி மற்றும் பொதுவான முறை பயன்படுத்தப்படுகிறது - சார்பு மரங்கள். மரத்தின் முனைகள் வாக்கியத்தின் சொற்களைக் கொண்டிருக்கின்றன (வேர் பொதுவாக ஒரு வினை-முன்கணிப்பு), மேலும் ஒரு ஜோடி முனைகளை இணைக்கும் மரத்தின் ஒவ்வொரு வளைவும் தொடரியல் என விளக்கப்படுகிறது. கீழ்ப்படுத்துதல் இணைப்புஅவற்றுக்கிடையே, மற்றும் இணைப்பின் திசை கொடுக்கப்பட்ட வில் திசைக்கு ஒத்துள்ளது. இந்த வழக்கில் சொற்களின் தொடரியல் இணைப்புகளும் ஒரு வாக்கியத்தில் உள்ள சொற்களின் வரிசையும் பிரிக்கப்பட்டதால், கீழ்ப்படிதல் மரங்களின் அடிப்படையில், உடைந்த மற்றும் திட்டமில்லாததுஇலவச வார்த்தை வரிசையுடன் மொழிகளில் அடிக்கடி தோன்றும் கட்டுமானங்கள்.

கூறு மரங்கள் கடினமான வார்த்தை வரிசையில் மொழிகளை விவரிக்க மிகவும் பொருத்தமானது; உடைந்த மற்றும் திட்டமில்லாத கட்டுமானங்களை அவற்றின் உதவியுடன் பிரதிநிதித்துவப்படுத்துவதற்கு பயன்படுத்தப்படும் இலக்கண சம்பிரதாயத்தை விரிவுபடுத்த வேண்டும். ஆனால் இந்த அணுகுமுறையின் கட்டமைப்பிற்குள், அடிபணியாத உறவுகளைக் கொண்ட கட்டுமானங்கள் மிகவும் இயல்பாக விவரிக்கப்பட்டுள்ளன. அதே நேரத்தில், இரண்டு அணுகுமுறைகளுக்கும் பொதுவான சிரமம் ஒரு வாக்கியத்தின் ஒரே மாதிரியான உறுப்பினர்களின் பிரதிநிதித்துவம் ஆகும்.

அனைத்து அணுகுமுறைகளிலும் தொடரியல் மாதிரிகள் பேச்சில் மொழியியல் அலகுகளை இணைப்பதில் விதிக்கப்பட்ட கட்டுப்பாடுகளை கணக்கில் எடுத்துக்கொள்ள முயற்சிக்கின்றன, அதே நேரத்தில் வேலன்சி என்ற கருத்து ஒரு வழியில் அல்லது வேறு வழியில் பயன்படுத்தப்படுகிறது. வேலன்ஸ்- இது ஒரு சொல் அல்லது மொழியின் பிற அலகு ஒரு குறிப்பிட்ட தொடரியல் வழியில் மற்ற அலகுகளை இணைக்கும் திறன்; செயலாற்றுபவர்இந்த வேலன்ஸை நிரப்பும் ஒரு சொல் அல்லது தொடரியல் கட்டுமானமாகும். உதாரணமாக, ரஷ்ய வினைச்சொல் ஒப்படை, பொறுப்பை ஒப்படைமூன்று முக்கிய வேலன்ஸ்கள் உள்ளன, அவை பின்வரும் கேள்வி வார்த்தைகளால் வெளிப்படுத்தப்படலாம்: WHO? யாருக்கு? என்ன?உருவாக்கும் அணுகுமுறையின் கட்டமைப்பிற்குள், சொற்களின் மதிப்புகள் (முதன்மையாக வினைச்சொற்கள்) முக்கியமாக சிறப்பு சட்டங்களின் வடிவத்தில் விவரிக்கப்பட்டுள்ளன ( துணை வகைப்பாடு சட்டங்கள்) மற்றும் சார்பு மரங்களை அடிப்படையாகக் கொண்ட அணுகுமுறையின் கட்டமைப்பிற்குள் - எப்படி மேலாண்மை மாதிரிகள்.

மொழி சொற்பொருளின் மாதிரிகள் CL இன் கட்டமைப்பிற்குள் குறைவாகவே உருவாக்கப்பட்டுள்ளன. வாக்கியங்களின் சொற்பொருள் பகுப்பாய்விற்கு, வழக்கு இலக்கணங்கள் மற்றும் சொற்பொருள் வழக்குகள்(valence), இதன் அடிப்படையில் ஒரு வாக்கியத்தின் சொற்பொருள் முக்கிய வார்த்தையின் (வினை) இணைப்புகள் மூலம் அதன் சொற்பொருள் செயல்பாட்டின் மூலம் விவரிக்கப்படுகிறது, அதாவது சொற்பொருள் வழக்குகள் மூலம். உதாரணமாக, வினைச்சொல் ஒப்படை, பொறுப்பை ஒப்படைசொற்பொருள் வழக்குகளால் விவரிக்கப்பட்டது கொடுக்கும்(முகவர்), முகவரியாளர்மற்றும் பொருள் பரிமாற்றம்.

ஒரு முழு உரையின் சொற்பொருளை பிரதிநிதித்துவப்படுத்த, இரண்டு தர்க்கரீதியாக சமமான சம்பிரதாயங்கள் பொதுவாகப் பயன்படுத்தப்படுகின்றன (இவை இரண்டும் AI கட்டமைப்பிற்குள் விரிவாக விவரிக்கப்பட்டுள்ளன):

· பண்புகள், நிலைகள், செயல்முறைகள், செயல்கள் மற்றும் உறவுகளை வெளிப்படுத்தும் முன்னறிவிப்புகளின் கால்குலஸிற்கான சூத்திரங்கள்;

· சொற்பொருள் நெட்வொர்க்குகள் வரைபடங்கள் என்று பெயரிடப்படுகின்றன, இதில் செங்குத்துகள் கருத்துகளுடன் ஒத்திருக்கும், மேலும் செங்குத்துகள் அவற்றுக்கிடையேயான உறவுகளுக்கு ஒத்திருக்கும்.

தனிப்பட்ட வாக்கியங்களை மட்டுமல்ல, ஒட்டுமொத்த உரையையும் செயலாக்க அனுமதிக்கும் நடைமுறை மற்றும் சொற்பொழிவின் மாதிரிகளைப் பொறுத்தவரை, வான் டிக்கின் யோசனைகள் முக்கியமாக அவற்றை உருவாக்கப் பயன்படுத்தப்படுகின்றன. அரிதான மற்றும் வெற்றிகரமான மாதிரிகளில் ஒன்று ஒத்திசைவான உரைகளின் விவாதத் தொகுப்பின் மாதிரியாகும். அத்தகைய மாதிரிகள் அனபோரிக் குறிப்புகள் மற்றும் பிற சொற்பொழிவு-நிலை நிகழ்வுகளை கணக்கில் எடுத்துக்கொள்ள வேண்டும்.

CL இன் கட்டமைப்பிற்குள் மொழி மாதிரிகளின் குணாதிசயத்தை முடித்து, மொழியியல் மாதிரிகள் "பொருள்-உரை" என்ற கோட்பாட்டை இன்னும் கொஞ்சம் விரிவாகப் பார்ப்போம், மேலும் அதன் கட்டமைப்பிற்குள் பல பயனுள்ள யோசனைகள் தோன்றின. இன்றும் பொருத்தமானது.

இந்த கோட்பாட்டிற்கு இணங்க, என்எல் ஒரு சிறப்பு வகையான மின்மாற்றியாகக் கருதப்படுகிறது, இது கொடுக்கப்பட்ட அர்த்தங்களை தொடர்புடைய உரைகளாகவும் கொடுக்கப்பட்ட உரைகளை தொடர்புடைய அர்த்தங்களாகவும் செயலாக்குகிறது. உரையின் அனைத்து ஒத்த மாற்றங்களின் மாறாத பொருளாக பொருள் புரிந்து கொள்ளப்படுகிறது. சொற்றொடர்கள் மற்றும் சொல் வடிவங்களாகப் பிரிக்காமல் ஒரு ஒத்திசைவான பேச்சின் உள்ளடக்கம் இரண்டு கூறுகளைக் கொண்ட ஒரு சிறப்பு சொற்பொருள் பிரதிநிதித்துவத்தின் வடிவத்தில் காட்டப்படும்: சொற்பொருள் வரைபடம்மற்றும் பற்றிய தகவல்கள் பொருள் தொடர்பு அமைப்பு.

கோட்பாட்டின் தனித்துவமான அம்சங்கள் சுட்டிக்காட்டப்பட வேண்டும்:

உரைகளின் தொகுப்பை நோக்கிய நோக்குநிலை (சரியான நூல்களை உருவாக்கும் திறன் மொழியியல் திறனின் முக்கிய அளவுகோலாகக் கருதப்படுகிறது);

மாதிரியின் பல-நிலை, மட்டு இயல்பு, மொழியின் முக்கிய நிலைகள் மேலோட்டமான மற்றும் ஆழமான நிலைகளாக பிரிக்கப்பட்டுள்ளன: அவை வேறுபடுகின்றன, எடுத்துக்காட்டாக, ஆழமான(சொற்பொருள்) மற்றும் மேற்பரப்பு("தூய") தொடரியல், அத்துடன் மேற்பரப்பு-உருவவியல் மற்றும் ஆழமான-உருவவியல் நிலைகள்;

மொழி மாதிரியின் ஒருங்கிணைந்த தன்மை; ஒவ்வொரு மட்டத்திலும் தொடர்புடைய தொகுதி மூலம் வழங்கப்பட்ட தகவல்களைச் சேமித்து, இந்த மட்டத்திலிருந்து அடுத்த நிலைக்கு மாறுவதைச் செய்கிறது;

ஒவ்வொரு மட்டத்திலும் தொடரியல் (அலகுகளை இணைப்பதற்கான விதிகள்) விவரிக்கும் சிறப்பு வழிமுறைகள்; லெக்சிக்கல் பொருந்தக்கூடிய தன்மையை விவரிக்க ஒரு தொகுப்பு முன்மொழியப்பட்டது லெக்சிக்கல் செயல்பாடுகள், அதன் உதவியுடன் தொடரியல் பாராபிரேசிங் விதிகள் உருவாக்கப்படுகின்றன;

இலக்கணத்தை விட சொல்லகராதிக்கு முக்கியத்துவம் கொடுப்பது; அகராதி பல்வேறு மொழி நிலைகள் தொடர்பான தகவல்களைச் சேமிக்கிறது; குறிப்பாக, அவற்றின் தொடரியல் மற்றும் சொற்பொருள் வேலன்சிகளை விவரிக்கும் சொல் கட்டுப்பாட்டு மாதிரிகள் தொடரியல் பகுப்பாய்விற்குப் பயன்படுத்தப்படுகின்றன.

இந்த கோட்பாடு மற்றும் மொழி மாதிரி ETAP இயந்திர மொழிபெயர்ப்பு அமைப்பில் பொதிந்துள்ளது.

4. மொழியியல் வளங்கள்

மொழியியல் செயலிகளின் வளர்ச்சிக்கு, பதப்படுத்தப்பட்ட மொழி பற்றிய மொழியியல் தகவலின் பொருத்தமான பிரதிநிதித்துவம் தேவைப்படுகிறது. இந்தத் தகவல் பல்வேறு கணினி அகராதிகள் மற்றும் இலக்கணங்களில் காட்டப்படும்.

அகராதிகள்லெக்சிகல் தகவலைப் பிரதிநிதித்துவப்படுத்தும் மிகவும் பாரம்பரியமான வடிவம்; அவை அவற்றின் அலகுகள் (பொதுவாக சொற்கள் அல்லது சொற்றொடர்கள்), அமைப்பு மற்றும் சொல்லகராதி கவரேஜ் (குறிப்பிட்ட சிக்கல் பகுதியில் உள்ள சொற்களின் அகராதிகள், பொது சொற்களஞ்சியத்தின் அகராதிகள் போன்றவை) வேறுபடுகின்றன. சொல்லகராதி அலகு என்று அழைக்கப்படுகிறது அகராதி நுழைவு, இது டோக்கன் பற்றிய தகவலை வழங்குகிறது. லெக்சிகல் ஹோமோனிம்கள் பொதுவாக வெவ்வேறு அகராதி உள்ளீடுகளில் குறிப்பிடப்படுகின்றன.

CL இல் மிகவும் பொதுவானது, உருவவியல் பகுப்பாய்விற்குப் பயன்படுத்தப்படும் உருவவியல் அகராதிகள் ஆகும்; அவற்றின் அகராதி உள்ளீடு தொடர்புடைய வார்த்தையைப் பற்றிய உருவவியல் தகவல்களை வழங்குகிறது - பேச்சின் ஒரு பகுதி, ஊடுருவல் வகுப்பு (பக்க மொழிகளுக்கு), வார்த்தையின் அர்த்தங்களின் பட்டியல் போன்றவை. அமைப்பின் அமைப்பைப் பொறுத்து. அகராதியில் உள்ள மொழியியல் செயலி இலக்கண தகவல்களையும் சேர்க்கலாம், எடுத்துக்காட்டாக, சொல் கட்டுப்பாடு மாதிரிகள்.

சொற்களைப் பற்றிய விரிவான தகவல்களை வழங்கும் அகராதிகள் உள்ளன. எடுத்துக்காட்டாக, மொழியியல் மாதிரி "பொருள்-உரை" கணிசமாக நம்பியுள்ளது விளக்க கூட்டு அகராதி, அகராதி உள்ளீட்டில், உருவவியல், தொடரியல் மற்றும் சொற்பொருள் தகவல்களுக்கு (தொடக்கவியல் மற்றும் சொற்பொருள் மதிப்புகள்) கூடுதலாக, இந்த வார்த்தையின் லெக்சிக்கல் பொருந்தக்கூடிய தன்மை பற்றிய தகவல்கள் வழங்கப்படுகின்றன.

பல மொழியியல் செயலிகள் பயன்படுத்தப்படுகின்றன ஒத்த அகராதிகள். ஒப்பீட்டளவில் புதிய வகைஅகராதிகள் - சொற்பொருள் அகராதிகள், அதாவது பொருளில் வேறுபடும் வெளிப்புறமாக ஒத்த சொற்கள், எடுத்துக்காட்டாக, அந்நியன்மற்றும் அன்னிய, திருத்துதல்மற்றும் குறிப்பு .

மற்றொரு வகை லெக்சிக்கல் வளங்கள் சொற்றொடர் தரவுத்தளங்கள், இதில் ஒரு குறிப்பிட்ட மொழியின் மிகவும் பொதுவான சொற்றொடர்கள் தேர்ந்தெடுக்கப்படுகின்றன. ரஷ்ய மொழி சொற்றொடர்களின் இந்த தரவுத்தளம் (சுமார் ஒரு மில்லியன் அலகுகள்) கிராஸ்லெக்ஸிகா அமைப்பின் மையமாக அமைகிறது.

லெக்சிக்கல் வளங்களின் மிகவும் சிக்கலான வகைகள் தெசோரி மற்றும் ஆன்டாலஜிஸ். ஒரு சொற்களஞ்சியம் என்பது ஒரு சொற்பொருள் அகராதி, அதாவது சொற்களின் சொற்பொருள் இணைப்புகள் வழங்கப்படும் அகராதி - ஒத்த, பேரின-வகை உறவுகள் (சில நேரங்களில் மேலே-கீழே உள்ள உறவு என்று அழைக்கப்படுகிறது), பகுதி-முழு, சங்கங்கள். சொற்களஞ்சியங்களின் பரவல் தகவல் மீட்டெடுப்பு சிக்கல்களைத் தீர்ப்பதோடு தொடர்புடையது.

ஒரு சொற்களஞ்சியத்தின் கருத்துடன் நெருக்கமாக தொடர்புடையது ஆன்டாலஜி கருத்து. ஆன்டாலஜி என்பது ஒரு குறிப்பிட்ட அறிவுத் துறையின் கருத்துகள் மற்றும் நிறுவனங்களின் தொகுப்பாகும், இது பல்வேறு பணிகளுக்கு மீண்டும் பயன்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது. ஒரு மொழியில் இருக்கும் சொற்களஞ்சியத்தின் அடிப்படையில் ஆன்டாலஜிகளை உருவாக்கலாம் - இந்த விஷயத்தில் அவை அழைக்கப்படுகின்றன மொழியியல்மற்றும்.

இதேபோன்ற மொழியியல் ஆன்டாலஜி வேர்ட்நெட் அமைப்பாகக் கருதப்படுகிறது - இது ஆங்கில வார்த்தைகளைக் கொண்ட ஒரு பெரிய லெக்சிக்கல் வளமாகும்: பெயர்ச்சொற்கள், உரிச்சொற்கள், வினைச்சொற்கள் மற்றும் வினையுரிச்சொற்கள் மற்றும் பல வகையான அவற்றின் சொற்பொருள் இணைப்புகளை வழங்குகிறது. பேச்சின் ஒவ்வொரு குறிப்பிட்ட பகுதிக்கும், சொற்கள் ஒத்த சொற்களின் குழுக்களாக தொகுக்கப்பட்டுள்ளன ( ஒத்திசைவுகள்), இவற்றுக்கு இடையே எதிர்ச்சொல், ஹைப்போனிமி (இன-இனங்கள் உறவு), மெரோனிமி (பகுதி-முழு உறவு) ஆகியவற்றின் உறவுகள் நிறுவப்பட்டுள்ளன. ஆதாரத்தில் சுமார் 25 ஆயிரம் சொற்கள் உள்ளன, இன-இன உறவுகளுக்கான படிநிலை நிலைகளின் எண்ணிக்கை சராசரியாக 6-7 ஆகும், சில சமயங்களில் 15 ஐ அடையும். படிநிலையின் மேல் நிலை ஒரு பொதுவான ஆன்டாலஜியை உருவாக்குகிறது - உலகத்தைப் பற்றிய அடிப்படைக் கருத்துகளின் அமைப்பு.

ஆங்கில வேர்ட்நெட் திட்டத்தின் அடிப்படையில், பிற ஐரோப்பிய மொழிகளுக்கான இதே போன்ற லெக்சிகல் வளங்கள் யூரோ வேர்ட்நெட் என்ற பொதுப் பெயரில் இணைக்கப்பட்டன.

முற்றிலும் மாறுபட்ட மொழியியல் வளங்கள் என்.எல் இலக்கணம், இதன் வகை செயலியில் பயன்படுத்தப்படும் தொடரியல் மாதிரியைப் பொறுத்தது. முதல் தோராயமாக, இலக்கணம் என்பது சொற்கள் மற்றும் சொற்களின் குழுக்களின் பொதுவான தொடரியல் பண்புகளை வெளிப்படுத்தும் விதிகளின் தொகுப்பாகும். மொத்த எண்ணிக்கைஇலக்கண விதிகளும் தொடரியல் மாதிரியைப் பொறுத்தது, பல பத்துகள் முதல் பல நூறுகள் வரை மாறுபடும். அடிப்படையில், ஒரு மொழி மாதிரியில் இலக்கணத்திற்கும் சொல்லகராதிக்கும் இடையிலான உறவாக இங்கு ஒரு சிக்கல் எழுகிறது: அகராதியில் அதிக தகவல்கள் வழங்கப்படுவதால், இலக்கணம் குறுகியதாக இருக்கலாம் மற்றும் நேர்மாறாகவும் இருக்கலாம்.

கணினி அகராதிகள், சொற்களஞ்சியம் மற்றும் இலக்கணங்களின் கட்டுமானம் ஒரு பெரிய மற்றும் உழைப்பு மிகுந்த வேலை, சில சமயங்களில் மொழியியல் மாதிரி மற்றும் தொடர்புடைய செயலியின் வளர்ச்சியை விட அதிக உழைப்பு-தீவிரமானது என்பதை நினைவில் கொள்க. எனவே, CL இன் துணைப் பணிகளில் ஒன்று மொழியியல் வளங்களின் கட்டுமானத்தின் தன்னியக்கமாகும்.

கணினி அகராதிகள் பெரும்பாலும் சாதாரண உரை அகராதிகளை மாற்றுவதன் மூலம் உருவாக்கப்படுகின்றன, ஆனால் பெரும்பாலும் அவற்றின் கட்டுமானத்திற்கு மிகவும் சிக்கலான மற்றும் தேவைப்படுகிறது கடினமான வேலை. விரைவாக வளரும் அறிவியல் துறைகளுக்கு - மூலக்கூறு உயிரியல், கணினி அறிவியல், முதலியன அகராதிகளையும் தெசரியையும் கட்டமைக்கும் போது இது வழக்கமாக நிகழ்கிறது. தேவையான மொழியியல் தகவல்களைப் பிரித்தெடுப்பதற்கான மூலப்பொருள் சேகரிப்புகள் மற்றும் உரை கார்போரா.

உரைகளின் கார்பஸ் என்பது ஒரு குறிப்பிட்ட பிரதிநிதித்துவக் கொள்கையின்படி சேகரிக்கப்பட்ட நூல்களின் தொகுப்பாகும் (வகை, படைப்புரிமை போன்றவை), இதில் அனைத்து நூல்களும் குறிக்கப்பட்டுள்ளன, அதாவது சில மொழியியல் அடையாளங்களுடன் (சிறுகுறிப்புகள்) வழங்கப்படுகின்றன - உருவவியல், உச்சரிப்பு, தொடரியல், முதலியன. .p..தற்போது, ​​குறைந்தது நூறு வெவ்வேறு கார்போராக்கள் உள்ளன - வெவ்வேறு NL மற்றும் வெவ்வேறு அடையாளங்களுடன், ரஷ்யாவில் மிகவும் பிரபலமானது ரஷ்ய மொழியின் தேசிய கார்பஸ் ஆகும்.

லேபிளிடப்பட்ட கார்போரா மொழியியலாளர்களால் உருவாக்கப்பட்டு, மொழியியல் ஆராய்ச்சிக்காகவும், இயந்திர கற்றலின் நன்கு அறியப்பட்ட கணித முறைகளைப் பயன்படுத்தி CL இல் பயன்படுத்தப்படும் டியூனிங் (பயிற்சி) மாதிரிகள் மற்றும் செயலிகளுக்காகவும் பயன்படுத்தப்படுகின்றன. எனவே, லெக்சிக்கல் தெளிவின்மையைத் தீர்ப்பதற்கும், பேச்சின் பகுதிகளை அங்கீகரிப்பதற்கும், அனாபோரிக் குறிப்புகளைத் தீர்ப்பதற்கும் முறைகளை உள்ளமைக்க இயந்திரக் கற்றல் பயன்படுத்தப்படுகிறது.

கார்போரா மற்றும் நூல்களின் தொகுப்புகள் எப்போதும் அவற்றில் குறிப்பிடப்பட்டுள்ள மொழியியல் நிகழ்வுகளின் அடிப்படையில் வரையறுக்கப்பட்டவையாக இருப்பதால் (மற்றும் கார்போரா, மற்றவற்றுடன், உருவாக்க நீண்ட நேரம் எடுக்கும்), சமீபத்தில் இணைய நூல்கள் அதிக முழுமையான மொழியியல் வளமாக கருதப்படுகின்றன. நிச்சயமாக, இணையம் நவீன பேச்சு மாதிரிகளின் மிகவும் பிரதிநிதித்துவ ஆதாரமாக உள்ளது, ஆனால் கார்பஸாக அதன் பயன்பாட்டிற்கு சிறப்பு தொழில்நுட்பங்களின் வளர்ச்சி தேவைப்படுகிறது.

5. கணக்கீட்டு மொழியியல் பயன்பாடுகள்

கணக்கீட்டு மொழியியலின் பயன்பாடுகளின் புலம் தொடர்ந்து விரிவடைந்து வருகிறது, எனவே அதன் கருவிகளால் தீர்க்கப்பட்ட மிகவும் பிரபலமான பயன்பாட்டு சிக்கல்களை இங்கே வகைப்படுத்துவோம்.

இயந்திர மொழிபெயர்ப்பு- CL இன் ஆரம்பகால பயன்பாடு, அதனுடன் இந்தத் துறையும் தோன்றி வளர்ந்தது. முதல் மொழிபெயர்ப்பு திட்டங்கள் 50 ஆண்டுகளுக்கு முன்பு உருவாக்கப்பட்டன, மேலும் அவை எளிய வார்த்தைக்கு வார்த்தை மொழிபெயர்ப்பு உத்தியை அடிப்படையாகக் கொண்டவை. எவ்வாறாயினும், இயந்திர மொழிபெயர்ப்பிற்கு மொழியின் அனைத்து நிலைகளையும் கணக்கில் எடுத்துக் கொள்ளும் ஒரு முழுமையான மொழியியல் மாதிரி தேவை என்பது விரைவாக உணரப்பட்டது, இது சொற்பொருள் மற்றும் நடைமுறைகள் வரை, இந்த பகுதியின் வளர்ச்சியை மீண்டும் மீண்டும் தடுக்கிறது. உள்நாட்டு ETAP அமைப்பில் மிகவும் முழுமையான மாதிரி பயன்படுத்தப்படுகிறது, இது அறிவியல் நூல்களை பிரெஞ்சு மொழியிலிருந்து ரஷ்ய மொழியில் மொழிபெயர்க்கிறது.

எவ்வாறாயினும், தொடர்புடைய மொழியில் மொழிபெயர்ப்பின் விஷயத்தில், எடுத்துக்காட்டாக, ஸ்பானிஷ் மொழியிலிருந்து போர்த்துகீசியம் அல்லது ரஷ்ய மொழியிலிருந்து உக்ரேனிய மொழிக்கு மொழிபெயர்க்கும் போது (இவை தொடரியல் மற்றும் உருவ அமைப்பில் மிகவும் பொதுவானவை), செயலியை எளிமைப்படுத்தியதன் அடிப்படையில் செயல்படுத்தலாம். மாதிரி, எடுத்துக்காட்டாக, ஒரே வார்த்தைக்கு வார்த்தை மொழிபெயர்ப்பு உத்தியைப் பயன்படுத்துவதன் அடிப்படையில்.

தற்போது, ​​பெரிய சர்வதேச அளவில் கணினி மொழிபெயர்ப்பு அமைப்புகள் (மாறுபட்ட தரம்) உள்ளன ஆராய்ச்சி திட்டங்கள்வணிக தானியங்கி மொழிபெயர்ப்பாளர்களுக்கு. மொழிபெயர்க்கப்பட்ட சொற்றொடர்களின் பொருள் குறியாக்கம் செய்யப்பட்ட இடைநிலை மொழியைப் பயன்படுத்தும் பன்மொழி மொழிபெயர்ப்பு திட்டங்கள் குறிப்பிடத்தக்க ஆர்வமாக உள்ளன. மற்றவை நவீன திசையில்- புள்ளியியல் மொழிபெயர்ப்பு, சொற்கள் மற்றும் சொற்றொடர்களின் மொழிபெயர்ப்பின் புள்ளிவிவரங்களின் அடிப்படையில் (இந்த யோசனைகள், எடுத்துக்காட்டாக, கூகிள் தேடுபொறி மொழிபெயர்ப்பாளரில் செயல்படுத்தப்படுகின்றன).

ஆனால் இந்த முழுப் பகுதியிலும் பல தசாப்தகால வளர்ச்சி இருந்தபோதிலும், பொதுவாக இயந்திர மொழிபெயர்ப்பின் சிக்கல் இன்னும் முழுமையாக தீர்க்கப்படுவதில் இருந்து வெகு தொலைவில் உள்ளது.

கணக்கீட்டு மொழியியலின் மற்றொரு பழைய பயன்பாடு ஆகும் தகவல் மீட்புமற்றும் ஆவணங்களின் அட்டவணைப்படுத்தல், சுருக்கம் செய்தல், வகைப்படுத்துதல் மற்றும் உராய்வு செய்தல் தொடர்பான பணிகள்.

பெரிய ஆவண தரவுத்தளங்களில் (முதன்மையாக அறிவியல், தொழில்நுட்பம், வணிகம்) ஆவணங்களின் முழு உரை தேடல் பொதுவாக அவற்றின் அடிப்படையில் மேற்கொள்ளப்படுகிறது. படங்களைத் தேடுங்கள், இதன் மூலம் நாம் ஒரு தொகுப்பைக் குறிக்கிறோம் முக்கிய வார்த்தைகள்- ஆவணத்தின் முக்கிய தலைப்பை பிரதிபலிக்கும் வார்த்தைகள். முதலில், NL இன் தனிப்பட்ட சொற்கள் மட்டுமே முக்கிய வார்த்தைகளாகக் கருதப்பட்டன, மேலும் அவற்றின் ஊடுருவலைக் கணக்கில் எடுத்துக் கொள்ளாமல் தேடல் மேற்கொள்ளப்பட்டது, இது ஆங்கிலம் போன்ற பலவீனமான மொழிகளுக்கு விமர்சனமற்றது. ஊடுருவிய மொழிகளுக்கு, எடுத்துக்காட்டாக, ரஷ்ய மொழியில், ஊடுருவலைக் கணக்கில் எடுத்துக்கொள்ளும் ஒரு உருவவியல் மாதிரியைப் பயன்படுத்துவது அவசியம்.

தேடல் வினவல் சொற்களின் தொகுப்பாகவும் வழங்கப்பட்டது; வினவலின் ஒற்றுமை மற்றும் ஆவணத்தின் தேடல் படத்தின் அடிப்படையில் பொருத்தமான (சம்பந்தமான) ஆவணங்கள் தீர்மானிக்கப்பட்டன. ஒரு ஆவணத்தின் தேடல் படத்தை உருவாக்குவது அடங்கும் அட்டவணைப்படுத்துதல்அதன் உரை, அதாவது அதில் முக்கிய வார்த்தைகளை முன்னிலைப்படுத்துகிறது. ஒரு ஆவணத்தின் தலைப்பு மற்றும் உள்ளடக்கம் தனிப்பட்ட சொற்களால் அல்ல, ஆனால் சொற்றொடர்களால் மிகவும் துல்லியமாக பிரதிபலிக்கப்படுவதால், சொற்றொடர்கள் முக்கிய வார்த்தைகளாக கருதத் தொடங்கின. ஆவணங்களை அட்டவணைப்படுத்துவதற்கான செயல்முறையை இது கணிசமாக சிக்கலாக்கியது, ஏனெனில் உரையில் குறிப்பிடத்தக்க சொற்றொடர்களைத் தேர்ந்தெடுக்க புள்ளிவிவர மற்றும் மொழியியல் அளவுகோல்களின் பல்வேறு சேர்க்கைகளைப் பயன்படுத்துவது அவசியம்.

உண்மையில், தகவல் மீட்டெடுப்பு முக்கியமாகப் பயன்படுத்துகிறது திசையன் உரை மாதிரி(சில நேரங்களில் அழைக்கப்படும் பை இன் சொற்கள்- சொற்களின் பை), இதில் ஒரு ஆவணம் அதன் முக்கிய வார்த்தைகளின் திசையன் (தொகுப்பு) என குறிப்பிடப்படுகிறது. நவீன இணைய தேடுபொறிகளும் இந்த மாதிரியைப் பயன்படுத்துகின்றன, அவற்றில் பயன்படுத்தப்படும் சொற்களால் உரைகளை அட்டவணைப்படுத்துகின்றன (அதே நேரத்தில், அவை தொடர்புடைய ஆவணங்களைத் திருப்பித் தர மிகவும் அதிநவீன தரவரிசை நடைமுறைகளைப் பயன்படுத்துகின்றன).

குறிப்பிட்ட உரை மாதிரி (சில சிக்கல்களுடன்) கீழே விவாதிக்கப்படும் தொடர்புடைய தகவல் மீட்டெடுப்பு சிக்கல்களிலும் பயன்படுத்தப்படுகிறது.

சுருக்கமான உரை- அதன் அளவைக் குறைத்து அதன் சுருக்கத்தைப் பெறுதல் - ஒரு சுருக்கம் (ஒடுக்கப்பட்ட உள்ளடக்கம்), இது ஆவண சேகரிப்புகளில் தேடலை வேகமாக்குகிறது. தலைப்பு தொடர்பான பல ஆவணங்களுக்கு ஒரு பொதுவான சுருக்கம் தொகுக்கப்படலாம்.

தானியங்கு சுருக்கத்தின் முக்கிய முறை இன்னும் சுருக்கப்பட்ட உரையின் மிக முக்கியமான வாக்கியங்களின் தேர்வாகும், இதற்காக வழக்கமாக உரையின் முக்கிய வார்த்தைகள் முதலில் கணக்கிடப்பட்டு உரை வாக்கியங்களின் முக்கியத்துவம் குணகம் கணக்கிடப்படுகிறது. குறிப்பிடத்தக்க வாக்கியங்களின் தேர்வு வாக்கியங்களின் அனபோரிக் இணைப்புகளால் சிக்கலானது, அதை உடைப்பது விரும்பத்தகாதது - இந்த சிக்கலை தீர்க்க, வாக்கியங்களைத் தேர்ந்தெடுப்பதற்கான சில உத்திகள் உருவாக்கப்படுகின்றன.

சுருக்கத்திற்கு நெருக்கமான பணி சிறுகுறிப்புஆவணத்தின் உரை, அதாவது அதன் சிறுகுறிப்பை வரைதல். IN எளிமையான வடிவம்ஒரு சுருக்கம் என்பது உரையின் முக்கிய தலைப்புகளின் பட்டியலாகும், எந்த அட்டவணைப்படுத்தல் நடைமுறைகளைப் பயன்படுத்தலாம் என்பதை அடையாளம் காண முடியும்.

ஆவணங்களின் பெரிய சேகரிப்புகளை உருவாக்கும் போது, ​​பின்வரும் பணிகள் பொருத்தமானவை: வகைப்பாடுகள்மற்றும் கிளஸ்டரிங்தலைப்பு தொடர்பான ஆவணங்களின் வகுப்புகளை உருவாக்க உரைகள். வகைப்பாடு என்பது ஒவ்வொரு ஆவணத்தையும் முன்பே அறியப்பட்ட அளவுருக்கள் கொண்ட ஒரு குறிப்பிட்ட வகுப்பிற்கு ஒதுக்குவதாகும், மேலும் கிளஸ்டரிங் என்பது ஆவணங்களின் தொகுப்பை க்ளஸ்டர்களாகப் பிரிப்பது, அதாவது கருப்பொருள் ரீதியாக ஒத்த ஆவணங்களின் துணைக்குழுக்கள். இந்தச் சிக்கல்களைத் தீர்க்க, இயந்திரக் கற்றல் முறைகள் பயன்படுத்தப்படுகின்றன, எனவே இந்தப் பயன்பாட்டுச் சிக்கல்கள் டெக்ஸ்ட் மைனிங் என்று அழைக்கப்படுகின்றன மற்றும் தரவுச் செயலாக்கம் அல்லது தரவுச் செயலாக்கம் எனப்படும் அறிவியல் திசையைச் சேர்ந்தவை.

பிரச்சனை வகைப்படுத்தலுக்கு மிக அருகில் உள்ளது தேய்த்தல்உரை - முன்னர் அறியப்பட்ட கருப்பொருள் தலைப்புகளில் ஒன்றிற்கு அதன் ஒதுக்கீடு (பொதுவாக தலைப்புகள் தலைப்புகளின் படிநிலை மரத்தை உருவாக்குகின்றன).

வகைப்பாடு சிக்கல் பெருகிய முறையில் பரவலாகி வருகிறது; இது தீர்க்கப்படுகிறது, எடுத்துக்காட்டாக, ஸ்பேம் அங்கீகாரம், மற்றும் ஒப்பீட்டளவில் புதிய பயன்பாடு மொபைல் சாதனங்களில் எஸ்எம்எஸ் செய்திகளின் வகைப்பாடு ஆகும். தகவல் மீட்டெடுப்பின் பொதுவான சிக்கலுக்கான ஆராய்ச்சியின் புதிய மற்றும் பொருத்தமான திசையானது பன்மொழி ஆவணத் தேடலாகும்.

தகவல் மீட்டெடுப்பு தொடர்பான ஒப்பீட்டளவில் புதிய மற்றொரு பணி கேள்விகளுக்கான பதில்களை உருவாக்குகிறது(கேள்வி பதில்) . கேள்வியின் வகையைத் தீர்மானிப்பதன் மூலமும், இந்தக் கேள்விக்கான பதிலைக் கொண்டிருக்கும் உரைகளைத் தேடுவதன் மூலமும், இந்த உரைகளிலிருந்து பதிலைப் பிரித்தெடுப்பதன் மூலமும் இந்த சிக்கல் தீர்க்கப்படுகிறது.

முற்றிலும் மாறுபட்ட பயன்பாட்டுப் பகுதி, மெதுவாக ஆனால் சீராக வளர்ச்சியடைந்து வருகிறது தயாரிப்பு மற்றும் எடிட்டிங் தானியங்கு EA இல் உள்ள உரைகள். இந்த திசையில் முதல் பயன்பாடுகளில் ஒன்று வார்த்தை ஹைபன்கள் மற்றும் உரை எழுத்துப்பிழை நிரல்களை (எழுத்துப்பிழைகள் அல்லது தானியங்கு-திருத்துபவர்கள்) தானாக தீர்மானிக்கும் நிரல்களாகும். பரிமாற்ற சிக்கலின் வெளிப்படையான எளிமை இருந்தபோதிலும், பல மொழிகளுக்கான அதன் சரியான தீர்வுக்கு (உதாரணமாக, ஆங்கிலம்) தொடர்புடைய மொழியில் உள்ள சொற்களின் உருவ அமைப்பைப் பற்றிய அறிவு தேவைப்படுகிறது, எனவே தொடர்புடைய அகராதி.

எழுத்துப்பிழை சரிபார்ப்பு நீண்ட காலமாக நடைமுறையில் உள்ளது வணிக அமைப்புகள்மற்றும் பொருத்தமான சொற்களஞ்சியம் மற்றும் உருவவியல் மாதிரியை நம்பியுள்ளது. ஒரு முழுமையற்ற தொடரியல் மாதிரியும் பயன்படுத்தப்படுகிறது, அதன் அடிப்படையில் அடிக்கடி ஏற்படும் அனைத்து தொடரியல் பிழைகளும் அடையாளம் காணப்படுகின்றன (எடுத்துக்காட்டாக, சொல் ஒப்பந்த பிழைகள்). அதே நேரத்தில், தானாக திருத்துபவர்கள் இன்னும் சிக்கலான பிழைகளைக் கண்டறிவதை செயல்படுத்தவில்லை, எடுத்துக்காட்டாக, முன்மொழிவுகளின் தவறான பயன்பாடு. பல லெக்சிகல் பிழைகள் கண்டறியப்படவில்லை, குறிப்பாக, எழுத்துப்பிழைகள் அல்லது ஒத்த சொற்களின் தவறான பயன்பாடு காரணமாக ஏற்படும் பிழைகள் (உதாரணமாக, எடைஎடைக்கு பதிலாக). IN நவீன ஆராய்ச்சி KL ஆனது இத்தகைய பிழைகளை தானியங்கு கண்டறிதல் மற்றும் திருத்தும் முறைகள் மற்றும் வேறு சில வகையான ஸ்டைலிஸ்டிக் பிழைகளை வழங்குகிறது. இந்த முறைகள் சொற்கள் மற்றும் சொற்றொடர்களின் நிகழ்வு பற்றிய புள்ளிவிவரங்களைப் பயன்படுத்துகின்றன.

நூல்களைத் தயாரிப்பதை ஆதரிப்பதற்கு நெருக்கமான ஒரு பயன்பாட்டுப் பணி இயற்கை மொழி கற்பித்தல், இந்த திசையின் கட்டமைப்பிற்குள், மொழிகளைக் கற்பிப்பதற்கான கணினி அமைப்புகள் - ஆங்கிலம், ரஷ்யன், முதலியன பெரும்பாலும் உருவாக்கப்படுகின்றன (இணையத்தில் இதே போன்ற அமைப்புகளைக் காணலாம்). பொதுவாக, இந்த அமைப்புகள் மொழியின் தனிப்பட்ட அம்சங்களை (உருவவியல், சொற்களஞ்சியம், தொடரியல்) ஆய்வு செய்வதை ஆதரிக்கின்றன மற்றும் பொருத்தமான மாதிரிகளை அடிப்படையாகக் கொண்டவை, எடுத்துக்காட்டாக, உருவவியல் மாதிரி.

சொல்லகராதி கற்றலைப் பொறுத்தவரை, உரை அகராதிகளின் மின்னணு ஒப்புமைகளும் (அடிப்படையில் மொழி மாதிரிகள் இல்லை) இதற்குப் பயன்படுத்தப்படுகின்றன. இருப்பினும், மல்டிஃபங்க்ஸ்னல் கணினி அகராதிகளும் உருவாக்கப்படுகின்றன, அவை உரை ஒப்புமைகளைக் கொண்டிருக்கவில்லை மற்றும் பரந்த அளவிலான பயனர்களை இலக்காகக் கொண்டுள்ளன - எடுத்துக்காட்டாக, ரஷ்ய சொற்றொடர்களின் கிராஸ்லெக்சிக்ஸ் அகராதி. இந்த அமைப்பு பரந்த அளவிலான சொற்களஞ்சியத்தை உள்ளடக்கியது - சொற்கள் மற்றும் அவற்றின் ஏற்றுக்கொள்ளக்கூடிய சொல் சேர்க்கைகள், மேலும் சொல் மேலாண்மை மாதிரிகள், ஒத்த சொற்கள், எதிர்ச்சொற்கள் மற்றும் சொற்களின் பிற சொற்பொருள் தொடர்புகள் ஆகியவற்றில் உதவியை வழங்குகிறது, இது ரஷ்ய மொழியைப் படிப்பவர்களுக்கு மட்டுமல்ல, தெளிவாக பயனுள்ளதாக இருக்கும். தாய் மொழி பேசுபவர்களுக்கும்.

குறிப்பிட வேண்டிய அடுத்த பயன்பாட்டு பகுதி தானியங்கி உருவாக்கம் EA இல் உள்ள உரைகள். கொள்கையளவில், இந்த பணி ஏற்கனவே மேலே விவாதிக்கப்பட்ட இயந்திர மொழிபெயர்ப்பு பணியின் துணைப் பணியாகக் கருதப்படலாம், இருப்பினும், திசையின் கட்டமைப்பிற்குள் பல குறிப்பிட்ட பணிகள் உள்ளன. அத்தகைய பணி பன்மொழி தலைமுறை, அதாவது, பல மொழிகளில் சிறப்பு ஆவணங்களை தானாக நிர்மாணித்தல் - காப்புரிமை சூத்திரங்கள், தொழில்நுட்ப தயாரிப்புகள் அல்லது மென்பொருள் அமைப்புகளுக்கான இயக்க வழிமுறைகள், முறையான மொழியில் அவற்றின் விவரக்குறிப்புகளின் அடிப்படையில். இந்த சிக்கலை தீர்க்க, மிகவும் விரிவான மொழி மாதிரிகள் பயன்படுத்தப்படுகின்றன.

டெக்ஸ்ட் மைனிங் என அடிக்கடி குறிப்பிடப்படும், பெருகிய முறையில் தொடர்புடைய பயன்பாட்டு பிரச்சனை தகவல் பிரித்தெடுத்தல்பொருளாதார மற்றும் உற்பத்திப் பகுப்பாய்வுகளின் சிக்கல்களைத் தீர்க்கும் போது தேவைப்படும் உரைகள் அல்லது தகவல் பிரித்தெடுத்தல். இதைச் செய்ய, NL சோதனையில் சில பொருள்கள் அடையாளம் காணப்படுகின்றன - பெயரிடப்பட்ட நிறுவனங்கள் (பெயர்கள், ஆளுமைகள், புவியியல் பெயர்கள்), அவர்களின் உறவுகள் மற்றும் தொடர்புடைய நிகழ்வுகள். ஒரு விதியாக, இது உரையின் பகுதி பாகுபடுத்தலின் அடிப்படையில் செயல்படுத்தப்படுகிறது, இது செய்தி நிறுவனங்களிலிருந்து செய்தி ஸ்ட்ரீம்களை செயலாக்க அனுமதிக்கிறது. பணி கோட்பாட்டளவில் மட்டுமல்ல, தொழில்நுட்ப ரீதியாகவும் மிகவும் சிக்கலானது என்பதால், உருவாக்கம் குறிப்பிடத்தக்க அமைப்புகள்நூல்களிலிருந்து தகவல்களைப் பிரித்தெடுப்பது வணிக நிறுவனங்களுக்குள் சாத்தியமாகும்.

உரைச் சுரங்கத் துறையில் மற்ற இரண்டு தொடர்புடைய பணிகளும் உள்ளன - கருத்துச் சுரங்கம் (கருத்துச் சுரங்கம்) மற்றும் உணர்வு பகுப்பாய்வு (சென்டிமென்ட் பகுப்பாய்வு), இவை அதிகரித்து வரும் ஆராய்ச்சியாளர்களின் கவனத்தை ஈர்க்கின்றன. முதல் பணியானது, தயாரிப்புகள் மற்றும் பிற பொருட்களைப் பற்றிய பயனர் கருத்துக்களை (வலைப்பதிவுகள், மன்றங்கள், ஆன்லைன் கடைகள் மற்றும் பலவற்றில்) தேடுவது மற்றும் இந்த கருத்துக்களை பகுப்பாய்வு செய்வது ஆகியவை அடங்கும். இரண்டாவது பணி வெகுஜன தகவல்தொடர்பு நூல்களின் உள்ளடக்க பகுப்பாய்வின் கிளாசிக்கல் பணிக்கு நெருக்கமாக உள்ளது; இது அறிக்கைகளின் பொதுவான தொனியை மதிப்பிடுகிறது.

குறிப்பிட வேண்டிய மற்றொரு பயன்பாடு உரையாடல் ஆதரவுஎந்தவொரு தகவல் மென்பொருள் அமைப்பின் கட்டமைப்பிற்குள் EA இல் உள்ள பயனருடன். பெரும்பாலும், இந்த சிக்கல் சிறப்பு தரவுத்தளங்களுக்கு தீர்க்கப்பட்டது - இந்த விஷயத்தில், வினவல் மொழி மிகவும் குறைவாக உள்ளது (லெக்சிக்கல் மற்றும் இலக்கணப்படி), இது எளிமைப்படுத்தப்பட்ட மொழி மாதிரிகளைப் பயன்படுத்த அனுமதிக்கிறது. NL இல் வடிவமைக்கப்பட்ட தரவுத்தளத்திற்கான வினவல்கள் முறையான மொழியில் மொழிபெயர்க்கப்படுகின்றன, அதன் பிறகு தேவையான தகவல்கள் தேடப்பட்டு, அதனுடன் தொடர்புடைய பதில் சொற்றொடர் உருவாக்கப்படும்.

எங்கள் CL பயன்பாடுகளின் பட்டியலில் கடைசியாக (ஆனால் மிக முக்கியமானது அல்ல), நாங்கள் குறிப்பிடுகிறோம் அங்கீகாரம் மற்றும் தொகுப்பு ஒலிக்கும் பேச்சு . இந்த பணிகளில் தவிர்க்க முடியாமல் எழும் அங்கீகார பிழைகள் சரி செய்யப்படுகின்றன தானியங்கி முறைகள்அகராதிகள் மற்றும் உருவவியல் பற்றிய மொழியியல் அறிவை அடிப்படையாகக் கொண்டது. இந்த பகுதியில் இயந்திர கற்றலும் பயன்படுத்தப்படும்.

முடிவுரை

NL இல் தானியங்கி உரை செயலாக்கத்திற்கான பல்வேறு பயன்பாடுகளில் கணக்கீட்டு மொழியியல் மிகவும் உறுதியான முடிவுகளை நிரூபிக்கிறது. அதன் மேலும் வளர்ச்சி புதிய பயன்பாடுகளின் தோற்றம் மற்றும் பல்வேறு மொழி மாதிரிகளின் சுயாதீன வளர்ச்சி இரண்டையும் சார்ந்துள்ளது, இதில் பல சிக்கல்கள் இன்னும் தீர்க்கப்படவில்லை. மிகவும் வளர்ந்த மாதிரிகள் உருவவியல் பகுப்பாய்வு மற்றும் தொகுப்பு ஆகும். ஏராளமான முன்மொழியப்பட்ட முறைமைகள் மற்றும் முறைகள் இருந்தபோதிலும், தொடரியல் மாதிரிகள் இன்னும் நிலையான மற்றும் திறமையான வேலை தொகுதிகளின் நிலைக்கு கொண்டு வரப்படவில்லை. சொற்பொருள் மற்றும் நடைமுறை நிலைகளில் உள்ள மாதிரிகள் இன்னும் குறைவாக ஆய்வு செய்யப்பட்டு முறைப்படுத்தப்படுகின்றன, இருப்பினும் பல பயன்பாடுகளில் பேச்சுவழக்கின் தானியங்கி செயலாக்கம் ஏற்கனவே தேவைப்படுகிறது. ஏற்கனவே இருக்கும் கணக்கீட்டு மொழியியல் கருவிகள், இயந்திர கற்றல் மற்றும் டெக்ஸ்ட் கார்போராவின் பயன்பாடு, இந்த சிக்கல்களின் தீர்வை கணிசமாக முன்னேற்ற முடியும் என்பதை நினைவில் கொள்க.

இலக்கியம்

1. பேசா-யேட்ஸ், ஆர். மற்றும் ரிபீரோ-நெட்டோ, பி. நவீன தகவல் மீட்டெடுப்பு, அடிசன் வெஸ்லி, 1999.

2. பேட்மேன், ஜே., ஜாக் எம். இயற்கை மொழி தலைமுறை. இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப.304.

3. பைபர், டி., கான்ராட் எஸ். மற்றும் ரெப்பேன் டி. கார்பஸ் மொழியியல். மொழி அமைப்பு மற்றும் பயன்பாட்டை ஆய்வு செய்தல். கேம்பிரிட்ஜ் பல்கலைக்கழக அச்சகம், கேம்பிரிட்ஜ், 1998.

4. போல்ஷாகோவ், I. A., Gelbukh புட்டேஷனல் மொழியியல். மாதிரிகள், வளங்கள், பயன்பாடுகள். மெக்ஸிகோ, IPN, 2004.

5. பிரவுன் பி., பியட்ரா எஸ்., மெர்சர் ஆர்., பியட்ரா வி. புள்ளியியல் இயந்திர மொழிபெயர்ப்பின் கணிதம். // கணக்கீட்டு மொழியியல், தொகுதி. 19(2): 263-3

6. கரோல் ஜே ஆர். பார்சிங். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 233-248.

7. சாம்ஸ்கி, N. தொடரியல் கட்டமைப்புகள். தி ஹேக்: மௌடன், 1957.

8. Grishman R. தகவல் பிரித்தெடுத்தல். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 545-559.

9. ஹரபாகியு, எஸ்., மால்டோவன் டி. கேள்வி பதில். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 560-582.

10. ஹார்ஸ்ட், எம்.ஏ. வேர்ட்நெட் உறவுகளின் தானியங்கு கண்டுபிடிப்பு. இல்: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. எம்ஐடி பிரஸ், கேம்பிரிட்ஜ், 1998, ப.131-151.

11. ஹிர்ஸ்ட், ஜி. ஆன்டாலஜி மற்றும் லெக்சிகன். இல்.: தகவல் அமைப்புகளில் ஆன்டாலஜிஸ் பற்றிய கையேடு. பெர்லின், ஸ்பிரிங்கர், 2003.

12. ஜாக்குமின் சி., பூரிகால்ட் டி. டெர்ம் பிரித்தெடுத்தல் மற்றும் தானியங்கி அட்டவணைப்படுத்தல் // மிட்கோவ் ஆர். (பதிப்பு): கணக்கீட்டு மொழியியல் கையேடு. ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003. ப. 599-615.

13. Kilgarriff, A., G. Grefenstette. புட்டேஷனல் மொழியியல் என இணையத்தில் சிறப்பு இதழுக்கான அறிமுகம், வி. 29, எண். 3, 2003, ப. 333-347.

14. மானிங், சி. டி., எச். ஷுட்ஸே. புள்ளியியல் இயற்கை மொழி செயலாக்கத்தின் அடிப்படைகள். எம்ஐடி பிரஸ், 1999.

15. Matsumoto Y. லெக்சிகல் அறிவு பெறுதல். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 395-413.

16. கணக்கீட்டு மொழியியல் பற்றிய ஆக்ஸ்போர்டு கையேடு. ஆர். மிட்கோவ் (எட்.). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2005.

17. ஓக்ஸ், எம்., பைஸ் சி. டி. தானியங்கி சுருக்கத்திற்கான கால பிரித்தெடுத்தல். கணக்கீட்டு சொற்களஞ்சியத்தில் சமீபத்திய முன்னேற்றங்கள். D. Bourigault, C. Jacquemin and M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. பெடர்சன், டி. பிக்ராம்களின் முடிவு மரம் என்பது வார்த்தை உணர்வுகளின் துல்லியமான முன்கணிப்பு ஆகும். Proc. NAC ACL இன் 2வது வருடாந்திர கூட்டம், பிட்ஸ்பர்க், PA, 2001, ப. 79-86.

19. சாமுவேல்சன் சி. புள்ளியியல் முறைகள். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 358-375.

20. சால்டன், ஜி. தானியங்கு உரைச் செயலாக்கம்: கணினி மூலம் தகவல் மாற்றம், பகுப்பாய்வு மற்றும் மீட்டெடுப்பு. படித்தல், MA: அடிசன்-வெஸ்லி, 1988.

21. சோமர்ஸ், எச். இயந்திர மொழிபெயர்ப்பு: சமீபத்திய வளர்ச்சிகள். இல்: கணக்கீட்டு மொழியியல் ஆக்ஸ்போர்டு கையேடு. மிட்கோவ் ஆர். (பதிப்பு). ஆக்ஸ்போர்டு யுனிவர்சிட்டி பிரஸ், 2003, ப. 512-528.

22. ஸ்ட்ரால்கோவ்ஸ்கி, டி. (எட்.) இயற்கை மொழி தகவல் மீட்டெடுப்பு. க்ளூவர், 19p.

23. வூட்ஸ் டபிள்யூ. ஏ. டிரான்ஸிஷன் நெட்வொர்க் கிராமர்ஸ் ஃபார் நேச்சுரல் லாங்குவேஜ் அனாலிசிஸ்/ கம்யூனிகேஷன்ஸ் ஆஃப் தி ACM, V. 13, 1970, N 10, p. 591-606.

24. வேர்ட் நெட்: ஒரு எலக்ட்ரானிக் லெக்சிகல் டேட்டாபேஸ். / கிறிஸ்டியன் ஃபெல்பாம். கேம்பிரிட்ஜ், எம்ஐடி பிரஸ், 1998.

25. வு ஜே., யு-சியா சாங் ஒய்., டெருகோ மிடமுரா டி., சாங் ஜே. கல்வி எழுத்தில் தானியங்கு சேகரிப்பு பரிந்துரை // ஏசிஎல் 2010 மாநாட்டுச் சுருக்கக் கட்டுரைகள், 2010.

26. மற்றும் பிற ETAP-2 அமைப்பின் மொழியியல் ஆதரவு. எம்.: நௌகா, 1989.

27. முதலியன. தரவு பகுப்பாய்வு தொழில்நுட்பங்கள்: டேட்டா மைனிங், விஷுவல் மைனிங், டெக்ஸ்ட் மைனிங், OLAP - 2வது பதிப்பு. – செயின்ட் பீட்டர்ஸ்பர்க்: BHV-பீட்டர்ஸ்பர்க், 2008.

28. போல்ஷாகோவ், லெக்ஸிகா - ரஷ்ய சொற்களின் சேர்க்கைகள் மற்றும் சொற்பொருள் இணைப்புகளின் பெரிய மின்னணு அகராதி. //காம்ப். மொழியியல் மற்றும் நுண்ணறிவு. தொழில்நுட்பம்: செயல்முறைகள் int. conf. "உரையாடல் 2009". வெளியீடு: மனிதநேயத்திற்கான ரஷ்ய மாநில பல்கலைக்கழகம், 2009, பக். 45-50.

29. போல்ஷகோவா ஈ.ஐ., போல்ஷாகோவ் கண்டறிதல் மற்றும் ரஷ்ய மாலாப்ராபிஸங்களின் தானியங்கு திருத்தம் // என்.டி.ஐ. செர். 2, எண். 5, 2007, பக். 27-40.

30. வாங், கிஞ்ச் வி. இணைக்கப்பட்ட உரையைப் புரிந்துகொள்வதற்கான உத்தி. // வெளிநாட்டு மொழியியலில் புதியது. தொகுதி. XXIII- எம்., முன்னேற்றம், 1988, ப. 153-211.

31. Vasiliev V. G., Krivenko M. P. தானியங்கு உரை செயலாக்கத்தின் முறைகள். – எம்.: ஐபிஐ ஆர்ஏஎஸ், 2008.

32. வினோகிராட் டி. இயற்கை மொழியைப் புரிந்துகொள்ளும் ஒரு திட்டம் - எம்., மிர், 1976.

33. தானியங்கி தொடர்பு அமைப்புகளில் மென்மையான இயற்கை மொழி கட்டமைப்புகள். – எம்., நௌகா, 1985.

34. Gusev, V. D., சலோமாடினா சொற்பொழிவு அகராதி: பதிப்பு 2. // NTI, Ser. 2, எண். 7, 2001, ப. 26-33.

35. ஜாகரோவ் - ஒரு மொழி கார்பஸாக இடம் // கணினி மொழியியல் மற்றும் அறிவுசார் தொழில்நுட்பங்கள்: சர்வதேசத்தின் நடவடிக்கைகள். மாநாட்டு உரையாடல் ‘2005 / எட். , – எம்.: நௌகா, 2005, ப. 166-171.

36. பொது மொழியியலின் கசெவிச். - எம்., நௌகா, 1977.

37. நூல்களைப் பற்றிய லியோன்டிஃப் புரிதல்: அமைப்புகள், மாதிரிகள், வளங்கள்: பயிற்சி– எம்.: அகாடமி, 2006.

38. மொழியியல் கலைக்களஞ்சிய அகராதி / எட். வி.என்.யார்ட்சேவா, எம்.: சோவியத் கலைக்களஞ்சியம், 1990, 685 பக்.

39., சாலியம் தானியங்கி அட்டவணைப்படுத்தல் மற்றும் வகைப்படுத்தல்: மேம்பாடு, கட்டமைப்பு, பராமரிப்பு. // NTI, Ser. 2, எண். 1, 1996.

40. லுகர் ஜே. செயற்கை நுண்ணறிவு: சிக்கலான சிக்கல்களைத் தீர்ப்பதற்கான உத்திகள் மற்றும் முறைகள். எம்., 2005.

41. McQueen K. இயற்கை மொழியில் உரை தொகுப்புக்கான விவாத உத்திகள் // வெளிநாட்டு மொழியியலில் புதியது. தொகுதி. XXIV. எம்.: முன்னேற்றம், 1989, பக். 311-356.

42. மொழியியல் மாதிரிகளின் மெல்சுக் கோட்பாடு "உரை" என்று பொருள். - எம்., நௌகா, 1974.

43. ரஷ்ய மொழியின் தேசிய கார்பஸ். http://*******

44. Khoroshevsky V. F. OntosMiner: பன்மொழி ஆவணங்களின் தொகுப்புகளிலிருந்து தகவல்களைப் பிரித்தெடுப்பதற்கான அமைப்புகளின் குடும்பம் // சர்வதேச பங்கேற்புடன் KII-2004 இல் செயற்கை நுண்ணறிவு பற்றிய ஒன்பதாவது தேசிய மாநாடு. T. 2. – M.: Fizmatlit, 2004, p.573-581.

கணக்கீட்டு மொழியியல்(மேலும்: கணிதவியல்அல்லது கணக்கீட்டு மொழியியல், ஆங்கிலம் கணக்கீட்டு மொழியியல்) - செயற்கை நுண்ணறிவு அமைப்புகளை உருவாக்கும் போது மனிதர்கள் மற்றும் விலங்குகளில் அறிவார்ந்த செயல்முறைகளின் கணித மற்றும் கணினி மாடலிங் துறையில் ஒரு அறிவியல் திசை, இது இயற்கை மொழிகளை விவரிக்க கணித மாதிரிகளைப் பயன்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது.

கணக்கீட்டு மொழியியல் இயற்கையான மொழி செயலாக்கத்துடன் மேலெழுகிறது. இருப்பினும், பிந்தையவற்றில் சுருக்க மாதிரிகளுக்கு முக்கியத்துவம் கொடுக்கப்படவில்லை, ஆனால் கணினி அமைப்புகளுக்கான மொழியை விவரிக்கும் மற்றும் செயலாக்குவதற்கான பயன்பாட்டு முறைகள்.

கணினி மொழியியலாளர்களின் செயல்பாட்டுத் துறையானது மொழியியல் தகவல்களைச் செயலாக்குவதற்கான வழிமுறைகள் மற்றும் பயன்பாட்டு நிரல்களின் வளர்ச்சி ஆகும்.

தோற்றம்

கணித மொழியியல் என்பது செயற்கை நுண்ணறிவு அறிவியலின் ஒரு பிரிவாகும். அதன் வரலாறு 1950 களில் அமெரிக்காவில் தொடங்கியது. டிரான்சிஸ்டரின் கண்டுபிடிப்பு மற்றும் புதிய தலைமுறை கணினிகள் மற்றும் முதல் நிரலாக்க மொழிகளின் வருகையுடன், இயந்திர மொழிபெயர்ப்புடன் சோதனைகள் தொடங்கியது, குறிப்பாக ரஷ்ய அறிவியல் இதழ்கள். 1960 களில், சோவியத் ஒன்றியத்தில் இதே போன்ற ஆய்வுகள் மேற்கொள்ளப்பட்டன (உதாரணமாக, 1964 ஆம் ஆண்டிற்கான "சைபர்நெட்டிக்ஸ் சிக்கல்கள்" தொகுப்பில் ரஷ்ய மொழியிலிருந்து ஆர்மீனிய மொழியில் மொழிபெயர்ப்பது பற்றிய கட்டுரை). இருப்பினும், இயந்திர மொழிபெயர்ப்பின் தரம் இன்னும் மனித மொழிபெயர்ப்பின் தரத்தை விட மிகவும் குறைவாகவே உள்ளது.

மே 15 முதல் மே 21, 1958 வரை, இயந்திர மொழிபெயர்ப்புக்கான முதல் அனைத்து யூனியன் மாநாடு I மாஸ்கோ மாநில கல்வியியல் நிறுவனத்தில் வெளிநாட்டு மொழிகள் நடைபெற்றது. ஏற்பாட்டுக் குழுவிற்கு V. Yu. Rosenzweig மற்றும் ஏற்பாட்டுக் குழுவின் நிர்வாகச் செயலாளர் G. V. Chernov ஆகியோர் தலைமை தாங்கினர். முழு மாநாட்டுத் திட்டம் "இயந்திர மொழிபெயர்ப்பு மற்றும் பயன்பாட்டு மொழியியல்" தொகுப்பில் வெளியிடப்பட்டுள்ளது. 1, 1959 (“மெஷின் டிரான்ஸ்லேஷன் அசோசியேஷன் புல்லட்டின் எண். 8”). V. Yu. Rosenzweig நினைவு கூர்ந்தபடி, வெளியிடப்பட்ட மாநாட்டுச் சுருக்கங்களின் தொகுப்பு அமெரிக்காவிற்கு வந்து அங்கு பெரும் தாக்கத்தை ஏற்படுத்தியது.

ஏப்ரல் 1959 இல், லெனின்கிராட் பல்கலைக்கழகம் மற்றும் குழுவால் கூட்டப்பட்ட கணித மொழியியல் பற்றிய முதல் அனைத்து யூனியன் கூட்டம் லெனின்கிராட்டில் நடைபெற்றது. பயன்பாட்டு மொழியியல். கூட்டத்தின் முக்கிய அமைப்பாளர் என்.டி.ஆண்ட்ரீவ். கூட்டத்தில் பல முக்கிய கணிதவியலாளர்கள் பங்கேற்றனர், குறிப்பாக, எஸ்.எல். சோபோலேவ், எல்.வி. கான்டோரோவிச் (பின்னர் - நோபல் பரிசு பெற்றவர்) மற்றும் ஏ. ஏ. மார்கோவ் (கடைசி இருவர் விவாதத்தில் பேசினர்). V. Yu. Rosenzweig, கூட்டத்தின் தொடக்க நாளில், "மொழிபெயர்ப்பின் பொது மொழியியல் கோட்பாடு மற்றும் கணித மொழியியல்" என்ற முக்கிய உரையை ஆற்றினார்.

கணக்கீட்டு மொழியியல் பகுதிகள்

  • இயற்கை மொழி செயலாக்கம் இயற்கை மொழி செயலாக்கம்; தொடரியல், உருவவியல், சொற்பொருள் உரை பகுப்பாய்வு). இதுவும் அடங்கும்:
  1. கார்பஸ் மொழியியல், நூல்களின் மின்னணு கார்போராவின் உருவாக்கம் மற்றும் பயன்பாடு
  2. மின்னணு அகராதிகள் உருவாக்கம், தெசோரி, ஆன்டாலஜிகள். உதாரணமாக, லிங்வோ. எடுத்துக்காட்டாக, தானியங்கி மொழிபெயர்ப்பு மற்றும் எழுத்துப்பிழை சரிபார்ப்புக்கு அகராதிகள் பயன்படுத்தப்படுகின்றன.
  3. உரைகளின் தானியங்கி மொழிபெயர்ப்பு. ப்ரோம்ட் ரஷ்ய மொழிபெயர்ப்பாளர்களிடையே பிரபலமானது. இலவசமானவற்றில் கூகுள் மொழிபெயர்ப்பும் உள்ளது.
  4. உரையிலிருந்து உண்மைகளை தானாக பிரித்தெடுத்தல் (தகவல் பிரித்தெடுத்தல்) உண்மை பிரித்தெடுத்தல், உரைச் சுரங்கம்)
  5. தானாகக் குறிப்பிடுதல் தானியங்கி உரை சுருக்கம்) இந்த அம்சம் மைக்ரோசாஃப்ட் வேர்டில் சேர்க்கப்பட்டுள்ளது.
  6. அறிவு மேலாண்மை அமைப்புகளை உருவாக்குதல். நிபுணர் அமைப்புகளைப் பார்க்கவும்
  7. கேள்வி மற்றும் பதில் அமைப்புகளை உருவாக்குதல் கேள்வி பதில் அமைப்புகள்).
  • ஒளியியல் எழுத்து அங்கீகாரம் OCR) உதாரணமாக, FineReader நிரல்
  • தானியங்கி பேச்சு அங்கீகாரம் ஏ.எஸ்.ஆர்) கட்டண மற்றும் இலவச மென்பொருள்கள் உள்ளன
  • தானியங்கி பேச்சு தொகுப்பு

முக்கிய சங்கங்கள் மற்றும் மாநாடுகள்

ரஷ்யாவில் படிப்பு திட்டங்கள்

மேலும் பார்க்கவும்

"கணக்கீட்டு மொழியியல்" கட்டுரை பற்றி ஒரு மதிப்பாய்வை எழுதுங்கள்

குறிப்புகள்

இணைப்புகள்

  • (சுருக்கம்)
  • - ரஷ்ய மொழிக்கான மொழியியல் வளங்களின் அறிவுத் தளம்
  • - சில கணக்கீட்டு மொழியியல் பயன்பாடுகளின் திறந்த மூல குறியீடுகள்
  • - கணக்கீட்டு மொழியியல் திட்டங்களுக்கான ஆன்லைன் அணுகல்

கணக்கீட்டு மொழியியலை வகைப்படுத்தும் ஒரு பகுதி

"எடுங்கள், குழந்தையை எடுத்துக் கொள்ளுங்கள்," என்று பியர், அந்தப் பெண்ணை ஒப்படைத்து, அந்த பெண்ணை அவசரமாகவும் அவசரமாகவும் பேசினார். - அவர்களுக்குக் கொடுங்கள், அவர்களுக்குக் கொடுங்கள்! - அவர் கிட்டத்தட்ட அந்தப் பெண்ணைக் கூச்சலிட்டார், கத்திக்கொண்டிருந்த பெண்ணை தரையில் வைத்தார், மீண்டும் பிரெஞ்சு மற்றும் ஆர்மீனிய குடும்பத்தை திரும்பிப் பார்த்தார். முதியவர் ஏற்கனவே வெறுங்காலுடன் அமர்ந்திருந்தார். சிறிய பிரெஞ்சுக்காரர் தனது கடைசி காலணியை கழற்றிவிட்டு, காலணிகளை ஒன்றோடு ஒன்று தட்டினார். முதியவர், அழுதுகொண்டே, ஏதோ சொன்னார், ஆனால் பியர் அதை ஒரு பார்வை மட்டுமே பார்த்தார்; அவரது கவனமெல்லாம் பேட்டையில் இருந்த பிரெஞ்சுக்காரர் பக்கம் திரும்பியது, அவர் அந்த நேரத்தில், மெதுவாக அசைந்து, அந்த இளம் பெண்ணை நோக்கி நகர்ந்து, தனது பைகளில் இருந்து கைகளை எடுத்து, அவள் கழுத்தைப் பிடித்தார்.
அழகான ஆர்மேனியப் பெண், தன் நீண்ட இமைகள் தாழ்த்தப்பட்ட நிலையில், சிப்பாய் தனக்கு என்ன செய்கிறான் என்பதை அவள் பார்க்கவில்லை அல்லது உணரவில்லை என்பது போல, அதே அசைவற்ற நிலையில் தொடர்ந்து அமர்ந்தாள்.
பிரெஞ்சுக்காரர்களிடமிருந்து அவரைப் பிரித்த சில படிகளை பியர் ஓடிக்கொண்டிருந்தபோது, ​​​​ஒரு பேட்டையில் இருந்த ஒரு நீண்ட கொள்ளைக்காரன் ஏற்கனவே ஆர்மீனிய பெண்ணின் கழுத்தில் அணிந்திருந்த நகையை கிழித்துக்கொண்டிருந்தான், அந்த இளம் பெண் தன் கழுத்தை கைகளால் இறுக்கமாகப் பிடித்துக் கொண்டு கத்தினாள். .
– Laissez cette femme! [இந்தப் பெண்ணை விடுங்கள்!] - பியர் வெறித்தனமான குரலில் கூச்சலிட்டார், நீண்ட, குனிந்திருந்த சிப்பாயை தோள்களால் பிடித்து தூக்கி எறிந்தார். சிப்பாய் விழுந்து எழுந்து ஓடினான். ஆனால் அவரது தோழர், தனது காலணிகளைத் தூக்கி எறிந்துவிட்டு, ஒரு கிளீவரை எடுத்து, பயமுறுத்தும் வகையில் பியரை நோக்கி முன்னேறினார்.
- வயோன்ஸ், பாஸ் டி பெடிஸ்! [அப்படியா நல்லது! முட்டாள்தனமாக இருக்காதே!] - அவர் கத்தினார்.
பியர் கோபத்தின் பேரானந்தத்தில் இருந்தார், அதில் அவர் எதையும் நினைவில் கொள்ளவில்லை, அதில் அவரது வலிமை பத்து மடங்கு அதிகரித்தது. அவர் வெறுங்காலுடன் இருந்த பிரெஞ்சுக்காரரை நோக்கி விரைந்தார், அவர் தனது கிளீவரை வெளியே எடுப்பதற்கு முன்பு, அவர் ஏற்கனவே அவரைத் தட்டிவிட்டு, கைமுட்டிகளால் அவரைத் தாக்கினார். சுற்றியுள்ள கூட்டத்திலிருந்து ஒரு ஒப்புதல் அழுகை கேட்டது, அதே நேரத்தில் பிரெஞ்சு லான்சர்களின் ஏற்றப்பட்ட ரோந்து மூலையைச் சுற்றி தோன்றியது. லான்சர்கள் பியர் மற்றும் பிரெஞ்சுக்காரரை நோக்கிச் சென்று அவர்களைச் சுற்றி வளைத்தனர். அடுத்து என்ன நடந்தது என்பது பியருக்கு நினைவில் இல்லை. தான் யாரையோ அடித்ததையும், அடிக்கப்பட்டதையும், இறுதியில் கைகள் கட்டப்பட்டதையும் உணர்ந்ததையும், பிரெஞ்சுப் படைவீரர்கள் கூட்டம் தன்னைச் சுற்றி நின்று தனது ஆடையைத் தேடுவதையும் அவர் நினைவு கூர்ந்தார்.
“Il a un poignard, leutenant, [Leutenant, he has a dagger,”] பியர் புரிந்துகொண்ட முதல் வார்த்தைகள்.
- ஆ, யுனே ஆர்ம்! [ஆ, ஆயுதங்கள்!] - அதிகாரி கூறினார் மற்றும் பியருடன் அழைத்துச் செல்லப்பட்ட வெறுங்காலுடன் சிப்பாயின் பக்கம் திரும்பினார்.
"C"est bon, vous direz tout cela au conseil de guerre, [சரி, சரி, நீங்கள் எல்லாவற்றையும் விசாரணையில் சொல்வீர்கள்," என்று அதிகாரி கூறினார். அதன் பிறகு அவர் பியர் பக்கம் திரும்பினார்: "Parlez vous francais vous?" [ நீங்கள் பிரஞ்சு பேசுகிறீர்களா?]
பியர் ரத்தக் கண்களுடன் அவனைச் சுற்றிப் பார்த்தார், பதில் சொல்லவில்லை. அவரது முகம் ஒருவேளை மிகவும் பயமாகத் தோன்றியது, ஏனென்றால் அதிகாரி ஒரு கிசுகிசுப்பில் ஏதோ சொன்னார், மேலும் நான்கு லான்சர்கள் அணியிலிருந்து பிரிந்து பியரின் இருபுறமும் நின்றனர்.
– பார்லெஸ் வௌஸ் ஃப்ராங்காய்ஸ்? - அதிகாரி அவரிடம் இருந்து விலகி, அவரிடம் கேள்வியை மீண்டும் கேட்டார். - Faites venir l "interprete. [ஒரு மொழிபெயர்ப்பாளரை அழைக்கவும்.] - வரிசைகளுக்குப் பின்னால் இருந்து ஒரு ரஷ்ய சிவில் உடையில் ஒரு சிறிய மனிதர் வெளியே வந்தார், பியர், அவரது உடை மற்றும் பேச்சு மூலம், மாஸ்கோ கடைகளில் ஒன்றிலிருந்து அவரை பிரெஞ்சுக்காரர் என்று உடனடியாக அடையாளம் கண்டார்.
"Il n"a pas l"air d"un homme du peuple, [அவர் ஒரு சாமானியர் போல் தெரியவில்லை," என்று மொழிபெயர்ப்பாளர் பியரைப் பார்த்து கூறினார்.
- ஓ, ஓ! ca m"a bien l"air d"un des incendaires," அதிகாரி மங்கலானார். "Demandez lui ce qu"il est? [ஓ, ஓ! அவர் ஒரு தீ வைப்பவர் போல் தெரிகிறது. அவர் யார் என்று கேளுங்கள்?] என்று அவர் மேலும் கூறினார்.
- யார் நீ? - மொழிபெயர்ப்பாளர் கேட்டார். அதிகாரிகள் பதில் சொல்ல வேண்டும்,'' என்றார்.
– Je ne vous dirai pas qui je suis. ஜெ சூயிஸ் வோட்ரே கைதி. Emmenez moi, [நான் யார் என்று நான் உங்களுக்குச் சொல்ல மாட்டேன். நான் உங்கள் கைதி. என்னை அழைத்துச் செல்லுங்கள், ”பியர் திடீரென்று பிரெஞ்சு மொழியில் கூறினார்.
- ஹ ஹ! - அதிகாரி, முகம் சுளித்தபடி கூறினார். - மார்ச்சுகள்!
லான்சர்களைச் சுற்றி ஒரு கூட்டம் கூடியது. பியருக்கு மிக அருகில் ஒரு பெண்ணுடன் முத்திரையிடப்பட்ட பெண் நின்றாள்; மாற்றுப்பாதை நகர ஆரம்பித்ததும், அவள் முன்னேறினாள்.
- அவர்கள் உன்னை எங்கே அழைத்துச் செல்கிறார்கள், என் அன்பே? - அவள் சொன்னாள். - இந்த பெண், இந்த பெண்ணை நான் என்ன செய்வேன், அவள் அவர்களுடையது இல்லையென்றால்! - பெண் கூறினார்.
– Qu"est ce qu"elle Veut cette femme? [அவளுக்கு என்ன வேண்டும்?] - அதிகாரி கேட்டார்.
பியர் குடிபோதையில் இருந்ததைப் போல தோற்றமளித்தார். அவன் காப்பாற்றிய பெண்ணைப் பார்த்ததும் அவனது பரவச நிலை இன்னும் உக்கிரமடைந்தது.
“Ce qu"elle dit?” என்றார். - விடைபெறு! [அவளுக்கு என்ன வேண்டும்? நான் நெருப்பிலிருந்து காப்பாற்றிய என் மகளை அவள் சுமந்து செல்கிறாள். பிரியாவிடை!] - இந்த இலக்கற்ற பொய் எவ்வாறு தப்பித்தது என்று தெரியாமல், பிரெஞ்சுக்காரர்களிடையே ஒரு தீர்க்கமான, புனிதமான படியுடன் நடந்தார்.
மாஸ்கோவின் பல்வேறு தெருக்களில் கொள்ளையடிப்பதை அடக்குவதற்கும், குறிப்பாக தீக்குளித்தவர்களைக் கைப்பற்றுவதற்கும் துரோனலின் உத்தரவின் பேரில் அனுப்பப்பட்டவர்களில் பிரெஞ்சு ரோந்தும் ஒன்றாகும், அன்றைய பொதுக் கருத்தின்படி, உயர் பதவிகளில் இருந்த பிரெஞ்சுக்காரர்களிடையே அவர்கள் தோன்றினர். தீக்கு காரணம். பல தெருக்களைச் சுற்றிப் பயணித்த ரோந்து மேலும் ஐந்து சந்தேகத்திற்கிடமான ரஷ்யர்கள், ஒரு கடைக்காரர், இரண்டு கருத்தரங்குகள், ஒரு விவசாயி மற்றும் ஒரு வேலைக்காரன் மற்றும் பல கொள்ளையர்களை எடுத்தது. ஆனால் சந்தேகத்திற்குரிய அனைத்து நபர்களிலும், பியர் மிகவும் சந்தேகத்திற்குரியவராகத் தோன்றினார். அவர்கள் அனைவரும் இரவைக் கழிக்க அழைத்து வரப்பட்டபோது பெரிய வீடு Zubovsky Val இல், ஒரு காவலர் இல்லம் நிறுவப்பட்டது, பியர் தனித்தனியாக கடுமையான காவலில் வைக்கப்பட்டார்.

இந்த நேரத்தில் செயின்ட் பீட்டர்ஸ்பர்க்கில், மிக உயர்ந்த வட்டங்களில், முன்னெப்போதையும் விட அதிக ஆர்வத்துடன், ருமியன்சேவ், பிரெஞ்சு, மரியா ஃபியோடோரோவ்னா, சரேவிச் மற்றும் பிறரின் கட்சிகளுக்கு இடையே ஒரு சிக்கலான போராட்டம் இருந்தது, எப்போதும் போல, எக்காள சத்தத்தால் மூழ்கியது. நீதிமன்ற ட்ரோன்களின். ஆனால் அமைதியான, ஆடம்பரமான, பேய்கள், வாழ்க்கையின் பிரதிபலிப்புகளில் மட்டுமே அக்கறை கொண்ட செயின்ட் பீட்டர்ஸ்பர்க் வாழ்க்கை முன்பு போலவே சென்றது; மேலும் இந்த வாழ்க்கையின் போக்கின் காரணமாக, ரஷ்ய மக்கள் தங்களைக் கண்டறிந்த ஆபத்தையும் கடினமான சூழ்நிலையையும் அடையாளம் காண பெரும் முயற்சிகளை மேற்கொள்வது அவசியம். அதே வெளியேற்றங்கள், பந்துகள், அதே பிரெஞ்சு தியேட்டர், நீதிமன்றங்களின் அதே நலன்கள், சேவை மற்றும் சூழ்ச்சியின் அதே நலன்கள் இருந்தன. உயர்மட்ட வட்டாரங்களில் மட்டுமே தற்போதைய சூழ்நிலையின் சிரமத்தை நினைவுபடுத்தும் முயற்சிகள் மேற்கொள்ளப்பட்டன. இத்தகைய கடினமான சூழ்நிலைகளில் இரண்டு பேரரசிகளும் ஒருவருக்கொருவர் எதிர்மாறாக எப்படி நடந்துகொண்டார்கள் என்பது கிசுகிசுக்களில் கூறப்பட்டது. பேரரசி மரியா ஃபியோடோரோவ்னா, தனது அதிகார வரம்பிற்குட்பட்ட தொண்டு மற்றும் கல்வி நிறுவனங்களின் நலனில் அக்கறை கொண்டு, அனைத்து நிறுவனங்களையும் கசானுக்கு அனுப்ப உத்தரவிட்டார், மேலும் இந்த நிறுவனங்களின் பொருட்கள் ஏற்கனவே நிரம்பியிருந்தன. பேரரசி எலிசவெட்டா அலெக்ஸீவ்னாவிடம், என்ன கட்டளைகளை செய்ய விரும்புகிறாள் என்று கேட்கப்பட்டபோது, ​​அவளது சிறப்பியல்பு ரஷ்ய தேசபக்தியுடன், அதற்குப் பதிலளித்தாள். அரசு நிறுவனங்கள்இது இறையாண்மையைப் பற்றியது என்பதால், அவளால் கட்டளையிட முடியாது; தனிப்பட்ட முறையில் அவளைச் சார்ந்திருக்கும் அதே விஷயத்தைப் பற்றி, செயின்ட் பீட்டர்ஸ்பர்க்கை விட்டு வெளியேறும் கடைசி நபராக அவர் இருப்பார் என்று அவர் கூறினார்.

மொழியியல் துறையில் உயர்நிலைப் பள்ளிபுதிய பொருளாதாரம் தொடங்கப்படுகிறது முதன்மை திட்டம், கணக்கீட்டு மொழியியலுக்கு அர்ப்பணிக்கப்பட்டது: மனிதநேயம் மற்றும் கணிதத்தில் அடிப்படைக் கல்வி பெற்ற விண்ணப்பதாரர்கள் மற்றும் அறிவியலின் மிகவும் நம்பிக்கைக்குரிய கிளைகளில் ஒன்றில் உள்ள சிக்கல்களைத் தீர்ப்பதில் ஆர்வமுள்ள எவரும் இங்கு வரவேற்கப்படுகிறார்கள். அதன் இயக்குனர், அனஸ்தேசியா போன்ச்-ஓஸ்மோலோவ்ஸ்காயா, தியரிகள் மற்றும் பயிற்சியாளர்களிடம் கணக்கீட்டு மொழியியல் என்றால் என்ன, ரோபோக்கள் ஏன் மனிதர்களை மாற்றாது, மற்றும் கணக்கீட்டு மொழியியலில் HSE மாஸ்டர் திட்டத்தில் என்ன கற்பிக்கப்படும் என்று கூறினார்.

இந்த திட்டம் ரஷ்யாவில் கிட்டத்தட்ட ஒரே மாதிரியான ஒன்றாகும். நீ எங்கு படித்தாய்?

நான் மாஸ்கோ மாநில பல்கலைக்கழகத்தில் தத்துவார்த்த மற்றும் பயன்பாட்டு மொழியியல் துறையில், பிலாலஜி பீடத்தில் படித்தேன். நான் இப்போதே அங்கு வரவில்லை, முதலில் நான் ரஷ்ய துறையில் நுழைந்தேன், ஆனால் பின்னர் நான் மொழியியலில் தீவிரமாக ஆர்வம் காட்டினேன், இன்றுவரை அந்தத் துறையில் இருக்கும் சூழ்நிலையால் நான் ஈர்க்கப்பட்டேன். மிக முக்கியமான விஷயம் இருக்கிறது நல்ல தொடர்புஆசிரியர்களுக்கும் மாணவர்களுக்கும் இடையே அவர்களின் பரஸ்பர நலன்.

எனக்கு குழந்தைகள் பிறந்து, வருமானம் ஈட்ட வேண்டிய நிலையில், வணிக மொழியியல் துறையில் இறங்கினேன். 2005 ஆம் ஆண்டில், இந்த செயல்பாடு என்ன என்பது தெளிவாகத் தெரியவில்லை. நான் வெவ்வேறு மொழியியல் நிறுவனங்களில் பணிபுரிந்தேன்: நான் Public.ru தளத்தில் ஒரு சிறிய நிறுவனத்துடன் தொடங்கினேன் - இது ஒரு வகையான ஊடக நூலகம், அங்கு நான் மொழியியல் தொழில்நுட்பங்களில் பணியாற்றத் தொடங்கினேன். பின்னர் நான் Rosnanotech இல் ஒரு வருடம் பணிபுரிந்தேன், அங்கு ஒரு பகுப்பாய்வு போர்ட்டலை உருவாக்க ஒரு யோசனை இருந்தது, அதில் உள்ள தரவு தானாகவே கட்டமைக்கப்படும். பின்னர் நான் அவிகாம்ப் நிறுவனத்தில் மொழியியல் துறைக்கு தலைமை தாங்கினேன் - இது ஏற்கனவே கணினி மொழியியல் மற்றும் சொற்பொருள் தொழில்நுட்பத் துறையில் ஒரு தீவிர தயாரிப்பு ஆகும். அதே நேரத்தில், நான் மாஸ்கோ மாநில பல்கலைக்கழகத்தில் கணக்கீட்டு மொழியியல் பாடத்தை கற்பித்தேன், மேலும் அதை நவீனமாக்க முயற்சித்தேன்.

ஒரு மொழியியலாளர் இரண்டு ஆதாரங்கள்: - ரஷ்ய மொழி தொடர்பான அறிவியல் மற்றும் பயன்பாட்டு ஆராய்ச்சிக்காக மொழியியலாளர்களால் உருவாக்கப்பட்ட தளம். இது ரஷ்ய மொழியின் மாதிரியாகும், இது பல்வேறு வகைகள் மற்றும் காலகட்டங்களில் இருந்து ஒரு பெரிய வரிசை நூல்களைப் பயன்படுத்தி வழங்கப்படுகிறது. உரைகள் மொழியியல் மார்க்அப்புடன் பொருத்தப்பட்டுள்ளன, இதன் உதவியுடன் நீங்கள் சில மொழியியல் நிகழ்வுகளின் அதிர்வெண் பற்றிய தகவல்களைப் பெறலாம். வேர்ட்நெட் என்பது ஆங்கில மொழியின் மிகப்பெரிய லெக்சிக்கல் தரவுத்தளமாகும்; வார்த்தைகளை அல்ல, அவற்றின் அர்த்தங்களை ஒரு பெரிய நெட்வொர்க்கில் இணைப்பதே வேர்ட்நெட்டின் முக்கிய யோசனை. Wordnet ஐ பதிவிறக்கம் செய்து உங்கள் சொந்த திட்டங்களுக்கு பயன்படுத்தலாம்.

கணக்கீட்டு மொழியியல் என்ன செய்கிறது?

இது மிகவும் இடைநிலைத் துறையாகும். எலக்ட்ரானிக் உலகில் என்ன நடக்கிறது மற்றும் குறிப்பிட்ட விஷயங்களைச் செய்ய உங்களுக்கு யார் உதவுவார்கள் என்பதைப் புரிந்துகொள்வது இங்கே மிக முக்கியமான விஷயம்.

டிஜிட்டல் தகவல்களின் மிகப்பெரிய அளவில் நாம் சூழப்பட்டுள்ளோம், பல வணிகத் திட்டங்கள் உள்ளன, அவற்றின் வெற்றி தகவல் செயலாக்கத்தைப் பொறுத்தது, இந்தத் திட்டங்கள் சந்தைப்படுத்தல், அரசியல், பொருளாதாரம் மற்றும் வேறு எதையும் தொடர்புபடுத்தலாம். இந்த தகவலை திறம்பட கையாள்வது மிகவும் முக்கியம் - முக்கிய விஷயம், தகவலை செயலாக்கும் வேகம் மட்டுமல்ல, சத்தத்தை வடிகட்டிய பிறகு, உங்களுக்குத் தேவையான தரவைப் பெற்று, முழுமையாக உருவாக்க முடியும். அதிலிருந்து படம்.

முன்னதாக, சில உலகளாவிய யோசனைகள் கணினி மொழியியலுடன் தொடர்புடையவை, எடுத்துக்காட்டாக: இயந்திர மொழிபெயர்ப்பு மனித மொழிபெயர்ப்பை மாற்றும், மக்களுக்கு பதிலாக ரோபோக்கள் வேலை செய்யும் என்று மக்கள் நினைத்தார்கள். ஆனால் இப்போது இது ஒரு கற்பனாவாதமாகத் தெரிகிறது, மேலும் தெரியாத மொழியில் விரைவாகத் தேடுவதற்கு தேடுபொறிகளில் இயந்திர மொழிபெயர்ப்பு பயன்படுத்தப்படுகிறது. அதாவது, இப்போது மொழியியல் அரிதாகவே சுருக்க சிக்கல்களைக் கையாள்கிறது - பெரும்பாலும் சில சிறிய விஷயங்களை ஒரு பெரிய தயாரிப்பில் செருகலாம் மற்றும் அதில் பணம் சம்பாதிக்கலாம்.

நவீன மொழியியலின் பெரிய பணிகளில் ஒன்று சொற்பொருள் வலை, தேடல் வார்த்தைகளை பொருத்துவதன் மூலம் மட்டுமல்ல, பொருளின் மூலமாகவும் நிகழ்கிறது, மேலும் அனைத்து தளங்களும் ஒரு வழியில் அல்லது வேறு சொற்பொருளால் குறிக்கப்படுகின்றன. எடுத்துக்காட்டாக, ஒவ்வொரு நாளும் எழுதப்படும் காவல்துறை அல்லது மருத்துவ அறிக்கைகளுக்கு இது பயனுள்ளதாக இருக்கும். உள் இணைப்புகளின் பகுப்பாய்வு தேவையான பல தகவல்களை வழங்குகிறது, ஆனால் அதை கைமுறையாக படித்து கணக்கிடுவது நம்பமுடியாத நேரத்தை எடுத்துக்கொள்ளும்.

சுருக்கமாக, எங்களிடம் ஆயிரம் நூல்கள் உள்ளன, அவற்றை குழுக்களாக வரிசைப்படுத்த வேண்டும், ஒவ்வொரு உரையையும் ஒரு கட்டமைப்பின் வடிவத்தில் வழங்க வேண்டும் மற்றும் ஏற்கனவே வேலை செய்யக்கூடிய அட்டவணையைப் பெற வேண்டும். இது கட்டமைக்கப்படாத தகவல் செயலாக்கம் என்று அழைக்கப்படுகிறது. மறுபுறம், கணக்கீட்டு மொழியியல் கையாள்கிறது, எடுத்துக்காட்டாக, செயற்கை நூல்களை உருவாக்குவது. ரியல் எஸ்டேட் விலையில் ஏற்படும் மாற்றங்கள், வானிலை முன்னறிவிப்புகள், கால்பந்து போட்டிகள் பற்றிய அறிக்கைகள்: ஒரு நபர் எழுதுவதற்கு சலிப்பாக இருக்கும் தலைப்புகளில் உரைகளை உருவாக்குவதற்கான ஒரு பொறிமுறையை ஒரு நிறுவனம் கொண்டு வந்துள்ளது. ஒரு நபருக்கு இந்த நூல்களை ஆர்டர் செய்வது மிகவும் விலை உயர்ந்தது, மேலும் இதுபோன்ற தலைப்புகளில் கணினி நூல்கள் ஒத்திசைவான மனித மொழியில் எழுதப்பட்டுள்ளன.

ரஷ்யாவில் கட்டமைக்கப்படாத தகவல்களைத் தேடும் துறையில் முன்னேற்றங்களில் யாண்டெக்ஸ் தீவிரமாக ஈடுபட்டுள்ளது; காஸ்பர்ஸ்கி ஆய்வகம் இயந்திர கற்றலைப் படிக்கும் ஆராய்ச்சி குழுக்களை நியமிக்கிறது. சந்தையில் உள்ள ஒருவர் கணக்கீட்டு மொழியியல் துறையில் புதிதாக ஏதாவது ஒன்றைக் கொண்டு வர முயற்சிக்கிறார்களா?

**கணக்கீட்டு மொழியியல் பற்றிய புத்தகங்கள்:**

டேனியல் ஜுராஃப்ஸ்கி, பேச்சு மற்றும் மொழி செயலாக்கம்

கிறிஸ்டோபர் மேனிங், பிரபாகர் ராகவன், ஹென்ரிச் ஷூட்ஸே, "தகவல் மீட்டெடுப்பு அறிமுகம்"

யாகோவ் டெஸ்டெலெட்ஸ், “பொது தொடரியல் அறிமுகம்”

பெரும்பாலான மொழியியல் வளர்ச்சிகள் தனியுரிமை பெற்றவை பெரிய நிறுவனங்கள், பொது டொமைனில் கிட்டத்தட்ட எதையும் காண முடியாது. இது தொழில்துறையின் வளர்ச்சியைக் குறைக்கிறது; எங்களிடம் இலவச மொழியியல் சந்தை அல்லது தொகுக்கப்பட்ட தீர்வுகள் இல்லை.

கூடுதலாக, விரிவான தகவல் ஆதாரங்கள் பற்றாக்குறை உள்ளது. ரஷ்ய மொழியின் தேசிய கார்பஸ் போன்ற ஒரு திட்டம் உள்ளது. இது உலகின் சிறந்த தேசிய கட்டிடங்களில் ஒன்றாகும், இது வேகமாக வளர்ந்து வருகிறது மற்றும் அறிவியல் மற்றும் பயன்பாட்டு ஆராய்ச்சிக்கான நம்பமுடியாத வாய்ப்புகளைத் திறக்கிறது. டிஎன்ஏ ஆராய்ச்சிக்கு முன்னும் பின்னும் - உயிரியலில் உள்ள வேறுபாடு ஏறக்குறைய ஒன்றுதான்.

ஆனால் ரஷ்ய மொழியில் பல வளங்கள் இல்லை. எனவே, ஃப்ரேமெனெட் போன்ற அற்புதமான ஆங்கில மொழி வளத்திற்கு ஒப்புமை எதுவும் இல்லை - இது ஒரு கருத்தியல் வலையமைப்பாகும், அங்கு ஒரு குறிப்பிட்ட வார்த்தையின் மற்ற சொற்களுடன் சாத்தியமான அனைத்து இணைப்புகளும் முறையாக வழங்கப்படுகின்றன. எடுத்துக்காட்டாக, "பறக்க" என்ற சொல் உள்ளது - யார் பறக்க முடியும், எங்கே, இந்த வார்த்தை எந்த முன்மொழிவுடன் பயன்படுத்தப்படுகிறது, எந்த வார்த்தைகளுடன் இணைக்கப்பட்டுள்ளது, மற்றும் பல. இந்த ஆதாரம் மொழியை நிஜ வாழ்க்கையுடன் இணைக்க உதவுகிறது, அதாவது ஒரு குறிப்பிட்ட சொல் உருவவியல் மற்றும் தொடரியல் மட்டத்தில் எவ்வாறு செயல்படுகிறது என்பதைக் கண்டறிய உதவுகிறது. இது மிகவும் பயனுள்ளதாக உள்ளது.

Avicomp நிறுவனம் தற்போது ஒத்த உள்ளடக்கத்துடன் கட்டுரைகளைத் தேடுவதற்கான செருகுநிரலை உருவாக்கி வருகிறது. அதாவது, நீங்கள் ஒரு கட்டுரையில் ஆர்வமாக இருந்தால், சதித்திட்டத்தின் வரலாற்றை விரைவாகப் பார்க்கலாம்: தலைப்பு எழுந்தபோது, ​​என்ன எழுதப்பட்டது மற்றும் இந்த சிக்கலில் ஆர்வத்தின் உச்சம் எப்போது. எடுத்துக்காட்டாக, இந்த செருகுநிரலின் உதவியுடன், சிரியாவில் நிகழ்வுகளுக்கு அர்ப்பணிக்கப்பட்ட ஒரு கட்டுரையில் இருந்து தொடங்கி, கடந்த ஆண்டில் அங்கு நிகழ்வுகள் எவ்வாறு வளர்ந்தன என்பதை மிக விரைவாகக் காண முடியும்.

முதுநிலை திட்டத்தில் கற்றல் செயல்முறை எவ்வாறு கட்டமைக்கப்படும்?

மேற்கத்திய பல்கலைக்கழகங்களைப் போலவே HSE இல் கல்வியும் தனித்தனி தொகுதிகளில் ஒழுங்கமைக்கப்பட்டுள்ளது. மாணவர்கள் சிறிய குழுக்களாக பிரிக்கப்படுவார்கள், சிறு தொடக்கங்கள் - அதாவது, முடிவில் பல முடிக்கப்பட்ட திட்டங்களைப் பெற வேண்டும். நாங்கள் உண்மையான தயாரிப்புகளைப் பெற விரும்புகிறோம், அதை நாங்கள் மக்களுக்குத் திறந்து பொது களத்தில் விடுவோம்.

மாணவர்களின் உடனடி திட்ட மேலாளர்களுக்கு மேலதிகமாக, அவர்களின் சாத்தியமான முதலாளிகளிடமிருந்து அவர்களைக் கண்டறிய விரும்புகிறோம் - எடுத்துக்காட்டாக, அதே Yandex இலிருந்து, இந்த விளையாட்டை விளையாடி மாணவர்களுக்கு சில ஆலோசனைகளையும் வழங்குவார்கள்.

புரோகிராமர்கள், மொழியியலாளர்கள், சமூகவியலாளர்கள், சந்தைப்படுத்துபவர்கள்: பல்வேறு துறைகளைச் சேர்ந்தவர்கள் முதுகலை திட்டத்திற்கு வருவார்கள் என்று நம்புகிறேன். மொழியியல், கணிதம் மற்றும் நிரலாக்கத்தில் பல தழுவல் படிப்புகள் இருக்கும். மொழியியலில் இரண்டு தீவிரமான படிப்புகள் இருக்கும், மேலும் அவை தற்போதைய மொழியியல் கோட்பாடுகளுடன் தொடர்புடையதாக இருக்கும்; எங்கள் பட்டதாரிகள் நவீன மொழியியல் கட்டுரைகளைப் படித்து புரிந்து கொள்ள வேண்டும் என்று நாங்கள் விரும்புகிறோம். கணிதமும் அப்படித்தான். "கணக்கீட்டு மொழியியலின் கணித அடித்தளங்கள்" என்று அழைக்கப்படும் ஒரு பாடத்திட்டத்தை நாங்கள் வைத்திருப்போம், இது நவீன கணக்கீட்டு மொழியியல் அடிப்படையிலான கணிதத்தின் கிளைகளை கோடிட்டுக் காட்டும்.

முதுநிலை திட்டத்தில் சேர, நீங்கள் தேர்ச்சி பெற வேண்டும் நுழைவு தேர்வுமொழி மற்றும் ஒரு போர்ட்ஃபோலியோ போட்டியில் தேர்ச்சி.

முக்கிய படிப்புகளுக்கு கூடுதலாக, தேர்ந்தெடுக்கப்பட்ட பாடங்களின் வரிசை இருக்கும். நாங்கள் பல சுழற்சிகளைத் திட்டமிட்டுள்ளோம் - அவற்றில் இரண்டு தனிப்பட்ட தலைப்புகளின் ஆழமான ஆய்வில் கவனம் செலுத்துகின்றன, எடுத்துக்காட்டாக, இயந்திர மொழிபெயர்ப்பு மற்றும் கார்பஸ் மொழியியல், மற்றும் ஒன்று, மாறாக, தொடர்புடைய பகுதிகளுடன் தொடர்புடையது: சமூக ஊடகம், மெஷின் லேர்னிங் அல்லது டிஜிட்டல் ஹ்யூமானிட்டிஸ் - ஒரு பாடத்திட்டத்தில் கற்பிக்கப்படும் என்று நாங்கள் நம்புகிறோம் ஆங்கில மொழி.

பாடப் பணி

"தகவல்" துறையில்

தலைப்பில்: "கணக்கீட்டு மொழியியல்"


அறிமுகம்

2. கணக்கீட்டு மொழியியலுக்கான நவீன இடைமுகங்கள்

முடிவுரை

இலக்கியம்


அறிமுகம்

நவீன சமூகத்தின் வாழ்க்கையில் தானியங்கி தகவல் தொழில்நுட்பங்கள் முக்கிய பங்கு வகிக்கின்றன. காலப்போக்கில், அவற்றின் முக்கியத்துவம் தொடர்ந்து அதிகரிக்கிறது. ஆனால் வளர்ச்சி தகவல் தொழில்நுட்பங்கள்மிகவும் சமமாக நிகழ்கிறது: தற்போதைய நிலை என்றால் கணினி தொழில்நுட்பம்தகவல்தொடர்பு வழிமுறைகள் ஆச்சரியமானவை, ஆனால் தகவல்களின் சொற்பொருள் செயலாக்கத் துறையில், வெற்றிகள் மிகவும் எளிமையானவை. இந்த வெற்றிகள், முதலில், மனித சிந்தனையின் செயல்முறைகள், மக்களிடையே வாய்மொழி தகவல்தொடர்பு செயல்முறைகள் மற்றும் கணினியில் இந்த செயல்முறைகளை மாதிரியாக்கும் திறன் ஆகியவற்றின் ஆய்வில் உள்ள சாதனைகளைப் பொறுத்தது.

நம்பிக்கைக்குரிய தகவல் தொழில்நுட்பங்களை உருவாக்கும் போது, ​​​​இயற்கை மொழிகளில் வழங்கப்படும் உரை தகவல்களின் தானியங்கி செயலாக்கத்தின் சிக்கல்கள் முன்னுக்கு வருகின்றன. ஒரு நபரின் சிந்தனை அவரது மொழியுடன் நெருக்கமாக இணைக்கப்பட்டுள்ளது என்பதன் மூலம் இது தீர்மானிக்கப்படுகிறது. மேலும், இயற்கை மொழி சிந்தனைக்கான ஒரு கருவியாகும். இது மக்களிடையே தகவல்தொடர்புக்கான உலகளாவிய வழிமுறையாகும் - கருத்து, குவிப்பு, சேமிப்பு, செயலாக்கம் மற்றும் தகவல் பரிமாற்றத்திற்கான ஒரு வழிமுறையாகும். கணினி மொழியியல் அறிவியல் தானியங்கி தகவல் செயலாக்க அமைப்புகளில் இயற்கை மொழியைப் பயன்படுத்துவதில் உள்ள சிக்கல்களைக் கையாள்கிறது. இந்த விஞ்ஞானம் ஒப்பீட்டளவில் சமீபத்தில் எழுந்தது - கடந்த நூற்றாண்டின் ஐம்பதுகள் மற்றும் அறுபதுகளின் தொடக்கத்தில். கடந்த அரை நூற்றாண்டில், கணினி மொழியியல் துறையில் குறிப்பிடத்தக்க அறிவியல் மற்றும் நடைமுறை முடிவுகள் பெறப்பட்டுள்ளன: ஒரு இயற்கை மொழியிலிருந்து மற்றொன்றுக்கு நூல்களை இயந்திர மொழிபெயர்ப்பதற்கான அமைப்புகள், உரைகளில் தானியங்கு தகவல்களை மீட்டெடுப்பதற்கான அமைப்புகள், தானியங்கி பகுப்பாய்வு மற்றும் வாய்வழி தொகுப்புக்கான அமைப்புகள். பேச்சு, மற்றும் பல உருவாக்கப்பட்டுள்ளன. இந்த வேலைமொழியியல் ஆராய்ச்சியை மேற்கொள்ளும்போது கணினி மொழியியலைப் பயன்படுத்தி உகந்த கணினி இடைமுகத்தை உருவாக்குவதற்கு அர்ப்பணிக்கப்பட்டுள்ளது.


1. மொழியியல் ஆராய்ச்சியில் கணக்கீட்டு மொழியியலின் இடம் மற்றும் பங்கு

IN நவீன உலகம்பல்வேறு மொழியியல் ஆய்வுகளில் கணக்கீட்டு மொழியியல் அதிகளவில் பயன்படுத்தப்படுகிறது.

கணக்கீட்டு மொழியியல் என்பது இயற்கையான மொழியில் வழங்கப்பட்ட தகவல்களை தானியங்கு செயலாக்கத்தின் சிக்கல்களைத் தீர்ப்பதோடு தொடர்புடைய அறிவுத் துறையாகும். கணினி மொழியியலின் மைய அறிவியல் சிக்கல்கள், உரைகளின் பொருளைப் புரிந்துகொள்ளும் செயல்முறையை மாதிரியாக்குவது (உரையிலிருந்து அதன் அர்த்தத்தின் முறைப்படுத்தப்பட்ட பிரதிநிதித்துவத்திற்கு மாறுதல்) மற்றும் பேச்சுத் தொகுப்பின் சிக்கல் (இயற்கையில் உள்ள உரைகளுக்கு முறைப்படுத்தப்பட்ட அர்த்தத்திலிருந்து மாறுதல் மொழி). பல பயன்பாட்டு சிக்கல்களைத் தீர்க்கும்போது இந்த சிக்கல்கள் எழுகின்றன, குறிப்பாக, கணினியில் உரைகளை உள்ளிடும்போது பிழைகளைத் தானாகக் கண்டறிதல் மற்றும் சரிசெய்தல், தானியங்கி பகுப்பாய்வு மற்றும் வாய்வழி பேச்சின் தொகுப்பு, ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு நூல்களின் தானியங்கி மொழிபெயர்ப்பு, தொடர்பு இயற்கை மொழியில் உள்ள கணினி, உரை ஆவணங்களின் தானியங்கு வகைப்பாடு மற்றும் அட்டவணைப்படுத்தல், அவற்றின் தானியங்கி சுருக்கம், முழு உரை தரவுத்தளங்களில் ஆவணங்களைத் தேடுதல்.

கணக்கீட்டு மொழியியலில் உருவாக்கப்பட்ட மற்றும் பயன்படுத்தப்படும் மொழியியல் கருவிகளை இரண்டு பகுதிகளாகப் பிரிக்கலாம்: அறிவிப்பு மற்றும் நடைமுறை. அறிவிப்புப் பகுதியில் மொழி மற்றும் பேச்சு அலகுகளின் அகராதிகள், உரைகள் மற்றும் பல்வேறு வகையான இலக்கண அட்டவணைகள் உள்ளன, நடைமுறைப் பகுதியில் மொழி மற்றும் பேச்சு அலகுகள், உரைகள் மற்றும் இலக்கண அட்டவணைகள் ஆகியவற்றைக் கையாளும் வழிமுறைகள் அடங்கும். கணினி இடைமுகம் என்பது கணக்கீட்டு மொழியியலின் செயல்முறைப் பகுதியைக் குறிக்கிறது.

கணினி மொழியியலின் பயன்பாட்டு சிக்கல்களைத் தீர்ப்பதில் வெற்றி, முதலில், கணினி நினைவகத்தில் அறிவிப்பு வழிமுறைகளின் பிரதிநிதித்துவத்தின் முழுமை மற்றும் துல்லியம் மற்றும் நடைமுறை வழிமுறைகளின் தரம் ஆகியவற்றைப் பொறுத்தது. உலகின் அனைத்து வளர்ந்த நாடுகளிலும் (ரஷ்யா, அமெரிக்கா, இங்கிலாந்து, பிரான்ஸ், ஜெர்மனி, ஜப்பான், முதலியன) கணக்கீட்டு மொழியியல் துறையில் பணிகள் மேற்கொள்ளப்பட்டாலும், இன்றுவரை, இந்த சிக்கல்களைத் தீர்ப்பதற்கான தேவையான அளவு இன்னும் அடையப்படவில்லை. )

ஆயினும்கூட, கணக்கீட்டு மொழியியல் துறையில் தீவிர அறிவியல் மற்றும் நடைமுறை சாதனைகளைக் குறிப்பிடலாம். இவ்வாறு, பல நாடுகளில் (ரஷ்யா, அமெரிக்கா, ஜப்பான், முதலியன) சோதனை மற்றும் தொழில்துறை அமைப்புகள்ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு நூல்களின் இயந்திர மொழிபெயர்ப்பு, இயற்கையான மொழியில் கணினிகளுடன் தொடர்புகொள்வதற்கான பல சோதனை அமைப்புகள் கட்டப்பட்டுள்ளன, டெர்மினாலாஜிக்கல் தரவு வங்கிகள், சொற்களஞ்சியம், இருமொழி மற்றும் பன்மொழி இயந்திர அகராதிகளை (ரஷ்யா, அமெரிக்கா, ஜெர்மனி, பிரான்ஸ்) உருவாக்கும் பணி நடந்து வருகிறது. , முதலியன), அமைப்புகள் தானியங்கி பகுப்பாய்வு மற்றும் வாய்வழி பேச்சின் தொகுப்பு (ரஷ்யா, அமெரிக்கா, ஜப்பான் போன்றவை) உருவாக்கப்படுகின்றன, இயற்கை மொழி மாதிரிகளை உருவாக்கும் துறையில் ஆராய்ச்சி நடந்து வருகிறது.

பயன்பாட்டு கணக்கீட்டு மொழியியலின் ஒரு முக்கியமான வழிமுறை சிக்கல், தானியங்கி உரை தகவல் செயலாக்க அமைப்புகளின் அறிவிப்பு மற்றும் செயல்முறை கூறுகளுக்கு இடையே தேவையான உறவின் சரியான மதிப்பீடு ஆகும். எது விரும்பப்பட வேண்டும்: வளமான இலக்கண மற்றும் சொற்பொருள் தகவல்களுடன் ஒப்பீட்டளவில் சிறிய சொற்களஞ்சிய அமைப்புகளை அடிப்படையாகக் கொண்ட சக்திவாய்ந்த கணக்கீட்டு நடைமுறைகள் அல்லது ஒப்பீட்டளவில் எளிமையான கணினி இடைமுகங்களைக் கொண்ட சக்திவாய்ந்த அறிவிப்பு கூறு? பெரும்பாலான விஞ்ஞானிகள் இரண்டாவது வழி விரும்பத்தக்கது என்று நம்புகிறார்கள். இது நடைமுறை இலக்குகளை விரைவாக அடைய வழிவகுக்கும், ஏனெனில் குறைவான முட்டுக்கட்டைகள் மற்றும் கடக்க கடினமான தடைகள் இருக்கும், மேலும் இங்கு ஆராய்ச்சி மற்றும் மேம்பாட்டை தானியக்கமாக்குவதற்கு கணினிகளை பெரிய அளவில் பயன்படுத்த முடியும்.

தானியங்கி உரை தகவல் செயலாக்க அமைப்புகளின் அறிவிப்பு கூறுகளை உருவாக்குவதற்கான முயற்சிகளை அணிதிரட்ட வேண்டிய அவசியம், கணினி மொழியியல் வளர்ச்சியில் அரை நூற்றாண்டு அனுபவத்தால் உறுதிப்படுத்தப்பட்டுள்ளது. எல்லாவற்றிற்கும் மேலாக, இங்கே, இந்த அறிவியலின் மறுக்க முடியாத வெற்றிகள் இருந்தபோதிலும், அல்காரிதம் நடைமுறைகளுக்கான ஆர்வம் எதிர்பார்த்த வெற்றியைக் கொண்டுவரவில்லை. நடைமுறை வழிமுறைகளின் திறன்களில் சில ஏமாற்றம் கூட இருந்தது.

மேற்கூறியவற்றின் வெளிச்சத்தில், கணினி மொழியியலின் வளர்ச்சியின் அத்தகைய பாதையை உருவாக்குவது உறுதியளிக்கிறது, முக்கிய முயற்சிகள் மொழி மற்றும் பேச்சு அலகுகளின் சக்திவாய்ந்த அகராதிகளை உருவாக்குதல், அவற்றின் சொற்பொருள்-தொடரியல் கட்டமைப்பை ஆய்வு செய்தல் மற்றும் உருவவியல் அடிப்படை நடைமுறைகளை உருவாக்குதல், சொற்பொருள்-தொடக்கவியல் மற்றும் கருத்தியல் பகுப்பாய்வு மற்றும் உரைகளின் தொகுப்பு. இது எதிர்காலத்தில் பரவலான பயன்பாட்டு சிக்கல்களைத் தீர்க்க அனுமதிக்கும்.

கணினி மொழியியல், முதலில், தகவல்களைச் சேகரித்தல், குவித்தல், செயலாக்குதல் மற்றும் மீட்டெடுப்பதற்கான செயல்முறைகளுக்கான மொழியியல் ஆதரவின் பணிகளை எதிர்கொள்கிறது. அவற்றில் மிக முக்கியமானவை:

1. இயந்திர அகராதிகளின் தொகுத்தல் மற்றும் மொழியியல் செயலாக்கத்தின் ஆட்டோமேஷன்;

2. கணினியில் உரைகளை உள்ளிடும்போது பிழைகளைக் கண்டறிந்து திருத்தும் செயல்முறைகளின் ஆட்டோமேஷன்;

3. ஆவணங்கள் மற்றும் தகவல் கோரிக்கைகளின் தானியங்கி அட்டவணைப்படுத்தல்;

4. ஆவணங்களின் தானியங்கு வகைப்பாடு மற்றும் சுருக்கம்;

5. ஒருமொழி மற்றும் பன்மொழி தரவுத்தளங்களில் தகவல் மீட்டெடுப்பு செயல்முறைகளுக்கான மொழியியல் ஆதரவு;

6. ஒரு இயற்கை மொழியிலிருந்து மற்றொரு மொழிக்கு நூல்களின் இயந்திர மொழிபெயர்ப்பு;

7. பயனர்கள் மற்றும் தன்னியக்க அறிவாளிகளுக்கு இடையேயான தொடர்பை உறுதி செய்யும் மொழியியல் செயலிகளின் கட்டுமானம் தகவல் அமைப்புகள்(குறிப்பாக, நிபுணர் அமைப்புகளுடன்) இயற்கை மொழியில், அல்லது இயற்கைக்கு நெருக்கமான மொழியில்;

8. முறைசாரா நூல்களிலிருந்து உண்மைத் தகவல்களைப் பிரித்தெடுத்தல்.

ஆராய்ச்சியின் தலைப்புக்கு மிகவும் பொருத்தமான சிக்கல்களில் விரிவாக வாழ்வோம்.

தகவல் மையங்களின் நடைமுறை நடவடிக்கைகளில், தானாக கண்டறிதல் மற்றும் உரைகளில் உள்ள பிழைகளை கணினியில் உள்ளிடும்போது அவற்றை சரிசெய்தல் ஆகியவற்றின் சிக்கலை தீர்க்க வேண்டிய அவசியம் உள்ளது. இந்த சிக்கலான பணியை நிபந்தனையுடன் மூன்று பணிகளாகப் பிரிக்கலாம் - ஆர்த்தோகிராஃபிக், தொடரியல் மற்றும் சொற்பொருள் கட்டுப்பாட்டின் பணிகள். அவற்றில் முதன்மையானது, சொல் தண்டுகளின் மிகவும் சக்திவாய்ந்த குறிப்பு இயந்திர அகராதியைப் பயன்படுத்தும் உருவவியல் பகுப்பாய்வு செயல்முறையைப் பயன்படுத்தி தீர்க்கப்படலாம். எழுத்துப்பிழைக் கட்டுப்பாட்டின் செயல்பாட்டில், உரையின் சொற்கள் உருவவியல் பகுப்பாய்விற்கு உட்பட்டவை, மேலும் அவற்றின் அடிப்படைகள் குறிப்பு அகராதியின் அடிப்படைகளுடன் அடையாளம் காணப்பட்டால், அவை சரியானதாகக் கருதப்படுகின்றன; அவை அடையாளம் காணப்படவில்லை என்றால், அவை, ஒரு நுண்ணிய சூழலுடன் சேர்ந்து, ஒரு நபருக்கு பார்வைக்கு வழங்கப்படுகின்றன. ஒரு நபர் சிதைந்த சொற்களைக் கண்டறிந்து திருத்துகிறார், மேலும் தொடர்புடைய மென்பொருள் அமைப்பு இந்த திருத்தங்களை திருத்தப்பட்ட உரையாக மாற்றுகிறது.

எழுத்துப்பிழைகளைக் கண்டறிவதற்காக உரைகளின் தொடரியல் கட்டுப்பாட்டின் பணி எழுத்துக் கட்டுப்பாட்டின் பணியை விட மிகவும் கடினம். முதலாவதாக, அதன் கலவையில் எழுத்துப்பிழைக் கட்டுப்பாட்டை அதன் கட்டாய அங்கமாக உள்ளடக்கியிருப்பதால், இரண்டாவதாக, முறைசாரா நூல்களின் தொடரியல் பகுப்பாய்வின் சிக்கல் இன்னும் முழுமையாக தீர்க்கப்படவில்லை. இருப்பினும், உரைகளின் பகுதி தொடரியல் கட்டுப்பாடு மிகவும் சாத்தியம். இங்கே நீங்கள் இரண்டு வழிகளில் செல்லலாம்: குறிப்பு தொடரியல் கட்டமைப்புகளின் மிகவும் பிரதிநிதித்துவ இயந்திர அகராதிகளைத் தொகுக்கவும் மற்றும் பகுப்பாய்வு செய்யப்பட்ட உரையின் தொடரியல் கட்டமைப்புகளை அவற்றுடன் ஒப்பிடவும்; அல்லது உரை கூறுகளின் இலக்கண நிலைத்தன்மையை சரிபார்க்க சிக்கலான விதிகளை உருவாக்கவும். முதல் பாதை எங்களுக்கு மிகவும் நம்பிக்கைக்குரியதாகத் தோன்றுகிறது, இருப்பினும் இது இரண்டாவது பாதையின் கூறுகளைப் பயன்படுத்துவதற்கான வாய்ப்பை விலக்கவில்லை. உரைகளின் தொடரியல் அமைப்பு வார்த்தைகளின் இலக்கண வகுப்புகளின் அடிப்படையில் விவரிக்கப்பட வேண்டும் (இன்னும் துல்லியமாக, சொற்களுக்கான இலக்கண தகவல்களின் தொகுப்புகளின் வரிசைகளின் வடிவத்தில்).

சொற்பொருள் பிழைகளைக் கண்டறிவதற்காக நூல்களின் சொற்பொருள் கட்டுப்பாட்டின் பணி செயற்கை நுண்ணறிவு பணிகளின் வகுப்பாக வகைப்படுத்தப்பட வேண்டும். மனித சிந்தனையின் செயல்முறைகளை மாதிரியாக்குவதன் அடிப்படையில் மட்டுமே இது முழுமையாக தீர்க்கப்பட முடியும். இந்த வழக்கில், அறிவு கையாளுதலுக்கான சக்திவாய்ந்த கலைக்களஞ்சிய அறிவுத் தளங்கள் மற்றும் மென்பொருள் கருவிகளை உருவாக்குவது அவசியமாக இருக்கும். இருப்பினும், வரையறுக்கப்பட்ட பாடப் பகுதிகள் மற்றும் முறைப்படுத்தப்பட்ட தகவல்களுக்கு, இந்த பணி முற்றிலும் தீர்க்கக்கூடியது. இது உரைகளின் சொற்பொருள்-தொடக்கக் கட்டுப்பாட்டின் சிக்கலாக முன்வைக்கப்பட்டு தீர்க்கப்பட வேண்டும்.

ஆவணங்கள் மற்றும் வினவல்களின் அட்டவணைப்படுத்தலை தானியங்குபடுத்துவதில் உள்ள சிக்கல் தானியங்கு உரை தகவல் மீட்டெடுப்பு அமைப்புகளுக்கு பாரம்பரியமானது. முதலில், அட்டவணைப்படுத்தல் என்பது அவற்றின் கருப்பொருள் உள்ளடக்கத்தை பிரதிபலிக்கும் ஆவணங்கள் மற்றும் வினவல்களுக்கு வகைப்படுத்தல் குறியீடுகளை ஒதுக்கும் செயல்முறையாக புரிந்து கொள்ளப்பட்டது. பின்னர், இந்த கருத்து மாற்றப்பட்டது மற்றும் "அட்டவணை" என்ற சொல் ஆவணங்கள் மற்றும் வினவல்களின் விளக்கங்களை இயற்கை மொழியிலிருந்து முறைப்படுத்தப்பட்ட மொழியில், குறிப்பாக, "தேடல் படங்கள்" மொழியில் மொழிபெயர்க்கும் செயல்முறையைக் குறிக்கத் தொடங்கியது. ஆவணங்களின் தேடல் படங்கள், ஒரு விதியாக, அவற்றின் கருப்பொருள் உள்ளடக்கத்தை பிரதிபலிக்கும் முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்களின் பட்டியல்களின் வடிவத்தில் வரையப்படத் தொடங்கின, மேலும் வினவல்களின் படங்களைத் தேடுங்கள் - முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்கள் ஒன்றோடொன்று இணைக்கப்பட்ட தருக்க கட்டமைப்புகளின் வடிவத்தில். தருக்க மற்றும் தொடரியல் ஆபரேட்டர்கள் மூலம்.

ஆவணங்களை அவற்றின் சுருக்கங்களின் (ஏதேனும் இருந்தால்) அடிப்படையில் தானாக அட்டவணைப்படுத்துவது வசதியானது, ஏனெனில் சுருக்கங்கள் ஆவணங்களின் முக்கிய உள்ளடக்கத்தை செறிவூட்டப்பட்ட வடிவத்தில் பிரதிபலிக்கின்றன. அட்டவணைப்படுத்தல் சொற்களஞ்சியம் கட்டுப்பாட்டுடன் அல்லது இல்லாமல் மேற்கொள்ளப்படலாம். முதல் வழக்கில், ஆவணத்தின் தலைப்பின் உரை மற்றும் அதன் சுருக்கம், குறிப்பு இயந்திர அகராதியின் முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்கள் தேடப்பட்டு, அகராதியில் உள்ளவை மட்டுமே AML இல் சேர்க்கப்பட்டுள்ளன. இரண்டாவது வழக்கில், முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்கள் உரையிலிருந்து தனிமைப்படுத்தப்பட்டு POD இல் சேர்க்கப்படும், அவை எந்த குறிப்பு அகராதியிலும் இல்லை. மூன்றாவது விருப்பமும் செயல்படுத்தப்பட்டது, அங்கு, இயந்திர சொற்களஞ்சியத்தின் விதிமுறைகளுடன், AML ஆவணத்தின் தலைப்பு மற்றும் முதல் வாக்கியத்திலிருந்து பிரித்தெடுக்கப்பட்ட சொற்களையும் உள்ளடக்கியது. தலைப்புகள் மற்றும் ஆவணங்களின் சுருக்கங்களைப் பயன்படுத்தி தானாக தொகுக்கப்பட்ட PODகள் கைமுறையாக தொகுக்கப்பட்ட PODகளை விட அதிக தேடல் முழுமையை வழங்குவதாக சோதனைகள் காட்டுகின்றன. கையேடு குறியீட்டு முறையை விட தானியங்கி அட்டவணைப்படுத்தல் அமைப்பு ஆவணங்களின் உள்ளடக்கத்தின் பல்வேறு அம்சங்களை முழுமையாக பிரதிபலிக்கிறது என்பதன் மூலம் இது விளக்கப்படுகிறது.

வினவல்களின் தானியங்கி அட்டவணைப்படுத்தல் ஆவணங்களின் தானியங்கி அட்டவணைப்படுத்தல் போன்ற சிக்கல்களை ஏற்படுத்துகிறது. இங்கே நீங்கள் உரையிலிருந்து முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்களைப் பிரித்தெடுக்க வேண்டும் மற்றும் வினவல் உரையில் சேர்க்கப்பட்டுள்ள சொற்களை இயல்பாக்க வேண்டும். முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்கள் மற்றும் சூழ்நிலை ஆபரேட்டர்களுக்கு இடையே உள்ள தர்க்கரீதியான இணைப்புகளை கைமுறையாக அல்லது தானியங்கு செயல்முறையைப் பயன்படுத்தி உள்ளிடலாம். வினவலின் தானியங்கி அட்டவணைப்படுத்தல் செயல்முறையின் ஒரு முக்கிய அங்கம், அதன் முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்களை அவற்றின் ஒத்த சொற்கள் மற்றும் ஹைப்போனிம்களுடன் சேர்ப்பது ஆகும் (சில நேரங்களில் ஹைபரோனிம்கள் மற்றும் அசல் வினவல் சொற்களுடன் தொடர்புடைய பிற சொற்களும்). இது ஒரு இயந்திர சொற்களஞ்சியத்தைப் பயன்படுத்தி தானாகவே அல்லது ஊடாடும் வகையில் செய்யப்படலாம்.

தானியங்கி அட்டவணையிடல் பணி தொடர்பாக ஆவணத் தகவலுக்கான தேடலை தானியங்குபடுத்துவதில் உள்ள சிக்கலை நாங்கள் ஏற்கனவே ஓரளவு கருத்தில் கொண்டுள்ளோம். இந்த நோக்கத்திற்காக அனைத்து வகையான மாற்றீடுகளின் பயன்பாடு (நூல் விளக்கங்கள், ஆவணங்களின் தேடல் படங்கள் மற்றும் அவற்றின் சுருக்கங்களின் உரைகள்) தேடலின் போது தகவல்களை இழக்க வழிவகுக்கும் என்பதால், அவற்றின் முழு உரைகளையும் பயன்படுத்தி ஆவணங்களைத் தேடுவதே இங்கு மிகவும் நம்பிக்கைக்குரியது. முதன்மை ஆவணங்களுக்கு மாற்றாக நூலியல் விளக்கங்கள் பயன்படுத்தப்படும்போது மிகப்பெரிய இழப்புகள் ஏற்படுகின்றன, மேலும் சுருக்கங்கள் பயன்படுத்தப்படும்போது மிகச்சிறிய இழப்புகள் ஏற்படுகின்றன.

தகவல் மீட்டெடுப்பின் தரத்தின் முக்கிய பண்புகள் அதன் முழுமை மற்றும் துல்லியம் ஆகும். மொழி மற்றும் பேச்சு அலகுகள் (சொற்கள் மற்றும் சொற்றொடர்கள்) மற்றும் துல்லியம் - அவற்றின் தொடரியல் இணைப்புகளை கணக்கில் எடுத்துக்கொள்வதன் மூலம் அதிகபட்ச முன்னுதாரண இணைப்புகளை எடுத்துக்கொள்வதன் மூலம் தேடலின் முழுமையை உறுதிப்படுத்த முடியும். தேடலின் முழுமையும் துல்லியமும் நேர்மாறாக தொடர்புடையவை என்று ஒரு கருத்து உள்ளது: இந்த குணாதிசயங்களில் ஒன்றை மேம்படுத்துவதற்கான நடவடிக்கைகள் மற்றொன்றில் மோசமடைய வழிவகுக்கும். ஆனால் இது நிலையான தேடல் தர்க்கத்திற்கு மட்டுமே பொருந்தும். இந்த தர்க்கம் மேம்படுத்தப்பட்டால், இரண்டு பண்புகளையும் ஒரே நேரத்தில் மேம்படுத்தலாம்.

பயனர் மற்றும் தகவல் மீட்டெடுப்பு அமைப்பு (IRS) ஆகியவற்றுக்கு இடையேயான ஊடாடும் தகவல்தொடர்பு செயல்முறையாக முழு-உரை தரவுத்தளங்களில் தகவலைத் தேடும் செயல்முறையை உருவாக்குவது நல்லது. கோரிக்கை, மற்றும் அவருக்கு பொருத்தமானவற்றைத் தேர்ந்தெடுக்கிறது. இறுதி தேடல் முடிவுகள் இவ்வாறு தோன்றலாம் முழு நூல்கள்ஆவணங்கள் மற்றும் அதன் துண்டுகள்.

முந்தைய விவாதங்களிலிருந்து காணக்கூடியது போல, தானாகவே தகவல்களைத் தேடும் போது, ​​உரைகளில் நிகழும் அதே அர்த்தத்தின் பல்வேறு வடிவங்களின் பிரதிநிதித்துவத்தின் காரணமாக பயனருக்கும் தகவல் அமைப்புக்கும் இடையே எழும் மொழித் தடையை கடக்க வேண்டியது அவசியம். பன்மொழி தரவுத்தளங்களில் தேடுதல் மேற்கொள்ளப்பட வேண்டும் என்றால் இந்த தடை இன்னும் குறிப்பிடத்தக்கதாகிறது. ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு ஆவண நூல்களை இயந்திர மொழிபெயர்ப்பதே இங்குள்ள சிக்கலுக்கு ஒரு தீவிரமான தீர்வு. இது முன்கூட்டியே, தேடுபொறியில் ஆவணங்களை ஏற்றுவதற்கு முன் அல்லது தகவலைத் தேடும் போது செய்யப்படலாம். பிந்தைய வழக்கில், பயனரின் கோரிக்கையானது தேடல் நடத்தப்படும் ஆவண வரிசையின் மொழியில் மொழிபெயர்க்கப்பட வேண்டும், மேலும் தேடல் முடிவுகள் கோரிக்கையின் மொழியில் மொழிபெயர்க்கப்பட வேண்டும். இந்த வகையான தேடுபொறிகள் ஏற்கனவே இணையத்தில் இயங்குகின்றன. VINITI RAS ஆனது ஒரு சிரிலிக் உலாவி அமைப்பையும் உருவாக்கியுள்ளது, இது ரஷ்ய மொழி உரைகளில் உள்ள தகவலை ஆங்கிலத்தில் வினவல்களைப் பயன்படுத்தி பயனர் மொழியிலும் தேடல் முடிவுகளுடன் தேட அனுமதிக்கிறது.

கணினி மொழியியலின் முக்கியமான மற்றும் நம்பிக்கைக்குரிய பணியானது, இயற்கையான மொழியில் அல்லது இயற்கைக்கு நெருக்கமான மொழியில் அறிவார்ந்த தானியங்கி தகவல் அமைப்புகளுடன் (குறிப்பாக, நிபுணர் அமைப்புகள்) பயனர் தொடர்புகளை உறுதி செய்யும் மொழியியல் செயலிகளை உருவாக்குவதாகும். நவீன அறிவார்ந்த அமைப்புகளில் தகவல் முறைப்படுத்தப்பட்ட வடிவத்தில் சேமிக்கப்படுவதால், ஒரு நபருக்கும் கணினிக்கும் இடையில் இடைத்தரகர்களாக செயல்படும் மொழியியல் செயலிகள் பின்வரும் முக்கிய பணிகளைத் தீர்க்க வேண்டும்: 1) உள்ளீட்டு தகவல் கோரிக்கைகள் மற்றும் செய்திகளின் உரையிலிருந்து இயற்கையான முறையில் மாற்றும் பணி ஒரு முறைப்படுத்தப்பட்ட மொழியில் அவற்றின் பொருளைக் குறிக்கும் மொழி (ஒரு கணினியில் தகவலை உள்ளிடும்போது); 2) வெளியீட்டுச் செய்திகளின் பொருளின் முறையான பிரதிநிதித்துவத்திலிருந்து இயற்கையான மொழியில் அதன் பிரதிநிதித்துவத்திற்கு (ஒரு நபருக்கு தகவலை வழங்கும்போது) மாற்றும் பணி. முதல் பணியானது உள்ளீட்டு வினவல்கள் மற்றும் செய்திகளின் உருவவியல், தொடரியல் மற்றும் கருத்தியல் பகுப்பாய்வு மூலம் தீர்க்கப்பட வேண்டும், இரண்டாவது - வெளியீட்டு செய்திகளின் கருத்தியல், தொடரியல் மற்றும் உருவவியல் தொகுப்பு மூலம்.

தகவல் கோரிக்கைகள் மற்றும் செய்திகளின் கருத்தியல் பகுப்பாய்வு அவற்றின் கருத்தியல் கட்டமைப்பை (கருத்துகளின் பெயர்களின் எல்லைகள் மற்றும் உரையில் உள்ள கருத்துக்களுக்கு இடையிலான உறவுகள்) அடையாளம் கண்டு, இந்த கட்டமைப்பை முறைப்படுத்தப்பட்ட மொழியில் மொழிபெயர்ப்பதைக் கொண்டுள்ளது. கோரிக்கைகள் மற்றும் செய்திகளின் உருவவியல் மற்றும் தொடரியல் பகுப்பாய்வுக்குப் பிறகு இது மேற்கொள்ளப்படுகிறது. செய்திகளின் கருத்தியல் தொகுப்பு முறைப்படுத்தப்பட்ட மொழியில் அவற்றின் கட்டமைப்பின் கூறுகளின் பிரதிநிதித்துவத்திலிருந்து வாய்மொழி (வாய்மொழி) பிரதிநிதித்துவத்திற்கு மாறுவதைக் கொண்டுள்ளது. இதற்குப் பிறகு, செய்திகளுக்கு தேவையான தொடரியல் மற்றும் உருவ வடிவம் கொடுக்கப்படுகிறது.

ஒரு இயற்கை மொழியிலிருந்து மற்றொன்றுக்கு நூல்களை இயந்திர மொழிபெயர்ப்பதற்கு, கருத்துகளின் பெயர்களுக்கு இடையில் மொழிபெயர்ப்பு கடிதங்களின் அகராதிகளை வைத்திருப்பது அவசியம். இத்தகைய மொழிபெயர்ப்பு கடிதங்களைப் பற்றிய அறிவு பல தலைமுறை மக்களால் திரட்டப்பட்டது மற்றும் சிறப்பு வெளியீடுகள் - இருமொழி அல்லது பன்மொழி அகராதிகள் வடிவில் தொகுக்கப்பட்டது. வெளிநாட்டு மொழிகளைப் பற்றி ஓரளவு அறிந்த நிபுணர்களுக்கு, இந்த அகராதிகள் நூல்களை மொழிபெயர்ப்பதில் மதிப்புமிக்க உதவியாக இருந்தன.

பாரம்பரிய இருமொழி மற்றும் பன்மொழி பொது-நோக்கு அகராதிகளில், மொழிபெயர்ப்புச் சமமானவை முதன்மையாக தனிப்பட்ட சொற்களுக்கும், சொற்றொடர்களுக்கும் - மிகக் குறைவாகவே குறிப்பிடப்படுகின்றன. சொற்றொடருக்கான மொழிபெயர்ப்புச் சமமான குறிப்பானது சிறப்புச் சொற்களஞ்சிய அகராதிகளுக்கு மிகவும் பொதுவானதாக இருந்தது. எனவே, பல சொற்களைக் கொண்ட நூல்களின் பகுதிகளை மொழிபெயர்க்கும்போது, ​​மாணவர்கள் பெரும்பாலும் சிரமங்களை எதிர்கொண்டனர்.

"பள்ளி" தலைப்புகளில் பல ஜோடி ஆங்கிலம் மற்றும் ரஷ்ய சொற்றொடர்களுக்கு இடையேயான மொழிபெயர்ப்பு கடிதங்கள் கீழே உள்ளன.

1) வௌவால் இறக்கைகள் கொண்ட எலி போல் தெரிகிறது - வௌவால் இறக்கைகள் கொண்ட எலி போல் தெரிகிறது.

2) குழந்தைகள் கடற்கரையில் மணலில் விளையாட விரும்புகிறார்கள் - குழந்தைகள் கடற்கரையில் மணலில் விளையாட விரும்புகிறார்கள்.

3) ஒரு துளி மழை என் கையில் விழுந்தது - ஒரு துளி மழை என் கையில் விழுந்தது.

4) உலர்ந்த மரம் எளிதில் எரிகிறது - உலர்ந்த மரம் நன்றாக எரிகிறது.

5) அவர் என்னைக் கேட்காதது போல் நடித்தார் - அவர் என்னைக் கேட்காதது போல் நடித்தார்.

இங்கே ஆங்கில சொற்றொடர்கள்மொழியியல் வெளிப்பாடுகள் அல்ல. எவ்வாறாயினும், ரஷ்ய மொழியில் அவற்றின் மொழிபெயர்ப்பு ஒரு எளிய வார்த்தைக்கு வார்த்தை மொழிபெயர்ப்பாக மட்டுமே கருதப்படும், ஏனெனில் அவற்றில் சேர்க்கப்பட்டுள்ள அனைத்து சொற்களும் தெளிவற்றவை. எனவே, கணினி மொழியியல் சாதனைகள் மட்டுமே இங்கு மாணவர்களுக்கு உதவும்.