sections
MORE

അറിഞ്ഞോ? കംപ്യൂട്ടറും മലയാളം പഠിച്ചു

computer-boy
SHARE

ഐഫോണിലെ സിറിയും ആമസോൺ അലക്സയും പോലെയുള്ള വോയ്സ് അസിസ്റ്റന്റുകളോട് എന്തു പറഞ്ഞാലും അതു മനസ്സിലാക്കുന്നതു ശ്രദ്ധിച്ചിട്ടില്ലേ? കോടാനുകോടി ആളുകൾ വ്യത്യസ്തരീതിയിൽ സംസാരിക്കുന്നതു മനസ്സിലാക്കി അതിനോടു പ്രതികരിക്കാൻ ഇവയ്ക്കെങ്ങനെ കഴിയുന്നു ?

കംപ്യൂട്ടറുകൾക്കു നൽ‌കുന്ന കമാൻഡുകൾ, പ്രോഗ്രാം എന്നിവ ബൈനറി രൂപത്തിലാണ് ഇതുവരെ സ്വീകരിച്ചിരുന്നത്. എന്നാൽ കാലത്തിന്റെ മാറ്റത്തിനൊപ്പം, മനുഷ്യ ഭാഷയിൽ കംപ്യൂട്ടറുമായി ആശയവിനിമയം നടത്തേണ്ടി വന്നതോടെയാണു നാച്വറൽ ലാംഗ്വേജ് പ്രോസസിങ് (എൻഎൽപി) എന്ന ശാഖയ്ക്കു പ്രചാരം ലഭിച്ചത്. നമ്മൾ പറയുന്ന വാക്കുകൾ തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കി അതിനോടു പ്രതികരിക്കാൻ കംപ്യൂട്ടറുകളെ പ്രാപ്തമാക്കുകയാണ് എൻഎൽപി.

എങ്ങനെ?
നിങ്ങൾ വോയ്സ് അസിസ്റ്റന്റിനോടു സംസാരിക്കുന്നത് ആദ്യം ടെക്സ്റ്റ് രൂപത്തിലേക്കു മാറ്റുന്നു. ഈ ടെക്സ്റ്റ് നാച്വറൽ ലാംഗ്വേജ് അണ്ടർസ്റ്റാൻഡിങ് പ്രോഗ്രാമിലേക്ക് കടത്തിവിടുന്നു. 

നമ്മൾ പറയുന്ന ഓരോ വാക്കിനും പ്രത്യേക വെയ്റ്റേജുണ്ടാകും. ഉദാഹരണത്തിന് ‘എന്തുകൊണ്ട്’ എന്ന വാക്കിനും ‘Why’ എന്ന വാക്കിനും ഒരേ വെയ്റ്റേജായിരിക്കും. വാക്കുകൾ തമ്മിലുള്ള ബന്ധം തലച്ചോറാണു നമുക്കു പറഞ്ഞുതരുന്നത്. മെഷീൻ ലേണിങ് ഉപയോഗിച്ച് സമാനമായ ന്യൂറൽ ശൃംഖലയാണു വാക്കുകൾ തമ്മിലുള്ള ബന്ധം കംപ്യൂട്ടറിനു മനസ്സിലാക്കിക്കൊടുക്കുന്നത്. ഓരോ വാചകത്തിലെയും പ്രധാന വാക്കുകൾ തിരിച്ചറിഞ്ഞ് അവ തമ്മിൽ ബന്ധമുണ്ടാക്കിയെടുക്കുന്നു.

ഇന്റന്റും എന്റിറ്റിയും
നമ്മൾ എന്തു പറഞ്ഞാലും അതിൽ ഒരു ഉദ്ദേശ്യവും അതു വ്യക്തമാക്കുന്ന ചില കീവേഡുകളുമുണ്ടാകും. ഉദ്ദേശ്യത്തെ ഇന്റന്റ് എന്നും കീവേഡുകളെ എന്റിറ്റിയെന്നും വിളിക്കുന്നു. 'What's the weather outside?' എന്നാണു വാചകമെങ്കിൽ അതിൽ കാലാവസ്ഥ അറിയുകയാണ് ഇന്റന്റ്. Weather, outside എന്നിവ എന്റിറ്റിയാണ്. ഇവയ്ക്ക് കൂടുതൽ പ്രാധാന്യം നൽകിയാണ് അർഥം കണ്ടെത്തുന്നത്. അതുപോലെ, ‘എനിക്കൊരു ചായ വേണം’ എന്ന വാചകത്തിൽ ‘ചായ’യ്ക്കു പകരം ‘കാപ്പി’ എന്നു സൂചിപ്പിച്ചാലും കംപ്യൂട്ടറിനു മനസ്സിലാകും. 

ന്യൂറൽ നെറ്റ്‍വെർക്കിൽ ഇതു നിശ്ചയിട്ടുണ്ടാകും. ഇതിൽനിന്നു വ്യത്യസ്തമായ വാചകം വന്നാൽ അതു കംപ്യൂട്ടറിനു മനസ്സിലാകണമെന്നില്ല. എങ്കിലും ആ വാചകം സിസ്റ്റം അഡ്മിൻ പാനലിലേക്കു പോകും. അതിലെ ഇന്റന്റും എന്റിറ്റിയും വേർതിരിച്ച് ടാഗ് ചെയ്യുന്നതോടെ പിന്നീട് ആ വാചകം ആരു ചോദിച്ചാലും കംപ്യൂട്ടർ മറുപടി നൽകും.

Rajsukumaran
ആലോക് രാജസുകുമാരൻ

വിവരങ്ങൾക്ക് കടപ്പാട്: 
ആലോക് രാജസുകുമാരൻ, സീനിയർ സോഫ്റ്റ്‌വെയർ എൻജിനീയർ, ഓറിയോൺ ഇന്ത്യ

ഇനി മിണ്ടും മലയാളവും
ഇംഗ്ലിഷ് വാചകങ്ങളിലെ ഓരോ വാക്കും വേറിട്ടുനിൽക്കുന്നതിനാൽ എൻഎൽപി പ്രോഗ്രാമുകൾ താരതമ്യേന എളുപ്പമാണ്. എന്നാൽ മലയാളം പോലെ വാക്കുകൾ കൂട്ടിയെഴുതുന്ന ഭാഷകളിൽ എൻഎൽപി പ്രയാസമാണ്. എങ്കിലും, എൻഎൽപി പ്രോഗ്രാമുകളിൽ മലയാളം കൊണ്ടുവരാനുള്ള ദൗത്യത്തിന്റെ ആദ്യഘട്ടം പൂർത്തിയായി.

ഉദാഹരണത്തിന് ‘കേരളത്തിലങ്ങോളമിങ്ങോളം’ എന്നെഴുതിയാൽ നമുക്ക് ഒറ്റനോട്ടത്തിൽ മനസ്സിലാകുമെങ്കിലും ഇതിലെ ഓരോ വാക്കും തിരിച്ചറിയാൻ കംപ്യൂട്ടറിന് ഇതുവരെ കഴിയുമായിരുന്നില്ല. 

Santhosh
സന്തോഷ് തോട്ടിങ്ങൽ

എത്ര കൂട്ടിക്കെട്ടിയെഴുതിയാലും ഓരോ വാക്കിന്റെയും ലിംഗം, കാലം (tense) തുടങ്ങിയ കാര്യങ്ങൾ തിരിച്ചറിഞ്ഞ് അതിനോടു പ്രതികരിക്കാൻ കഴിയുന്ന മലയാളം മോർഫോളജി അനലൈസർ സംവിധാനം ഒരുമാസം മുൻപാണു പുറത്തിറങ്ങിയത്.പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ പ്രയത്നമാണു പൂവണിഞ്ഞത്. മലയാളത്തിന്റെ വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിൽ വോയ്സ് അസിസ്റ്റൻസ്, സ്പെൽചെക്കർ, ഗ്രാമർ ചെക്കർ, മെഷീൻ ട്രാൻസ്‌ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. എംഎൽമോർഫ് (mlmorph)– വേർഷൻ 1.0.0– വെബ്സൈറ്റ്: morph.smc.org.in

ടെക്സ്റ്റ് ടു സ്പീച്ച്: 108 എന്ന് കംപ്യൂട്ടറിൽ ടൈപ്പ് ചെയ്താൽ ‘നൂറ്റിയെട്ട്’ എന്ന് ഉച്ചരിക്കാനും മനസ്സിലാക്കാനും ഇനി കംപ്യൂട്ടറുകൾക്കു കഴിയും.

വോയ്സ് സെർച്: ഐഫോണിലെ സിറിയോട് ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു പറഞ്ഞാൽ ഇനി പ്രതികരിക്കും. അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപം തിരിച്ചറിയാം. അത് 5.30 എന്ന സമയമാണെന്നും മനസ്സിലാക്കും.

ഡേറ്റ സെർച്: ‘തിരുവനന്തപുരത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന തിരുവനന്തപുരം എന്ന നാമം തിരിച്ചറിയാൻ കഴിയുന്നതോടെ ഗൂഗിളിൽ ‘തിരുവനന്തപുരം’ എന്നു തിരഞ്ഞാൽ അതിന്റെ വിവിധ രൂപങ്ങൾ പ്രതിപാദിക്കുന്ന വെബ്സൈറ്റുകളും ലഭിക്കും.

സെന്റിമെന്റൽ അനാലിസിസ്: സമൂഹമാധ്യമങ്ങളിൽ ഇംഗ്ലിഷ് വാചകങ്ങൾ വായിച്ച് അതിലെ വികാരമെന്തെന്നു കംപ്യൂട്ടറിനു വായിക്കാമായിരുന്നു. ഇനി മലയാളത്തിലും ഇതു സാധ്യമാകും.

More Campus Updates>

തൽസമയ വാർത്തകൾക്ക് മലയാള മനോരമ മൊബൈൽ ആപ് ഡൗൺലോഡ് ചെയ്യൂ
MORE IN CAREER GURU
SHOW MORE
FROM ONMANORAMA