അറിഞ്ഞോ? കംപ്യൂട്ടറും മലയാളം പഠിച്ചു

ഐഫോണിലെ സിറിയും ആമസോൺ അലക്സയും പോലെയുള്ള വോയ്സ് അസിസ്റ്റന്റുകളോട് എന്തു പറഞ്ഞാലും അതു മനസ്സിലാക്കുന്നതു ശ്രദ്ധിച്ചിട്ടില്ലേ? കോടാനുകോടി ആളുകൾ വ്യത്യസ്തരീതിയിൽ സംസാരിക്കുന്നതു മനസ്സിലാക്കി അതിനോടു പ്രതികരിക്കാൻ ഇവയ്ക്കെങ്ങനെ കഴിയുന്നു ?

കംപ്യൂട്ടറുകൾക്കു നൽ‌കുന്ന കമാൻഡുകൾ, പ്രോഗ്രാം എന്നിവ ബൈനറി രൂപത്തിലാണ് ഇതുവരെ സ്വീകരിച്ചിരുന്നത്. എന്നാൽ കാലത്തിന്റെ മാറ്റത്തിനൊപ്പം, മനുഷ്യ ഭാഷയിൽ കംപ്യൂട്ടറുമായി ആശയവിനിമയം നടത്തേണ്ടി വന്നതോടെയാണു നാച്വറൽ ലാംഗ്വേജ് പ്രോസസിങ് (എൻഎൽപി) എന്ന ശാഖയ്ക്കു പ്രചാരം ലഭിച്ചത്. നമ്മൾ പറയുന്ന വാക്കുകൾ തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കി അതിനോടു പ്രതികരിക്കാൻ കംപ്യൂട്ടറുകളെ പ്രാപ്തമാക്കുകയാണ് എൻഎൽപി.

എങ്ങനെ?
നിങ്ങൾ വോയ്സ് അസിസ്റ്റന്റിനോടു സംസാരിക്കുന്നത് ആദ്യം ടെക്സ്റ്റ് രൂപത്തിലേക്കു മാറ്റുന്നു. ഈ ടെക്സ്റ്റ് നാച്വറൽ ലാംഗ്വേജ് അണ്ടർസ്റ്റാൻഡിങ് പ്രോഗ്രാമിലേക്ക് കടത്തിവിടുന്നു. 

നമ്മൾ പറയുന്ന ഓരോ വാക്കിനും പ്രത്യേക വെയ്റ്റേജുണ്ടാകും. ഉദാഹരണത്തിന് ‘എന്തുകൊണ്ട്’ എന്ന വാക്കിനും ‘Why’ എന്ന വാക്കിനും ഒരേ വെയ്റ്റേജായിരിക്കും. വാക്കുകൾ തമ്മിലുള്ള ബന്ധം തലച്ചോറാണു നമുക്കു പറഞ്ഞുതരുന്നത്. മെഷീൻ ലേണിങ് ഉപയോഗിച്ച് സമാനമായ ന്യൂറൽ ശൃംഖലയാണു വാക്കുകൾ തമ്മിലുള്ള ബന്ധം കംപ്യൂട്ടറിനു മനസ്സിലാക്കിക്കൊടുക്കുന്നത്. ഓരോ വാചകത്തിലെയും പ്രധാന വാക്കുകൾ തിരിച്ചറിഞ്ഞ് അവ തമ്മിൽ ബന്ധമുണ്ടാക്കിയെടുക്കുന്നു.

ഇന്റന്റും എന്റിറ്റിയും
നമ്മൾ എന്തു പറഞ്ഞാലും അതിൽ ഒരു ഉദ്ദേശ്യവും അതു വ്യക്തമാക്കുന്ന ചില കീവേഡുകളുമുണ്ടാകും. ഉദ്ദേശ്യത്തെ ഇന്റന്റ് എന്നും കീവേഡുകളെ എന്റിറ്റിയെന്നും വിളിക്കുന്നു. 'What's the weather outside?' എന്നാണു വാചകമെങ്കിൽ അതിൽ കാലാവസ്ഥ അറിയുകയാണ് ഇന്റന്റ്. Weather, outside എന്നിവ എന്റിറ്റിയാണ്. ഇവയ്ക്ക് കൂടുതൽ പ്രാധാന്യം നൽകിയാണ് അർഥം കണ്ടെത്തുന്നത്. അതുപോലെ, ‘എനിക്കൊരു ചായ വേണം’ എന്ന വാചകത്തിൽ ‘ചായ’യ്ക്കു പകരം ‘കാപ്പി’ എന്നു സൂചിപ്പിച്ചാലും കംപ്യൂട്ടറിനു മനസ്സിലാകും. 

ന്യൂറൽ നെറ്റ്‍വെർക്കിൽ ഇതു നിശ്ചയിട്ടുണ്ടാകും. ഇതിൽനിന്നു വ്യത്യസ്തമായ വാചകം വന്നാൽ അതു കംപ്യൂട്ടറിനു മനസ്സിലാകണമെന്നില്ല. എങ്കിലും ആ വാചകം സിസ്റ്റം അഡ്മിൻ പാനലിലേക്കു പോകും. അതിലെ ഇന്റന്റും എന്റിറ്റിയും വേർതിരിച്ച് ടാഗ് ചെയ്യുന്നതോടെ പിന്നീട് ആ വാചകം ആരു ചോദിച്ചാലും കംപ്യൂട്ടർ മറുപടി നൽകും.

ആലോക് രാജസുകുമാരൻ

വിവരങ്ങൾക്ക് കടപ്പാട്: 
ആലോക് രാജസുകുമാരൻ, സീനിയർ സോഫ്റ്റ്‌വെയർ എൻജിനീയർ, ഓറിയോൺ ഇന്ത്യ

ഇനി മിണ്ടും മലയാളവും
ഇംഗ്ലിഷ് വാചകങ്ങളിലെ ഓരോ വാക്കും വേറിട്ടുനിൽക്കുന്നതിനാൽ എൻഎൽപി പ്രോഗ്രാമുകൾ താരതമ്യേന എളുപ്പമാണ്. എന്നാൽ മലയാളം പോലെ വാക്കുകൾ കൂട്ടിയെഴുതുന്ന ഭാഷകളിൽ എൻഎൽപി പ്രയാസമാണ്. എങ്കിലും, എൻഎൽപി പ്രോഗ്രാമുകളിൽ മലയാളം കൊണ്ടുവരാനുള്ള ദൗത്യത്തിന്റെ ആദ്യഘട്ടം പൂർത്തിയായി.

ഉദാഹരണത്തിന് ‘കേരളത്തിലങ്ങോളമിങ്ങോളം’ എന്നെഴുതിയാൽ നമുക്ക് ഒറ്റനോട്ടത്തിൽ മനസ്സിലാകുമെങ്കിലും ഇതിലെ ഓരോ വാക്കും തിരിച്ചറിയാൻ കംപ്യൂട്ടറിന് ഇതുവരെ കഴിയുമായിരുന്നില്ല. 

സന്തോഷ് തോട്ടിങ്ങൽ

എത്ര കൂട്ടിക്കെട്ടിയെഴുതിയാലും ഓരോ വാക്കിന്റെയും ലിംഗം, കാലം (tense) തുടങ്ങിയ കാര്യങ്ങൾ തിരിച്ചറിഞ്ഞ് അതിനോടു പ്രതികരിക്കാൻ കഴിയുന്ന മലയാളം മോർഫോളജി അനലൈസർ സംവിധാനം ഒരുമാസം മുൻപാണു പുറത്തിറങ്ങിയത്.പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ പ്രയത്നമാണു പൂവണിഞ്ഞത്. മലയാളത്തിന്റെ വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിൽ വോയ്സ് അസിസ്റ്റൻസ്, സ്പെൽചെക്കർ, ഗ്രാമർ ചെക്കർ, മെഷീൻ ട്രാൻസ്‌ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. എംഎൽമോർഫ് (mlmorph)– വേർഷൻ 1.0.0– വെബ്സൈറ്റ്: morph.smc.org.in

ടെക്സ്റ്റ് ടു സ്പീച്ച്: 108 എന്ന് കംപ്യൂട്ടറിൽ ടൈപ്പ് ചെയ്താൽ ‘നൂറ്റിയെട്ട്’ എന്ന് ഉച്ചരിക്കാനും മനസ്സിലാക്കാനും ഇനി കംപ്യൂട്ടറുകൾക്കു കഴിയും.

വോയ്സ് സെർച്: ഐഫോണിലെ സിറിയോട് ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു പറഞ്ഞാൽ ഇനി പ്രതികരിക്കും. അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപം തിരിച്ചറിയാം. അത് 5.30 എന്ന സമയമാണെന്നും മനസ്സിലാക്കും.

ഡേറ്റ സെർച്: ‘തിരുവനന്തപുരത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന തിരുവനന്തപുരം എന്ന നാമം തിരിച്ചറിയാൻ കഴിയുന്നതോടെ ഗൂഗിളിൽ ‘തിരുവനന്തപുരം’ എന്നു തിരഞ്ഞാൽ അതിന്റെ വിവിധ രൂപങ്ങൾ പ്രതിപാദിക്കുന്ന വെബ്സൈറ്റുകളും ലഭിക്കും.

സെന്റിമെന്റൽ അനാലിസിസ്: സമൂഹമാധ്യമങ്ങളിൽ ഇംഗ്ലിഷ് വാചകങ്ങൾ വായിച്ച് അതിലെ വികാരമെന്തെന്നു കംപ്യൂട്ടറിനു വായിക്കാമായിരുന്നു. ഇനി മലയാളത്തിലും ഇതു സാധ്യമാകും.

More Campus Updates>

MORE IN CAREER GURU