സിറിക്കും അലക്സയ്ക്കും ഇനി മലയാളം വഴങ്ങിയേക്കും; മോർഫോളജി അനലൈസർ റെഡി

തിരുവനന്തപുരം∙ 'പഞ്ചാരമണൽത്തരികളെപ്പോലെ' എന്നെഴുതിയാൽ നമുക്ക് ഒറ്റനോട്ടത്തിൽ മനസിലാകുമെങ്കിലും ഇതിലെ ഓരോ വാക്കുകളും തിരിച്ചറിയാൻ കംപ്യൂട്ടറിന് ഇതുവരെ കഴിയുമായിരുന്നില്ല. ഇനിയതൊക്കെ പഴങ്കഥ, എത്ര കൂട്ടിക്കെട്ടിയെഴുതിയാലും ഓരോ വാക്കുകളുടെയും ലിംഗം, കാലം (tense), ജെൻഡർ എന്നിവ തിരിച്ചറിഞ്ഞ് അതിനോട് പ്രതികരിക്കാൻ കഴിയുന്ന മലയാളം മോർഫോളജി അനലൈസർ സംവിധാനം പുറത്തിറങ്ങി. കംപ്യൂട്ടറിൽ ഇംഗ്ലിഷ് പോലെ മെയ്‍വഴക്കത്തോടെ മലയാളം സന്നിവേശിപ്പിക്കാനുള്ള ചരിത്രദൗത്യത്തിന്റെ ആദ്യ പതിപ്പ് മലയാളം കംപ്യൂട്ടിങ്ങിൽ കുതിച്ചുചാട്ടമുണ്ടാക്കുമെന്നാണ് വിലയിരുത്തൽ.

പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ വർഷങ്ങളായുള്ള കഠിനപ്രയത്നമാണ് പൂവണിയുന്നത്. മലയാളത്തിന്റെ വാക്യഘടനയും വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിൽ സ്പെൽചെക്കർ, ഗ്രാമർചെക്കർ, മെഷീൻ ട്രാൻസ്‌ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. എംഎൽമോർഫ് (mlmorph)– വേർഷൻ 1.0.0 എന്നാണ് പേരിട്ടിരിക്കുന്നത്. അനലൈസറിനു പുറമേ സ്പെൽചെക്ക്, സംഖ്യയെ വാക്യരൂപത്തിലെഴുതാനുള്ള സംവിധാനത്തിന്റെയും ഡെമോ പുറത്തിറക്കിയിട്ടുണ്ട്. വെബ് ഡവലപ്പർമാർക്ക് അവരുടെ സോഫ്റ്റ്‍വെയറുകളിലേക്ക് ഉൾപ്പെടുത്താൻ കഴിയുന്ന ഓപ്പൺ സോഴ്സ് പദ്ധതിയായിട്ടാണ് അനലൈസർ തയ്യാറാക്കിയിരിക്കുന്നത്. വെബ്സൈറ്റ്: morph.smc.org.in

സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മലയാളം മോര്‍ഫോളജി അനലൈസര്‍ അടിസ്ഥാനമാക്കി പ്രവര്‍ത്തിക്കുന്ന മലയാളം സ്പെല്‍ചെക്ക് സംവിധാനം. പൂര്‍ണമായ പതിപ്പ് ഉടന്‍ പുറത്തിറങ്ങും

ഉപയോഗങ്ങൾ ഒട്ടേറെ

∙ മലയാളം സ്പെൽചെക്ക്– മലയാളത്തിലെ വാക്കുകൾ അസംഖ്യമാണ്. ഇവ ചേർത്തുള്ള പദസഞ്ചയം ഒരുക്കുക എളുപ്പമല്ല. പകരം വാക്കുകൾ, പ്രത്യയം, സന്ധി തമ്മിലുള്ള ബന്ധങ്ങൾ ഭാഷാനിയമമായി കണ്ടെത്താൻ കംപ്യൂട്ടറിന് കഴിയുന്നതോടെ പദസഞ്ചയത്തിന്റെ വലുപ്പം കുറയ്ക്കാം. ‌108 എന്ന വാക്ക് മലയാളത്തിൽ നൂറ്റെട്ട് എന്നെഴുതും. ഇതിൽ നൂറ് (100), എട്ട് (8) എന്നീ വാക്കുകൾ പശയിട്ടു ചേർത്തിരിക്കുകയാണ്. 109 ആണെങ്കിൽ നൂറ്റൊൻപത് എന്ന മറ്റൊരു വാക്കാണു ലഭിക്കുക. സമാനസ്വഭാവമുള്ള ഫിന്നിഷ്, ടർക്കിഷ്, ജർമൻ തുടങ്ങിയ ഭാഷകൾ ഈ പ്രശ്നം പരിഹരിച്ചത് എങ്ങനെയെന്നു പഠിച്ചു. സന്തോഷ് വികസിപ്പിച്ച സ്പെൽച്ചെക്കിന്റെ ഡെമോ–morph.smc.org.in/spellcheck

സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മോര്‍ഫോളജി അനലൈസര്‍ സംഖ്യയെ വാക്യരൂപത്തിലേക്ക് മാറ്റുന്നതിങ്ങനെ

∙ ടെക്സ്റ്റ് ടു സ്പീച്ച്: 108 എന്ന് കംപ്യൂട്ടറിൽ ടൈപ്പ് ചെയ്താൽ നൂറ്റിയെറ്റ് എന്ന് ഉച്ചരിക്കാൻ ഇനി കംപ്യൂട്ടറുകൾക്ക് കഴിയും. രാത്രി ഉറങ്ങാൻ നേരം ഐഫോണിലെ സിറി വോയ്സ് ആപ്ലിക്കേഷനോട് Set alarm at 5.30 am എന്നു പറഞ്ഞിട്ടു കൂർക്കം വലിച്ചുറങ്ങുന്നവർ ഏറെയാണ്. നിങ്ങൾ പറഞ്ഞ വാചകം അക്ഷരംപ്രതി അനുസരിച്ച് ഫോൺ അഞ്ചരയ്ക്ക് അലാം മുഴക്കും. പക്ഷേ, ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു മലയാളത്തിൽ ഫോണിനോടു പറഞ്ഞാലോ? ഫോണിന് ഒരു ചുക്കും മനസ്സിലാകില്ല! കംപ്യൂട്ടറിൽ മലയാളമുണ്ടല്ലോ, പിന്നെന്താണു കുഴപ്പമെന്നു ചോദിക്കാൻ വരട്ടെ. മലയാളം ടൈപ്പ് ചെയ്യാനും വായിക്കാനും കഴിയുന്നതുകൊണ്ടു മാത്രം വാക്കുകളും അവ തമ്മിലുള്ള ബന്ധവും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനു കഴിവില്ല. അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപവും അഞ്ചര എന്നാൽ 5.30 എന്ന സമയമാണെന്നും, പുലർച്ചെ ആണെന്നും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനെ ആരും പഠിപ്പിച്ചിട്ടില്ല. 

∙ വോയിസ് സെർച്ച്: സിറി പോലെയുള്ള വോയ്സ് ആപ്ലിക്കേഷനുകളോട് 108 എന്ന് പറഞ്ഞാൽ അതിന്റെ വാക്യരൂപത്തിൽ നിന്ന് സംഖ്യ തിരിച്ചറിയാൻ കഴിയും. ഗൂഗിൾ ഹോം, അലക്സ പോലെയുള്ള ഉപകരണങ്ങളിൽ മലയാളം അനായാസം ഉപയോഗിക്കാം.

സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മോര്‍ഫോളജി അനലൈസര്‍ 'പതിയായിരത്തിലധികം' എന്ന വാക്കിനെ വിശകലനം ചെയ്യുന്നതിങ്ങനെ

∙ ഡേറ്റാ സെർച്ച്: ‘തിരുവനന്തപുരത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന തിരുവനന്തപുരം എന്ന നാമം തിരിച്ചറിയാൻ കഴിയുന്നതോടെ ഗൂഗിളിൽ ‘തിരുവനന്തപുരം’ എന്നു തിരഞ്ഞാൽ അതിന്റെ വിവിധ രൂപങ്ങൾ പ്രതിപാദിക്കുന്ന വെബ്സൈറ്റുകളും ലഭിക്കും.

സന്തോഷ് തോട്ടിങ്ങൽ

∙ സെന്റിമെന്റൽ അനാലിസിസ്: സമൂഹമാധ്യമങ്ങളിൽ ഇംഗ്ലിഷ് വാചകങ്ങൾ വായിച്ച് അതിലെ വികാരമെന്തെന്ന് കംപ്യൂട്ടറിന് വായിക്കാമായിരുന്നു. ഇനിയിത് മലയാളത്തിലും സാധ്യമാകും.