Manoramaonline.com no longer supports Internet Explorer 8 or earlier. Please upgrade your browser.  Learn more »

സിറിക്കും അലക്സയ്ക്കും ഇനി മലയാളം വഴങ്ങിയേക്കും; മോർഫോളജി അനലൈസർ റെഡി

Santhosh-Thottingal

തിരുവനന്തപുരം∙ 'പഞ്ചാരമണൽത്തരികളെപ്പോലെ' എന്നെഴുതിയാൽ നമുക്ക് ഒറ്റനോട്ടത്തിൽ മനസിലാകുമെങ്കിലും ഇതിലെ ഓരോ വാക്കുകളും തിരിച്ചറിയാൻ കംപ്യൂട്ടറിന് ഇതുവരെ കഴിയുമായിരുന്നില്ല. ഇനിയതൊക്കെ പഴങ്കഥ, എത്ര കൂട്ടിക്കെട്ടിയെഴുതിയാലും ഓരോ വാക്കുകളുടെയും ലിംഗം, കാലം (tense), ജെൻഡർ എന്നിവ തിരിച്ചറിഞ്ഞ് അതിനോട് പ്രതികരിക്കാൻ കഴിയുന്ന മലയാളം മോർഫോളജി അനലൈസർ സംവിധാനം പുറത്തിറങ്ങി. കംപ്യൂട്ടറിൽ ഇംഗ്ലിഷ് പോലെ മെയ്‍വഴക്കത്തോടെ മലയാളം സന്നിവേശിപ്പിക്കാനുള്ള ചരിത്രദൗത്യത്തിന്റെ ആദ്യ പതിപ്പ് മലയാളം കംപ്യൂട്ടിങ്ങിൽ കുതിച്ചുചാട്ടമുണ്ടാക്കുമെന്നാണ് വിലയിരുത്തൽ.

പാലക്കാട് സ്വദേശിയും വിക്കിമീഡിയ ഫൗണ്ടേഷനിൽ ഭാഷാ എൻജിനീയറുമായ സന്തോഷ് തോട്ടിങ്ങലിന്റെ വർഷങ്ങളായുള്ള കഠിനപ്രയത്നമാണ് പൂവണിയുന്നത്. മലയാളത്തിന്റെ വാക്യഘടനയും വാചകഘടനയും ബന്ധങ്ങളും കംപ്യൂട്ടറിനു മനസ്സിലാകുന്നതോടെ മലയാളത്തിൽ സ്പെൽചെക്കർ, ഗ്രാമർചെക്കർ, മെഷീൻ ട്രാൻസ്‌ലേഷൻ തുടങ്ങി ഒട്ടേറെ സാങ്കേതികവിദ്യകൾക്ക് ഇത് അടിസ്ഥാനമായി മാറും. എംഎൽമോർഫ് (mlmorph)– വേർഷൻ 1.0.0 എന്നാണ് പേരിട്ടിരിക്കുന്നത്. അനലൈസറിനു പുറമേ സ്പെൽചെക്ക്, സംഖ്യയെ വാക്യരൂപത്തിലെഴുതാനുള്ള സംവിധാനത്തിന്റെയും ഡെമോ പുറത്തിറക്കിയിട്ടുണ്ട്. വെബ് ഡവലപ്പർമാർക്ക് അവരുടെ സോഫ്റ്റ്‍വെയറുകളിലേക്ക് ഉൾപ്പെടുത്താൻ കഴിയുന്ന ഓപ്പൺ സോഴ്സ് പദ്ധതിയായിട്ടാണ് അനലൈസർ തയ്യാറാക്കിയിരിക്കുന്നത്. വെബ്സൈറ്റ്: morph.smc.org.in

malayalam-spell-check സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മലയാളം മോര്‍ഫോളജി അനലൈസര്‍ അടിസ്ഥാനമാക്കി പ്രവര്‍ത്തിക്കുന്ന മലയാളം സ്പെല്‍ചെക്ക് സംവിധാനം. പൂര്‍ണമായ പതിപ്പ് ഉടന്‍ പുറത്തിറങ്ങും

ഉപയോഗങ്ങൾ ഒട്ടേറെ

∙ മലയാളം സ്പെൽചെക്ക്– മലയാളത്തിലെ വാക്കുകൾ അസംഖ്യമാണ്. ഇവ ചേർത്തുള്ള പദസഞ്ചയം ഒരുക്കുക എളുപ്പമല്ല. പകരം വാക്കുകൾ, പ്രത്യയം, സന്ധി തമ്മിലുള്ള ബന്ധങ്ങൾ ഭാഷാനിയമമായി കണ്ടെത്താൻ കംപ്യൂട്ടറിന് കഴിയുന്നതോടെ പദസഞ്ചയത്തിന്റെ വലുപ്പം കുറയ്ക്കാം. ‌108 എന്ന വാക്ക് മലയാളത്തിൽ നൂറ്റെട്ട് എന്നെഴുതും. ഇതിൽ നൂറ് (100), എട്ട് (8) എന്നീ വാക്കുകൾ പശയിട്ടു ചേർത്തിരിക്കുകയാണ്. 109 ആണെങ്കിൽ നൂറ്റൊൻപത് എന്ന മറ്റൊരു വാക്കാണു ലഭിക്കുക. സമാനസ്വഭാവമുള്ള ഫിന്നിഷ്, ടർക്കിഷ്, ജർമൻ തുടങ്ങിയ ഭാഷകൾ ഈ പ്രശ്നം പരിഹരിച്ചത് എങ്ങനെയെന്നു പഠിച്ചു. സന്തോഷ് വികസിപ്പിച്ച സ്പെൽച്ചെക്കിന്റെ ഡെമോ–morph.smc.org.in/spellcheck

malayalam-number-parser സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മോര്‍ഫോളജി അനലൈസര്‍ സംഖ്യയെ വാക്യരൂപത്തിലേക്ക് മാറ്റുന്നതിങ്ങനെ

∙ ടെക്സ്റ്റ് ടു സ്പീച്ച്: 108 എന്ന് കംപ്യൂട്ടറിൽ ടൈപ്പ് ചെയ്താൽ നൂറ്റിയെറ്റ് എന്ന് ഉച്ചരിക്കാൻ ഇനി കംപ്യൂട്ടറുകൾക്ക് കഴിയും. രാത്രി ഉറങ്ങാൻ നേരം ഐഫോണിലെ സിറി വോയ്സ് ആപ്ലിക്കേഷനോട് Set alarm at 5.30 am എന്നു പറഞ്ഞിട്ടു കൂർക്കം വലിച്ചുറങ്ങുന്നവർ ഏറെയാണ്. നിങ്ങൾ പറഞ്ഞ വാചകം അക്ഷരംപ്രതി അനുസരിച്ച് ഫോൺ അഞ്ചരയ്ക്ക് അലാം മുഴക്കും. പക്ഷേ, ‘അഞ്ചരയ്ക്ക് ഒരു അലാം വയ്ക്കടോ’ എന്നു മലയാളത്തിൽ ഫോണിനോടു പറഞ്ഞാലോ? ഫോണിന് ഒരു ചുക്കും മനസ്സിലാകില്ല! കംപ്യൂട്ടറിൽ മലയാളമുണ്ടല്ലോ, പിന്നെന്താണു കുഴപ്പമെന്നു ചോദിക്കാൻ വരട്ടെ. മലയാളം ടൈപ്പ് ചെയ്യാനും വായിക്കാനും കഴിയുന്നതുകൊണ്ടു മാത്രം വാക്കുകളും അവ തമ്മിലുള്ള ബന്ധവും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനു കഴിവില്ല. അഞ്ചരയ്ക്ക് എന്ന പ്രയോഗത്തിൽനിന്ന് അഞ്ചര എന്ന മൂലരൂപവും അഞ്ചര എന്നാൽ 5.30 എന്ന സമയമാണെന്നും, പുലർച്ചെ ആണെന്നും മനസ്സിലാക്കാൻ കംപ്യൂട്ടറിനെ ആരും പഠിപ്പിച്ചിട്ടില്ല. 

∙ വോയിസ് സെർച്ച്: സിറി പോലെയുള്ള വോയ്സ് ആപ്ലിക്കേഷനുകളോട് 108 എന്ന് പറഞ്ഞാൽ അതിന്റെ വാക്യരൂപത്തിൽ നിന്ന് സംഖ്യ തിരിച്ചറിയാൻ കഴിയും. ഗൂഗിൾ ഹോം, അലക്സ പോലെയുള്ള ഉപകരണങ്ങളിൽ മലയാളം അനായാസം ഉപയോഗിക്കാം.

malayalam-Morphology സന്തോഷ് തോട്ടിങ്ങല്‍ വികസിപ്പിച്ച മോര്‍ഫോളജി അനലൈസര്‍ 'പതിയായിരത്തിലധികം' എന്ന വാക്കിനെ വിശകലനം ചെയ്യുന്നതിങ്ങനെ

∙ ഡേറ്റാ സെർച്ച്: ‘തിരുവനന്തപുരത്തേക്ക്’ എന്ന വാക്കിൽ ഒളിച്ചിരിക്കുന്ന തിരുവനന്തപുരം എന്ന നാമം തിരിച്ചറിയാൻ കഴിയുന്നതോടെ ഗൂഗിളിൽ ‘തിരുവനന്തപുരം’ എന്നു തിരഞ്ഞാൽ അതിന്റെ വിവിധ രൂപങ്ങൾ പ്രതിപാദിക്കുന്ന വെബ്സൈറ്റുകളും ലഭിക്കും.

Santhosh_Thottingal സന്തോഷ് തോട്ടിങ്ങൽ

∙ സെന്റിമെന്റൽ അനാലിസിസ്: സമൂഹമാധ്യമങ്ങളിൽ ഇംഗ്ലിഷ് വാചകങ്ങൾ വായിച്ച് അതിലെ വികാരമെന്തെന്ന് കംപ്യൂട്ടറിന് വായിക്കാമായിരുന്നു. ഇനിയിത് മലയാളത്തിലും സാധ്യമാകും.