മൊബൈലിന് മലയാളം പിടി ‘കിട്ടും’ കാലം...
Mail This Article
‘കിട്ടില്ല’ എന്ന വാക്ക് കാസർകോട് മുതൽ തിരുവനന്തപുരം വരെ എവിടെയും എഴുതുമ്പോൾ ഒരേപോലെ. പക്ഷേ പറയുമ്പോഴോ– ‘കിട്ടൂല’, ‘കിട്ട്ണില്ല’, ‘കിട്ടത്തില്ല’...
ഇതെല്ലാം ഒരേ വാക്കിന്റെ ഉച്ചാരണഭേദങ്ങളാണെന്നു മൊബൈൽ ഫോണിനു മനസ്സിലാക്കാൻ കഴിഞ്ഞാലോ ?
നിസ്സാരമെന്നും തോന്നാമെങ്കിലും എളുപ്പമല്ല. കൊച്ചുകുട്ടി മുതിർന്നവരുടെ സംസാരം കേട്ടുപഠിക്കുന്നതുപോലെ ലക്ഷക്കണക്കിനു ശബ്ദശകലങ്ങൾ മെഷീൻ ലേണിങ്ങിലൂടെ പഠിപ്പിച്ചുകൊടുത്താലേ മൊബൈലിനും കംപ്യൂട്ടറിനും ഇതു സാധ്യമാകൂ.
ഇത്തരം അസംഖ്യങ്ങളായ ശൈലീവൈവിധ്യങ്ങൾ കംപ്യൂട്ടറിനെ പഠിപ്പിച്ചെടുക്കാനുള്ള ചരിത്രദൗത്യം മലയാളത്തിൽ ആരംഭിച്ചിരിക്കുകയാണ്. ടെക്സ്റ്റ് ടു സ്പീച്ച് / വോയ്സ് റെക്കഗ്നിഷൻ തുടങ്ങിയ മേഖലകളിലെ ഗവേഷണ ആവശ്യത്തിന് കേരളത്തിലെ ആയിരക്കണക്കിനാളുകളുടെ ശബ്ദം റെക്കോർഡ് ചെയ്തു മാപ്പ് ചെയ്യുന്ന കർമപദ്ധതി ഏതാനും ദിവസം മുൻപാണു തുടങ്ങിയത്.
‘സ്വതന്ത്ര മലയാളം കംപ്യൂട്ടിങ്’ (എസ്എംസി) കൂട്ടായ്മയുടെ നേതൃത്വത്തിൽ ആരംഭിച്ച മലയാളം സ്പീച്ച് കോർപ്പസ് പ്രോജക്ടിൽ ആർക്കും സഹകരിക്കാം. ഇതിൽ വരുന്ന ശബ്ദശകലങ്ങൾ ആർക്കും ഗവേഷണ ആവശ്യങ്ങൾക്ക് ഉപയോഗിക്കുകയും ചെയ്യാം.
ശബ്ദത്തിനു പുറമേ വിപുലമായ പദസഞ്ചയവും എസ്എംഎസി വികസിപ്പിക്കുന്നുണ്ട്. വ്യക്തികളുടെ പേരുകൾ, കറൻസികൾ, പുഴകളുടെ പേരുകൾ എന്നിങ്ങനെ കൃത്യമായി ടാഗ് ചെയ്ത പദങ്ങൾ മലയാള കംപ്യൂട്ടിങ് ഗവേഷണത്തിൽ നിർണായകമാണ്. മാർച്ച് വരെയുള്ള കണക്കുപ്രകാരം 98 ലക്ഷം വാക്കുകൾ ശേഖരത്തിലുണ്ട്. മലയാള പദസഞ്ചയം: gitlab.com/smc/corpus
എങ്ങനെ ?
പലരുടെ സംസാരങ്ങൾ അവരുടെ സ്ഥലം, പ്രായം തുടങ്ങിയ വിവരങ്ങൾ കൂടി ചേർത്തു ശേഖരിക്കുകയാണ് സ്പീച്ച് കോർപ്പസിലെ ആദ്യ പടി. msc.smc.org എന്ന വെബ് ആപ്ലിക്കേഷൻ തുറന്ന് റെക്കോർഡ് ബട്ടൺ അമർത്തിയ ശേഷം സ്ക്രീനിലുള്ള വാചകങ്ങൾ വായിച്ചാൽ മതിയാകും. ഈ ശബ്ദസഞ്ചയം മെഷീൻ ലേണിങ്ങിലൂടെ കംപ്യൂട്ടറിനെ പഠിപ്പിക്കുന്നു. എത്രത്തോളം ഡേറ്റ ലഭിക്കുന്നോ, അത്രത്തോളം കാര്യക്ഷമത വർധിക്കും.