‘കിട്ടില്ല’ എന്ന വാക്ക് കാസർകോട് മുതൽ തിരുവനന്തപുരം വരെ എവിടെയും എഴുതുമ്പോൾ ഒരേപോലെ. പക്ഷേ പറയുമ്പോഴോ– ‘കിട്ടൂല’, ‘കിട്ട്ണില്ല’, ‘കിട്ടത്തില്ല’... ഇതെല്ലാം ഒരേ വാക്കിന്റെ ഉച്ചാരണഭേദങ്ങളാണെന്നു മൊബൈൽ ഫോണിനു മനസ്സിലാക്കാൻ കഴിഞ്ഞാലോ ? നിസ്സാരമെന്നും തോന്നാമെങ്കിലും എളുപ്പമല്ല. കൊച്ചുകുട്ടി

‘കിട്ടില്ല’ എന്ന വാക്ക് കാസർകോട് മുതൽ തിരുവനന്തപുരം വരെ എവിടെയും എഴുതുമ്പോൾ ഒരേപോലെ. പക്ഷേ പറയുമ്പോഴോ– ‘കിട്ടൂല’, ‘കിട്ട്ണില്ല’, ‘കിട്ടത്തില്ല’... ഇതെല്ലാം ഒരേ വാക്കിന്റെ ഉച്ചാരണഭേദങ്ങളാണെന്നു മൊബൈൽ ഫോണിനു മനസ്സിലാക്കാൻ കഴിഞ്ഞാലോ ? നിസ്സാരമെന്നും തോന്നാമെങ്കിലും എളുപ്പമല്ല. കൊച്ചുകുട്ടി

Want to gain access to all premium stories?

Activate your premium subscription today

  • Premium Stories
  • Ad Lite Experience
  • UnlimitedAccess
  • E-PaperAccess

‘കിട്ടില്ല’ എന്ന വാക്ക് കാസർകോട് മുതൽ തിരുവനന്തപുരം വരെ എവിടെയും എഴുതുമ്പോൾ ഒരേപോലെ. പക്ഷേ പറയുമ്പോഴോ– ‘കിട്ടൂല’, ‘കിട്ട്ണില്ല’, ‘കിട്ടത്തില്ല’... ഇതെല്ലാം ഒരേ വാക്കിന്റെ ഉച്ചാരണഭേദങ്ങളാണെന്നു മൊബൈൽ ഫോണിനു മനസ്സിലാക്കാൻ കഴിഞ്ഞാലോ ? നിസ്സാരമെന്നും തോന്നാമെങ്കിലും എളുപ്പമല്ല. കൊച്ചുകുട്ടി

Want to gain access to all premium stories?

Activate your premium subscription today

  • Premium Stories
  • Ad Lite Experience
  • UnlimitedAccess
  • E-PaperAccess

‘കിട്ടില്ല’ എന്ന വാക്ക്  കാസർകോട് മുതൽ തിരുവനന്തപുരം വരെ എവിടെയും എഴുതുമ്പോൾ ഒരേപോലെ. പക്ഷേ പറയുമ്പോഴോ– ‘കിട്ടൂല’, ‘കിട്ട്ണില്ല’, ‘കിട്ടത്തില്ല’... 

ഇതെല്ലാം ഒരേ വാക്കിന്റെ ഉച്ചാരണഭേദങ്ങളാണെന്നു മൊബൈൽ ഫോണിനു മനസ്സിലാക്കാൻ കഴിഞ്ഞാലോ ? 

ADVERTISEMENT

നിസ്സാരമെന്നും തോന്നാമെങ്കിലും എളുപ്പമല്ല. കൊച്ചുകുട്ടി മുതിർന്നവരുടെ സംസാരം കേട്ടുപഠിക്കുന്നതുപോലെ ലക്ഷക്കണക്കിനു ശബ്ദശകലങ്ങൾ മെഷീൻ ലേണിങ്ങിലൂടെ പഠിപ്പിച്ചുകൊടുത്താലേ മൊബൈലിനും കംപ്യൂട്ടറിനും ഇതു സാധ്യമാകൂ.

ഇത്തരം അസംഖ്യങ്ങളായ ശൈലീവൈവിധ്യങ്ങൾ കംപ്യൂട്ടറിനെ പഠിപ്പിച്ചെടുക്കാനുള്ള ചരിത്രദൗത്യം മലയാളത്തിൽ ആരംഭിച്ചിരിക്കുകയാണ്. ടെക്സ്റ്റ് ടു സ്പീച്ച് / വോയ്സ് റെക്കഗ്നിഷൻ തുടങ്ങിയ മേഖലകളിലെ ഗവേഷണ ആവശ്യത്തിന് കേരളത്തിലെ ആയിരക്കണക്കിനാളുകളുടെ  ശബ്ദം റെക്കോർഡ് ചെയ്തു മാപ്പ് ചെയ്യുന്ന കർമപദ്ധതി ഏതാനും ദിവസം മുൻപാണു തുടങ്ങിയത്.

ADVERTISEMENT

‘സ്വതന്ത്ര മലയാളം കംപ്യൂട്ടിങ്’ (എസ്എംസി) കൂട്ടായ്മയുടെ നേതൃത്വത്തിൽ ആരംഭിച്ച മലയാളം സ്പീച്ച് കോർപ്പസ് പ്രോജക്ടിൽ ആർക്കും സഹകരിക്കാം. ഇതിൽ വരുന്ന ശബ്ദശകലങ്ങൾ ആർക്കും ഗവേഷണ ആവശ്യങ്ങൾക്ക് ഉപയോഗിക്കുകയും ചെയ്യാം.

ശബ്ദത്തിനു പുറമേ വിപുലമായ പദസഞ്ചയവും എസ്എംഎസി വികസിപ്പിക്കുന്നുണ്ട്. വ്യക്തികളുടെ പേരുകൾ, കറൻസികൾ, പുഴകളുടെ പേരുകൾ എന്നിങ്ങനെ കൃത്യമായി ടാഗ് ചെയ്ത പദങ്ങൾ മലയാള കംപ്യൂട്ടിങ് ഗവേഷണത്തിൽ നിർണായകമാണ്. മാർച്ച് വരെയുള്ള കണക്കുപ്രകാരം 98 ലക്ഷം വാക്കുകൾ ശേഖരത്തിലുണ്ട്. മലയാള പദസഞ്ചയം: gitlab.com/smc/corpus

ADVERTISEMENT

 

 

എങ്ങനെ ?

 

പലരുടെ സംസാരങ്ങൾ അവരുടെ സ്ഥലം, പ്രായം തുടങ്ങിയ വിവരങ്ങൾ കൂടി ചേർത്തു ശേഖരിക്കുകയാണ് സ്പീച്ച് കോർപ്പസിലെ ആദ്യ പടി. msc.smc.org എന്ന വെബ് ആപ്ലിക്കേഷൻ തുറന്ന് റെക്കോർഡ് ബട്ടൺ അമർത്തിയ ശേഷം സ്ക്രീനിലുള്ള വാചകങ്ങൾ വായിച്ചാൽ മതിയാകും. ഈ ശബ്ദസഞ്ചയം മെഷീൻ ലേണിങ്ങിലൂടെ കംപ്യൂട്ടറിനെ പഠിപ്പിക്കുന്നു. എത്രത്തോളം ഡേറ്റ ലഭിക്കുന്നോ, അത്രത്തോളം കാര്യക്ഷമത വർധിക്കും.