О ПРОГРАММНОМ ОБЕСПЕЧЕНИЙ БАЗЫ ДАННЫХ ЭЛЕКТРОННОГО КОРПУСА КАЗАХСКИХ ТЕКСТОВ
Abstract
Целью исследования является разработка программного обеспечения электронного корпуса казахских текстов (лингвистического ресурса информационного характера) по корпусной лингвистике. Актуальность создания электронного корпуса казахских текстов не вызывает сомнений. Это обусловлено, прежде всего, тем, что корпусная лингвистика – относительно молодая наука, развивающаяся в течение сравнительно небольшого периода времени.
Помимо создания электронного корпуса казахских текстов как такового, авторы стремились также вникнуть в суть предметной области, так как раньше им не приходилось иметь дело с данной областью лингвистики. Полученное о ней представление позволило разработать определенную последовательность действий по созданию электронного корпуса казахских текстов. Понятие электронный корпус казахских текстов также включает в себя систему управления текстовыми и лингвистическими данными, называемую менеджером ресурсов. Это специализированная поисковая система, включающая программные средства для поиска данных в электронном корпусе казахского языка, получения статистической информации и предоставления результатов поиска или обработки информации пользователю в удобной форме. Корпусы текстов необходимы современным лингвистам, так как они дают новые возможности для исследований, значительно экономят время и обеспечивают быстрый доступ к весьма большому объему информации. С помощью электронного корпуса казахских текстов можно узнать частоту словоформ, лексем и т.д., проследить совместную встречаемость и особенности их сочетаемости