Языковые особенности и Интернет-технологии

Назад

Европейские исследователи подвергли анализу потенциал для оцифровки тридцати языков. Разобрав при этом текстовую аналитику и голосовые системы, возможность компьютерной лингвистической обработки автоматическими переводчиками и программами проверки грамматики, доступность прочих технологических ресурсов языка. Приговор учёных был жестоким: «цифровые резервы» 21-го языка из тридцати подвергшихся обследованию, крайне низки или близки к нулю. Это означает, что в электронном веке место им найдётся с трудом.

В первую очередь, невозможность приспособиться к «дивному новому миру» объединение учёных многоязыкового европейского технологического альянса META-NET, который составили 60 научно-исследовательских центров из 34-х стран, предрекли латышскому, исландскому, эстонскому, мальтийскому и литовскому языкам.

Следующие в очередь на вымирание — баскский, каталанский, кельтский… главными причинами здесь являются недостаточное число компьютерных инструментов, способных сделать их интеграцию в сетевое пространство возможной.

★☆ Из электронного архива ОВИОНТ ИНФОРМ: Одним из самых ярких, показателем пользовательской лингвистической заинтересованности в Интернете, является Wikipedia. Все привыкли, что «язык межнационального сетевого общения» — английский. На нём в Википедии размещено более 4-х миллионов статей. Далее следуют отнюдь не китайский или испанский, обосновавшийся на шестом месте, а немецкий, французский, итальянский и голландский (!?), более 1 млн. статей по каждому. Затем, из европейских языков, — польский (!), португальский, русский и шведский, имеющие более полумиллиона Вики-страниц. После них — каталанский, чешский, венгерский, норвежский, румынский, финский, турецкий, украинский. На каждом из этих языков имеется свыше 200 тысяч статей. ☆★

Люди, чей родной язык не пробился в этот ряд, потенциально в недалёком будущем попадут в определённую «изоляцию», превращаясь в малозначительную категорию сообщества, всё больше общающегося по Интернету. Как показывает перечень, в «группе риска», имеющей слабую технологическую поддержку, прежде всего, — многие славянские языки, такие, как словенский и словацкий. А также датский, греческий, ирландский, не говоря уже о целой группе «региональных наречий», таких как баскский или сардинский. На то, чтобы избежать этого, нужны серьёзные капиталовложения. Найдутся ли деньги, есть ли спасение? Вероятно.

Во многом, как считают специалисты, здесь дело в заинтересованности властей соответствующих стран, привлечение специалистов для создания более высоко уровня лингвистических технологий, их адаптации к эре цифрового общения. Главная угроза — глобализация, стандартизация сети. Конечно, интернет-технологии помогают развиться «малым» культурам, но, в тоже время, требования унификации поставили под угрозу региональное многообразие.

★☆Из электронного архива ОВИОНТ ИНФОРМ: В уставе ЕС заявлено, что одна из важнейших его целей — возможность равноправного участия в политической жизни европейских граждан любой страны вне зависимости от их языка. Для реализации этой цели, в том числе, сформирован европейский Институт компьютерной лингвистики (ИКЛ). ☆★

Модернизация лингвистического обеспечения для Интернета необходима, как считает Евросоюз, для сохранения культурного и языкового разнообразия. А, кроме того, для формирования объединённого цифрового рынка для оптимальной циркуляции товаров и услуг. Работники ИКЛ цель своей деятельности видят в том, чтобы, например, житель Италии мог прочитать и понять перевод данных на эстонском портале. В настоящее время это недоступно даже с переводчиком от Google.

Распространение языка в Сети не прямо пропорционально числу людей, использующих его в «реальном общении»: достаточно сказать, что испанский, на котором говорят во многих странах мира, далеко не самый «популярный» в сети, так как подключённость к Сети стран Латинской Америки, не сравнится с подобным показателем в англоязычных государствах.

Но число новых пользователей Интернет в развивающихся странах увеличивается весьма значительными темпами. Всё более важную роль играет развитие лингвистических интернет-технологий в сохранении «весомости» языка в цифровую эпоху, а также такие «мелочи» как морфологическая сложность языка, другие, непростые для оцифровки «тонкости». Значительная часть сегодняшних систем имеет в основе английский язык, не обеспечивая перевод, к примеру, того же итальянского на все языки. Этим обеспокоено правительство страны с Апеннин, которое планирует финансировать создание программы для Интернета: автоматическую компьютерную обработку языка. Намереваются подготовить словари, грамматические сборники, иные информационные приложения. Власти «лингвистически незначительных» стран понимают, что для того, чтобы остаться в Сети, нужны будут значительные капиталовложения. И они должны быть обратно пропорциональны «весу» языка в Интернете.

В общем-то, властям нашей страны тоже пора озаботиться этой проблемой, а то поезд может и уйти. Чтобы страна в области Интернет-технологий была на высоком уровне, не достаточно просто тыкать пальцем в Айфон или писать в Твиттере сообщения типа «Я был здесь». Нужны серьёзные государственные вложения, в том числе, и в поддержку популярности русского языка во Всемирной Паутине. А иначе, будем там же, где и остальные члены бывшей дружной советской семьи.