Николай Григорьев ([info]nickgrigoriev) wrote,

Итальянский в Google Translate

В Google Translate появился русский язык: на Хабрахабре об этом развернулась любопытная дискуссия. Понятно, что перевод получается кривоват; но и статус у него пока бета, так что претензии вроде предъявлять рано. Что же будет, когда оно заработает в полную силу?

Чтобы прикинуть, что нас ждет дальше, я немного погонял Google Translate на паре итальянский-английский. Это вроде уже релизная версия; хочется верить, что явные несуразности там уже устранены, и остались лишь трудноустранимые случаи. Вот какие у меня получились первые отрывочные впечатления:

1. Хорошо получаются предложения с общей лексикой и минимумом местоимений, при условии, что порядок слов в них совпадает с английским. Чем больше разница в порядке слов, тем страннее результаты. При постпозиции подлежащего относительно сказуемого (вещь в итальянском столь же обычная, как и в русском) результаты ощутимо портятся.

2. Заметил забавную фенечку: время от времени в английском переводе откуда-то лезет местоимение you - при том что в итальянском ничего такого нет. Вот, например: I problemi sono esaminati nel libro - The problems are examine to you in the book. Долго я ломал голову, откуда это you берется, потом осенило: он раскладывает esaminati как esamina + ti! И вправду, если подставить форму, где нельзя так разбить (descritti вместо esaminati), то все нормально. Почему такое стало вообще возможно - величайшая загадка: в итальянском такой составной формы быть не может. Дыра в морфологии?

3. Имена собственные Гугл старается не трогать: Magonza (Майнц) или Monaco di Baviera (Мюнхен) остаются в своей итальянской форме. Впрочем, Londra и Parigi переводятся нормально. Мало словарей читали?

4. Очень тяжело Гуглу даются аналитические формы и клитики всех сортов. Ощущение такое, что Гугль не видит никакой связи между вспомогательным глаголом и причастием - переводит их по отдельности. В результате регулярно вылезают аграмматичные формы: è nato дает it is been born.

С клитиками вообще беда: Me ne vado (Я ухожу) - I go some to me; Me ne frego (Мне наплевать) - Me of frego (sic!); Non voglio pensarci (Не хочу об этом думать) - I do not want to think to us. Это, честно сказать, удивительно - тут порядок следования элементов стандартный. Казалось бы, такие штуки должны статистикой ловиться замечательно...

5. Местами дефектна морфология: вполне несложные формы обычных глаголов регулярно не опознаются (например, nacque, preoccuparsi - при том, что nascere и preoccupare есть).

6. Ну и наконец, попадаются просто необъяснимые лексические дыры - отсутствуют moglie (жена), suocerа (теща/свекровь) и suocero (тесть/свекор), nuorа (cноха) и genero (зять)... Тут я уже не очень понимаю, как оно прошло выходное тестирование: такие вещи уж точно можно было поймать скриптом.

Общее ощущение: халтуры там хватает. Если и с русским будет так же, то Промт может спать спокойно.

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments

[info]acereta

January 2 2007, 23:00:49 UTC 5 years ago

Спасибо, забавно. Совсем не слежу за программами-переводчиками, но занятно было почитать.
Ирина

[info]slobin

October 13 2008, 18:22:13 UTC 3 years ago

Заметил забавную фенечку: время от времени в английском переводе откуда-то лезет местоимение you - при том что в итальянском ничего такого нет. (...) Долго я ломал голову, откуда это you берется, потом осенило: он раскладывает esaminati как esamina + ti!

Не похоже. Нашёл буквально вчера:

"Моё видео с мобильного телефона" → "My video from your mobile phone"

Так что это, видимо, особенность не читалки итальянского, а писалки английского.

... Технократ и демагог ...

[info]nickgrigoriev

October 13 2008, 18:56:35 UTC 3 years ago Edited:  October 13 2008, 18:57:14 UTC

На самом деле это все оказалось вообще не про Гугл. Мне потом рассказали, что для языковых пар, до которых не дошли руки у Франца Оха сотоварищи, до поры до времени был прикручен перевод при помощи Systran. Поэтому весь мой пост выше описывает не статистическую, а rule-based систему (и не из лучших притом).

Сейчас там ситуация получше; хотя "Me ne frego" все равно дает странноватое "I frieze", но большая часть остальных косяков исправилась, в том числе и странные переводы причастий.
Create an Account
Forgot your login or password?
Facebook Twitter More login options
English • Español • Deutsch • Русский…