Google Traductor se acaba de actualizar con importantes mejoras. Antes solo podíamos traducir de inglés a todos los idiomas (y de algún que otro idioma a otro), ahora en cambio, es posible traducir directamente entre 23 idiomas diferentes. Además de los ya disponibles: Alemán, Árabe, Chino, Coreano, Español, Francés, Griego, Hindi, Holandés, Inglés, Italiano, Japonés, Portugués y Ruso; se unen el Bulgaro, Checo, Croata, Danés, Finlandés, Noruego, Polaco, Rumano y Sueco.
Ya no hace falta decirle el idioma del texto original, podemos dejar que Google analice y decida en qué lenguaje está escrito ese texto. Esto no solo es útil cuando no sabemos el idioma del texto original, sino que podremos traduciz automáticamente la página que estemos viendo a nuestro idioma.
Lo que más interesante me ha resultado de esta tecnología de traducción es lo siguiente: cuando se traduce una página web y se muestra el resultado de la traducción, con el cursor del ratón podemos seleccionar cualquier frase del texto, entonces aparece un cuadro emergente con el texto original. De este modo podemos comparar el texto original con el traducido. Pues bien, lo mejor de todo es que si pensamos que la traducción no es correcta, podemos pinchar en la opción ‘Proponer una traducción mejor’… y decirle a Google cómo pensamos que estaría esa frase mejor traducida. ¿Recordáis la tecnología «Quiso usted decir…» de Google? Seguramente detrás de esa opción se encuentra una adaptación de dicha tecnología, con capacidad de aprendizaje. Con el tiempo, los usuarios irán corrigiendo los resultados de Google Translate y éste se irá haciendo, más y más preciso en sus traducciones, en el uso del lenguaje coloquial, etc.
Más sobre la tecnología de aprendizaje:
Google translate is based on an approach called statistical machine translation, and more specifically, on research by Franz-Josef Och who won the DARPA contest for speed machine translation in 2003. Och is now the head of Google’s machine translation department.
According to Och, a solid base for developing a usable statistical machine translation system for a new pair of languages from scratch, would consist in having a bilingual text corpus (or parallel collection) of more than a million words and two monolingual corpora of each more than a billion words. Statistical models from this data are then used to translate between those languages.
To acquire this huge amount of linguistic data, Google used United Nations documents. The same document is normally available in all six official UN languages, thus Google disposes now of a hectalingual corpus of 20 billion words worth of human translations.
The availability of Arabic and Chinese as official UN languages is probably one of the reasons why Google Translate initially focused on the development of translation between English and those languages, and not, for example, Japanese and German, who are not official languages at the UN.