La verdad sobre el reCAPTCHA

Seguramente todos conozcáis el molesto reCAPTCHA, que aparece en muchas páginas para verificar que somos humanos escribiendo un texto que aparece borroso y así proteger dichos sitios web de bots malintencionados o de spam. Pero lo que probablemente no sepáis, yo de hecho no tenía ni idea hasta hace una hora, es que de las dos palabras  que suelen aparecer, una es la que es conocida por la aplicación y utilizada por tanto para comprobar que somos humanos, y la otra es una palabra que los programas digitalizadores de texto no fueron capaz de reconocer totalmente y por tanto utilizan a humanos para que las identifiquemos.

En este caso la primera palabra, ovicens, es la generada por el progama, deformándola y haciéndola borrosa al tacharla, para que sólo humano sea capaz de leerla. Ésta es la única que utiliza para comprobar que somos humanos. La segunda, solved, solamente está ahí para que trabajéis gratis para Google (ahora dueño de dicha tecnología) descifrando los libros digitalizados que luego podemos utilizar en google books. De hecho, os animo a que la escribáis incorrectamente la próxima vez que os encontréis con un reCAPTCHA, y veréis que mientras la verdadera palabra de comprobación esté bien, os dará por válida la verificación.

El debate sobre si está bien o mal que el control sobre todas las bibliotecas digitalizadas del mundo esté en manos de una sola empresa, el todopoderoso Google, está abierto. Pero ahora ya sabéis que podéis hacer algo al respecto: ayudarlos con esta tarea o descifrar incorrectamente palabras (labor poco fructuosa con el coste adicional de no acceder a esa página web que tanto os gusta).

Si queréis saber más: http://es.wikipedia.org/wiki/Recaptcha

11 comentarios en “La verdad sobre el reCAPTCHA

    1. Jaja, a mi, cuando publicité este artículo en facebook me «encajaron» una fórmula matemática :D. Pero como la palabra de control era la otra me dio igual y escribí letras al azar.

  1. Lo de digitalizar bibliotecas me parece genial. Es más, deberían hacerlo también otras compañías. Google no tiene ningún tipo de exclusividad en esa tarea.

    Si las bibliotecas digitalizaran sus contenidos y los abrieran al público, como corresponde a su función, no tendría Google que venir detrás a hacerlo.

    1. Hola Dani, yo opino lo mismo que tú. La digitalización de bibliotecas es un avance necesario en los tiempos que vivimos de forma que cualquier tomo de cualquier época pueda estar al alcance de todos. El problema ocurre cuando sólo una compañía (google en este caso) se dedica a esto. Claro que no tiene exclusividad, pero cuando alguna otra compañía empiece a hacerlo, google tendrá (si no tiene ya) el catálogo más completo del mundo y será difícil de desbancarla como centro de la cultura en internet.

      ¡Un saludo!

    2. Hay varios otros proyectos generales de digitalización aparte de Google. El de http://www.archive.org tiene mucho material propio (es decir, acuerdos propios con bibliotecas), y además piratea muchos libros sin derechos de autor de Google; según el país en que vivas, muchas veces es posible descargar de allí un PDF de Google al que Google no te da acceso. También gallica.bnf.fr es interesante; tiene mucho menos cantidad que Google, pero tiene mucho material imposible de hallar en otros sitios.

      Lo que nunca me gustó de Google es la poca atención que prestan a la calidad de lo que ofrecen. Es exasperante encontrar que se saltean páginas, o se repiten, o aparecen cortadas, o que salen borrosas porque el libro se movió al momento de escanear, o que se ve el dedo (con guantes de latex) del tipo que estaba escaneando, etc. En eso los otros proyectos le llevan ventajas: da la impresión de que al menos hay un ser humano fijándose en que el resultado sea más o menos aceptable. Si el mismo libro está disponible en Google y en archive.org, yo siempre prefiero el segundo.

      La última de Google ha sido el añadido de una utilidad para poner comentarios sobre las páginas («Parte de la página es ilegible» o «Falta un página»), con lo que se supone que se irá mejorando con el tiempo. Es el mismo principio de crowd-resourcing del reCAPTCHA: que sean los usuarios los que optimicen la herramienta, y no me parece para nada mal – al fin y al cabo lo que uno obtiene de Google aquí vale mucho más que el tiempo que uno les da para mejorar el servicio. Pero aun así me parece que faltaron algunos principios de bibliotecología al encarar el proyecto.

  2. A partir de ahora rellenaré los reCaptacha con más gusto, al menos ahora sé que estaré haciendo algo útil y que luego nos podremos beneficiar todos de ello 🙂

  3. Gracias por tu contribución, aunque no es del todo exacta. No todos los sistemas de verifica son solo alfabéticos ni todos en manos a una misma empresa. Tampoco el orden es siempre igual. De todas formas es fácil intuir ciertas curiosidades ya que casi siempre una de las dos combinaciones alfabéticas coincide con una palabra existente y la otra es frecuentemente un vocablo inexistente. A veces puedes probar a jugar cambiando letras y funciona igualmente. De todas formas, todo el desarrollo del software y la informática se basa en la interacción del utilizador final. Tanto en el desarrollo de las aplicaciones como en la recopilación de datos. Que son si no las versiones beta? Por otro lado la web es un universo que se conforma poco a poco con la participación de todos. Google es potente si, no hay duda, pero antes de el existen Grandes Hermanos mucho más nocivos (Microsoft). Bill Gates debería ser coronado como el mayor y más letal de los espías en la historia al servicio del Gobierno Mundial de los USA. Todos sus programas recopilan ilegalmente información sobre el contenido de los ordenadores y sistemas de los usuarios.

Deja un comentario