Home
Qua
18
Out

Captchas, Conteúdo Aberto e Digitalização

Atenção, abrir em uma nova janela. PDFImprimirE-mail

A história


Desde Outubro de 2005, Yahoo, Internet Archive, Universidade da Califórnia e Universidade de Toronto encabeçam um consórcio cuja missão é contribuir para o acesso e publicação permanente (leia-se internet) de áudio, vídeo, imagens e textos digitalizados referentes aos mais diversos tipos de obras, principalmente livros: O Open Content Alliance.

 

A idéia fundamental é a preservação das referidas obras e seu acesso universal, desta forma, um grande esforço vem sendo feito na digitalização deste material, passo naturalmente necessário para utilização da internet como mídia. Deste esforço, participam diversas outras empresas e instituições, inclusive a Escola de Ciência da Computação da Universidade Carnegie Mellon.

 

Não pretendo me estender mais na enumeração destas instituições nem da história do emaranhado de projetos que compõem esta iniciativa, uma vez que – dados os respectivos links – cada um poderá se aprofundar conforme seu interesse.

 

Basta salientar o principal problema com que se debate qualquer um que tenha que digitalizar um texto, mesmo sendo um feliz possuidor de um scanner top de linha e um OCR à altura: - Independente de toda a tecnologia atualmente disponível, nenhum OCR é capaz de interpretar 100% das palavras que escaneia!

 

Isto se deve a questões relativas à qualidade de imprensão e conservação dos originais, caligrafia e tipografia utilizada, rasuras, etc. O fato é que, quando o OCR não interpreta uma palavra ou texto, é necessário que o revisor do trabalho o faça manualmente.

 

Naturalmente este é um fator que impacta dramaticamente em questões de custos, prazos e qualidade. Para se ter uma idéia do volume de trabalho envolvido, hoje eu contei na seção de Sub-Coleções do Internet Archive, certa de um milhão e duzentas mil obras!

 

Então veio da Escola de Ciências da Computação do Carnegie Mellon a solução, através do professor assistente Luis Von Ahn: O ReCaptcha.

 

Captcha (Completely Automated Turing Test To Tell Computers and Humans Apart, em tradução livre: Teste de Turing completamente automatizado para distinguir computadores e humanos), são aquelas imagens contendo um texto ou código distorcido que muitos sites usam como mecanismo de segurança. A idéia básica é impedir que o recurso protegido seja acessado por um software malicioso (normalmente um spambot), uma vez que interpretar o conteúdo da imagem, embora fácil para um ser humano, é extremamente difícil para os softwares atuais.

 

Von Ahn casou ambas as coisas. Se a digitalização de obras precisa de pessoas para identificar o conteúdo não interpretável pelos OCRs, por outro lado, os sites precisam de imagens interpretáveis somente por pessoas, para proteger seus recursos!

 

Então ele criou o conceito de um novo teste, que batizou de ReCaptcha. Neste novo teste, duas palavras distorcidas são apresentadas ao usuário. Uma delas é uma palavra distorcida propositalmente, e que já se conhece a interpretação. A outra, é uma imagem não interpretada pelos OCRs. Quando o usuário insere a resolução de ambas as palavras, o mecanismo checa contra a interpretação da palavra conhecida para dar ou negar acesso e – caso esta esteja correta – registra a interpretação dada para a palavra desconhecida. Quando determinado número de pessoas concordam com determinada interpretação, assume-se que aquela é a interpretação correta.

 

Os números e estimativas de Von Ahn são impressionantes:


  • Cerca de 60 milhões de captchas são resolvidos por dia;
  • Isto representa 150.000 homens/hora por dia (!) decifrando imagens, (Von Ahn considera que leve 10 segundos, em média, cada decifração);
  • Atualmente, mais de 100.000 sites utilizam o ReCaptcha, incluindo os conhecidos Facebook e Ticketmaster;
  • O mecanismo ReCaptha apresenta 99,5% de precisão;

 

Naturalmente o negócio de Von Ahn é canalizar a maior parte possível do esforço que hoje é desperdiçado na decifração de captchas comuns para ajudar no processo de digitalização de obras.

 

Como participar



O ReCaptha consiste, tecnicamente, de um serviço web disponibilizado pelo site do projeto ReCaptha. Para participar, o interessado que tiver um web site precisa se cadastrar, obtendo um par de chaves, pública e privada, para poder acessar o serviço.

 

A inclusão do serviço no seu site pode ser feita através de diversas versões de plugins e sniplets para linguagens como PHP, ASP.NET, Java, Cold Fusion, etc. Também há plugins para aplicações como Wordpress, MediaWiki, phpBB, Drupal e outras.

 

Infelizmente, o plugin para Joomla não estava disponível no site. O link desvia para extensions.joomla.org, onde se lê uma mensagem dizendo que o plugin foi removido por não ser compatível com Joomla 1.5.

 

A boa notícia para os seguidores do blog é que, em face disto, desenvolvemos um plugin para Joomla 1.5 e este plugin já está disponível para download, logo abaixo!

 

Downloads & Links do Artigo

 
Plugin Joomla 1.5 para Uso do ReCaptcha!
 
Lista de todos os weblinks de instituições e sites citados no artigo!
 
 


Adicionar este artigo ao seu site de favoritos ?
Digg! Reddit! Del.icio.us! Google! Live! Facebook! Technorati! StumbleUpon! MySpace! Netvouz! Mister-Wong! Diigo! Faves! Ask! DZone! Swik! Twitter! LinkedIn!

Comentários (1)
1 Ter, 22 de Setembro de 2009 23:27
Administrator
Hi Ricardo,

For Joomla core contact component, you can use the JCCreCaptcha release 1.01. It is explained and can be downloaded from the "Upgrade: JCCreCaptcha 1.01" article.

Thanks.

Adicionar comentário

Seu apelido/nome:
Comentário:

Menu Principal

Editar traduo para English (United Kingdom) Editar traduo para Português (Brasil)
Blog Sistemas e Cia