removido
(usa Nenhuma)
Enviado em 16/06/2015 - 18:39h
Eu nunca procurei saber, mas parece-me que o caminho mais simples é verificar palavra a palavra através de uma lista.
Inglês tem palavras cognatas, você pode criar uma lista de palavras standard, do tipo de palavras mais comuns em arquivos de logs.
As pesquisas de Google que usam a expressão
"regex english word" caem em páginas do Stack Overflow, fórum sobre programação.
http://www.visca.com/regexdict/intro.html
http://stackoverflow.com/questions/4621816/perl-regular-expression-for-english-word
http://stackoverflow.com/questions/8961833/regular-expression-to-match-english-words-with-some-other...
Inclusive apareceu um código de Perl que usa um módulo(?) chamado Lingua, que divide o texto em frases, palavras, sinais etc. Quase que tokens:
use strict; use warnings;
use Lingua::EN::Splitter qw(words);
my @words = words $input_text;
print @words;
--
Encryption works. Properly implemented strong crypto systems are one of the few things that you can rely on. Unfortunately, endpoint security is so terrifically weak that NSA can frequently find ways around it. — Edward Snowden