Quão avançados são os métodos de reconhecimento de autores?

5

De um texto escrito por um autor, se um programa de computador analisa o texto, quanto pode um programa de computador dizer hoje sobre o autor de alguns textos (longos o bastante para serem estatisticamente significativos)?

O programa de computador pode até dizer com "certeza" se um homem ou uma mulher escreveu este texto baseado apenas no conteúdo do texto e não em uma investigação como números de ip, etc.?

Estou interessado em saber se há algoritmos em uso, por exemplo, para saber automaticamente se um autor era masculino ou feminino ou características semelhantes de um autor que um programa de computador pode decidir com base em análises do texto escrito por um autor.

Pode ser útil saber antes de ler uma mensagem que o computador analisa sobre o autor, concorda? Se eu, por exemplo, receber uma mensagem mais longa da minha esposa de que ela sofreu um acidente na Nigéria e o programa de computador diz que, com 99% de probabilidade, a mensagem foi escrita por um autor masculino em seus sessenta anos de origem não caucasiana ou alguém que não é minha esposa, então o programa de computador poderia me ajudar a investigar por que uma determinada mensagem difere em características.

Também pode haver outros usos, por exemplo, apenas detectando outliers em um conjunto maior de dados geograficamente ou demograficamente limitados.

Detecção de golpes é o uso óbvio que estou pensando, mas também pode haver outros usos. Já existem programas que analisam um texto escrito para dizer algo sobre o autor com base na escolha de palavras, uso de pronomes, uso incomum de linguagem ou da mesma forma?

    
por Niklas Rosencrantz 29.06.2013 / 07:26
fonte

1 resposta

5

Sim, existem, e não, eles não funcionam muito bem.

Deduzir informações sobre o autor de um texto é subdisciplinar do processamento de linguagem natural - a maioria das aplicações de PNL tem a ver com extrair informações sobre o conteúdo de um texto em vez do autor , mas as metas, os métodos e o estado da arte são realmente similares (atualmente isso favorece as coisas, como contagens de diagramas, classificadores de entropia máxima etc.). No final, entender um texto e entender seu autor são pequenas partes do antigo sonho da ciência da computação, a inteligência artificial. Como a maioria dos problemas em IA, ambos se revelaram muito, muito mais difíceis do que o esperado, muito dependentes de domínios, circunstâncias e poder de processamento, e progrediram lentamente e arduamente.

Dito isso, existem métodos estabelecidos para tarefas como "análise de sentimento" (decidir se um texto é positivo ou negativo, por exemplo), resumindo (extraindo a mensagem principal de uma passagem de texto) ou respondendo a pergunta esse trabalho razoavelmente bem sob condições controladas. Detecção de autor é mais difícil do que qualquer um desses; às vezes você pode detectar um escritor em particular por frases, construções, tópicos ou opiniões característicos, mas muitas vezes você não pode, e os mesmos indicadores que funcionam muito bem para o autor um podem ser totalmente inúteis para os outros. Isso é mesmo antes de considerar que as pessoas podem mudar seu estilo de escrita deliberadamente, especificamente para derrotar a desmascaração. De fato, se você tivesse um algoritmo confiável para detectar autores, isso seria uma grande ajuda para alguém tentando escapar da detecção, já que ele teria que continuar parafraseando até o algoritmo não o identifica mais!

Este é um problema geral com o processamento de texto para derrotar as intenções humanas: os resultados podem ser usados por ambos os lados, o que muitas vezes aniquila qualquer progresso que os cientistas façam. Por exemplo, muitos professores usam serviços de detecção de plágio on-line, mas isso só funciona porque os professores se esforçam mais para detectar o plágio do que os alunos colocam em plágio em primeiro lugar. Se alguém quiser realmente enviar o trabalho de outra pessoa, basta inscrever-se nos mesmos serviços e experimentar quais soluções serão detectadas e quais não serão.

Assim, o campo é enorme, frustrante, mas fascinante, e nem de longe pronto para uso confiável para o que você tem em mente.

    
por 29.06.2013 / 11:36
fonte