Prezados,

Gostaria de sugestões para encarar o seguinte problema:

Estou uma base que contém um código identificador e o nome da pessoa. Teoricamente, cada código é único e representa uma única pessoa, mas posso ter falhas. Além disso, posso ter problema de digitação.

Segue exemplo:

id nome

1 100 JOAO SILVA

2 100 SILVA JOAO

3 101 MARIA DA SILVA

4 101 MARIA SOARES DA SILVA

5 102 JOSE CANCIO

6 102 LEONORA FURTADO

7 102 LEONORA FURTADO

8 103 JOSE TRINDADE

9 103 JOSE TRINDDE

10 104 PAULO SILVA

11 105 LUIZ COSTA

12 106 ISABEL CHAGAS

13 106 CHAGAS ISABEL

14 107 VANIA VALERIA

15 107 SANDRA SANTOS

Nesse caso, no id 100 tenho problema de digitação, mas se trata da mesma pessoa. O mesmo ocorre nos ids 101, 103 e 106. No id 103 tenho um erro de digitação. No id 102 tenho duas pessoas diferentes, assim como no 107.

Como eu poderia automatizar a avaliação de quais ids tenho pessoas diferentes?

> dput(teste)

structure(list(id = c(100, 100, 101, 101, 102, 102, 102, 103,

103, 104, 105, 106, 106, 107, 107), nome = structure(c(3L, 13L,

9L, 10L, 4L, 7L, 7L, 5L, 6L, 11L, 8L, 2L, 1L, 14L, 12L), .Label = c("CHAGAS ISABEL",

"ISABEL CHAGAS", "JOAO SILVA", "JOSE CANCIO", "JOSE TRINDADE",

"JOSE TRINDDE", "LEONORA FURTADO", "LUIZ COSTA", "MARIA DA SILVA",

"MARIA SOARES DA SILVA", "PAULO SILVA", "SANDRA SANTOS", "SILVA JOAO",

"VANIA VALERIA"), class = "factor")), .Names = c("id", "nome"

), row.names = c(NA, -15L), class = "data.frame")

Obrigado e abraços

Paulo Dick

Estatístico / Epidemiologia em Saúde Pública

Tel.: (55 21) 99591-2716