Estou uma base que contém um código identificador e o nome da pessoa. Teoricamente, cada código é único e representa uma única pessoa, mas posso ter falhas. Além disso, posso ter problema de digitação.
Nesse caso, no id 100 tenho problema de digitação, mas se trata da mesma pessoa. O mesmo ocorre nos ids 101, 103 e 106. No id 103 tenho um erro de digitação. No id 102 tenho duas pessoas diferentes, assim como no 107.
> dput(teste)
structure(list(id = c(100, 100, 101, 101, 102, 102, 102, 103,
103, 104, 105, 106, 106, 107, 107), nome = structure(c(3L, 13L,
9L, 10L, 4L, 7L, 7L, 5L, 6L, 11L, 8L, 2L, 1L, 14L, 12L), .Label = c("CHAGAS ISABEL",
"ISABEL CHAGAS", "JOAO SILVA", "JOSE CANCIO", "JOSE TRINDADE",
"JOSE TRINDDE", "LEONORA FURTADO", "LUIZ COSTA", "MARIA DA SILVA",
"MARIA SOARES DA SILVA", "PAULO SILVA", "SANDRA SANTOS", "SILVA JOAO",
"VANIA VALERIA"), class = "factor")), .Names = c("id", "nome"
), row.names = c(NA, -15L), class = "data.frame")