Como remover linhas duplicadas – Pentaho Data Integration

Como remover linhas duplicadas dentro de uma tabela utilizando o Pentaho Data Integration.

Introdução

Fala aí pessoal, blz?
Notei que a maioria das pessoas que acessam o blog, chegam até aqui através desse tópico. Por isso, resolvi dar uma incrementada nele e explicar melhor como funciona esta transformação Unique rows.

Unique Rows

Esta transformação tem como função, remover linhas duplicadas do fluxo de entrada e filtrar apenas as linhas exclusivas para seguimento no fluxo.

Step Unique Rows

Pré-Requisito

Para entregar um resultado correto, o fluxo de entrada deve ser classificado em uma etapa anterior, caso contrário, apenas as linhas duplas consecutivas serão analisadas e filtradas. Podemos utilizar a step Sort rows para isso.

Step Sort rows

Add counter to output: caso queira adicionar um campo de contador ao fluxo de saída, ele irá trazer a quantidade de ocorrências do campo. No meu caso o nome do campo foi definido como “COUNT”. (opcional)

Redirect duplicate row: selecione esta opção para processar linhas duplicadas como um erro, e redirecioná-las para um outro fluxo. Se você não selecionar esta opção, as linhas duplicadas serão excluídas. (opcional)

Fieldname: Especifique os nomes dos campos para os quais deseja encontrar valores exclusivos ou clique em Get para inserir todos os campos do fluxo de entrada.

Ignore case: Você pode optar por ignorar maiúsculas e minúsculas, definindo essa opção como ‘Y’ ou ‘N’. Se você não especificar nenhuma opção, a etapa comparará a linha inteira.

Demonstração

Para demonstração utilizei esta base de dados em Excel:

Base de dados Excel para exemplo

Esta é a imagem final da transformação:

Imagem da transformação
  • Microsoft Excel input: fiz o input da minha planilha de exemplo;
  • Sort rows: classifiquei os meus dados pelo campo CPF;
  • Unique rows: informei o campo CPF para filtrar os valores exclusivos, e fiz duas saídas, uma com os dados exclusivos Microsoft Excel output (output.xls) e outra com os dados que foram removidos Microsoft Excel output REMOVIDOS (removidos.xls), lembrando que esta última saída é opcional. Exemplo para download.

Este foi o resultado:

Resultado da transformação
Dados duplicados removidos

Conclusão

Espero que tenha ficado claro como utilizar esta transformação, apesar de simples, ela é bem útil no dia a dia.
Como fonte utilizei a documentação oficial, segue o link: https://help.pentaho.com/Documentation/8.1/Products/Data_Integration/Transformation_Step_Reference/Unique_Rows

Caso tenho alguma dúvida ou sugestão, sinta-se à vontade para deixar um comentário abaixo.
Obrigado pelo seu tempo e fique bem!!! 😁👍