lundi 14 septembre 2009

Comment dédupliquer / dédoublonner une base email sous Excel ?

Imaginons que vous soyez propriétaire d'une base d'adresses email de 50.000 contacts. Comment faire pour y identifier les éventuels doublons et les supprimer ?

On va tout simplement utiliser Excel et utiliser la fonction conditionnelle SI.
Suivez le guide...

1) Sélectionnez les données à dédoublonner, et les trier. (cela va mettre côte à côte les cellules contenant les mêmes valeurs)

2) Ajoutez une colonne juste à côté et y coller ligne par ligne le test suivant : "la cellule du dessous contient-elle la même valeur que la cellule de cette ligne ?"

Ce qui donne de façon précise :
Si les données vont de B1 à B10
Par exemple, utilisons la colonne A pour les petites formules
B1 contiendra =SI(B1=B2;1;0) et ainsi de suite...

3) Copiez toute cette dernière colonne, et la recoller par dessus par valeur en collage spécial. Cela aura pour effet de "figer" les résultats.

4) Filtrez uniquement les données à dédoublonner avec la colonne A qui contient des 1 et les trier selon la 2ème colonne (toutes les données qui sont déjà présentent vont se retrouver en bas de liste, il ne suffira plus qu'à les supprimer).

5) Supprimez la colonne qui a servi aux tests.

2 commentaires:

agatzebluz a dit…

Alors moi j'utilise la formule trouvée sur ce site pour virer les doublons.
http://bvrve.club.fr/Astuces_Michel/112excel.html

Ricou a dit…

Formule simple pour dédoublonner n'importe quelle base de données. Je l'utilise moi-même régulièrement sous Excel....