【Excel】重複しているデータの抽出

別の記事にメモしてある「Rで重複しているデータを抽出する方法」と同じようなことをExcelだけで完了させる方法です。

Related
identical cats
【R】重複しているデータの抽出
ExcelファイルとRStudioを使って、重複データを抽出する方法です。何かと使いそうなので備忘録にしました。...more  
プログラミング

「条件付き書式」で書式を指定

「ホーム」メニューの中にある「条件付き書式(Conditional Formatting)」というメニューを使います。

excel | conditional formatting
  1. 重複しているデータを探したい行を選択
  2. 「ホーム」にある「条件付き書式」をクリック
  3. 「セルの強調表示ルール」→「重複する値」をクリック

ここまで選択すると、下記で説明するセルや文字の色を選択する画面になります。

セルや文字の色を選択(任意)

上記のステップ3の後、こちらの画面が出てきます。デフォルトで既にセルや文字の配色が設定されていますが、変更したい場合は「書式: (Format with:)」で好きな配色を選択します。

また、「値(選択範囲内)(values in the selected range)」では、「重複(duplicate)」しているもの、「一意(unique)」どちらに色を付けるかを選択できます。今回は重複している単語を知りたいので「重複(duplicate)」のままにします。

Excel | Formatting Rule

デフォルトのまま「OK」を押すと、セルがピンク、文字が赤で重複箇所に色が付きます。こだわりがなければ、デフォルトのままで充分だと思います。

このままで大丈夫であればこれで終了、データの並べ替え抽出が必要だとか、もう少し見やすくしたいなどの場合は次のステップに進みます。

データの並べ替えや抽出

データ(Data)」というメニューの中から「フィルター(Filter)」というマークをクリックすると、一番上の列のそれぞれのセルにボタン(▼)が表示されます。このボタンを使うと、データを並び替えることができます。また、フィルターが不要になったら同じくこの「フィルター」マークをクリックすると、フィルターが非表示になります。

(フィルターをクリックしてもフィルターが表示されない場合は、カーソルをデータのある箇所に合わせるか、シート全体を選択するとフィルターを表示させることができます。)

データの並べ替え

例えば今回は英単語を書いている「Word」という行を並び替えたいので、「Word」という行名の横にあるボタンをクリックします。すると、またいろいろカスタマイズすることができます。

今回は英単語をアルファベット順に並び替えたいので、「並べ替え(Sort)」というセクションで「昇順」を選択。すると、英単語の行がアルファベット順になるよう、全てのデータが並び替えられます。

Excel | Sorted Data

該当データの抽出

データが少なければ上記までで充分なのですが、データが多くなるとスクロールしないと重複箇所が出てこなかったりします。なので、重複箇所だけを表示させるために、さっきと同じ画面にある「フィルター」というセクションで、下記の順番にクリックしていきます。

  1. 色別: (By color:)
  2. セルの色(Cell Color)
  3. 表示させたいセルの色を選択

すると、このような感じに昇順に並び替えられた重複しているデータだけを表示してくれます。

Excel | Sorted Extracted Data

強調表示のリセット

重複箇所など、特に強調されていなくても大丈夫になった場合、「条件付き書式」のメニュー内にある「ルールのクリア(Clear Rules)」で選択したセルから、またはシート全体から強調表示を解除することができます。

Excel | Reset Formatting

RとExcelの比較

この記事を書くまでは「Excelだけで完了できるならそれの方が簡単でいいかも」と思っていたのですが、いざやってみるとExcelはステップがそこそこあるので、時間があくと忘れてしまいそうです。特に、新しくファイルやシートを作ったときなど。

Rは一度スクリプトを書いて保存してさえおけば、毎回スクリプトを実行するだけ(ワンステップ)なので、やり方を覚えておく必要がありません。また、何をしているのかが一つ一つ書いてあるので、どこが間違えているのかが分かりやすいです。新しいデータセットを作っても、保存してあるスクリプトをコピペしてデータのパスをちょこっと変えるだけ。

なので、個人的にはRの方がやりやすいなと思いました。

データの操作という点では、慣れてくるとRの方が使いやすいかもしれません。昔職場でそこそこデータ量のあるファイルをExcelで扱っていたのですが、あのときRの知識があったらもっと効率良く仕事できたかもなと思います。

興味があれば、ぜひ「R」も勉強してみてください♪

Andrew P. Beckerman (著), Dylan Z. Childs (著), Owen L. Petchey (著), 富永 大介 (翻訳)
Related
identical cats
【R】重複しているデータの抽出
ExcelファイルとRStudioを使って、重複データを抽出する方法です。何かと使いそうなので備忘録にしました。...more  
プログラミング
\ Share /

Leave a Comment