ヒストグラムと累積度数分布図をスプレッドシートで作成する

何かしらの数値データが与えられたときに、それらのデータの傾向がどのようになっているかを直感的に把握する方法として、ヒストグラムと累積度数分布図があります。今回はデータからこれらのグラフをスプレッドシートで作成する手順を説明します。

今回作成したスプレッドシートはこちらです。

扱うデータ

データの値は以下のような値を使います。

16.9 ,3.9 ,5.8 ,20.4 ,2.2 ,7.7 ,25.2 ,-4.2 ,-1.2 ,33.2 ,3.3 ,14.3 ,3.7 ,28.3 ,4.2 ,1.3 ,10.3 ,5.5 ,13.2 ,3 ,5.3 ,-2.4 ,5.4 ,-4.3 ,0.5 ,5.3 ,8.4 ,2.2 ,-0.4 ,12.4 ,14.7 ,18.3 ,5.3 ,2.4 ,12.3 ,12.2 ,-1.4 ,-4.8 ,10.2 ,20.2 ,28.3 ,1.2 ,-4.5 ,13.4 ,5.2 ,2.5 ,24.5 ,-3.4 ,28.3 ,7.2

データの範囲の確認

今回のような連続値を扱う場合は、いくつかの階級にデータを分けてヒストグラムを作成する必要があります。そのためにデータの最大値と最小値を確認します。スプレッドシートではMAX()とMIN()関数を利用することで確認できます。今回のケースでは最大値は33.2、最小値は-4.8になります。

次に階級の区切り方を決めます。大体5〜10の階級に分けるのがいいです。今回のケースでは、−5から35まで5刻みで階級を分けることにします。

度数分布表を作成する

階級は-5~0, 0~5, 5~10, 10~15, 15~20, 20~25, 25~30, 30~35に設定しました。階級をスプレッドシートに記載します。以下のような感じです。また、階級値を入力しましょう。階級値は階級の上限と下限を足して2で割ったものになります。意味合い的にはその階級の代表値といったものです。

階級(以上)階級(未満)階級値
-50-2.5
052.5
5107.5
101512.5
152017.5
202522.5
253027.5
303532.5

頻度を求める

各階級の範囲にデータがどのくらい存在するかをスプレッドシートの関数で計算します。階級値の隣の列に式を入れてみます。COUNTIFS()関数を使うことでその範囲内に含まれるデータの個数を計算できます。

=COUNTIFS({データの範囲}, ">="&{階級(以上)}, {データの範囲}, "<"&{階級(未満)})

今回のスプレッドシートの例ではデータの範囲はA2:A51、階級(以上)の1行目は F2、階級(未満)の1行目はG2となるため以下のようになります。

=COUNTIFS(A2:A51, ">="&F2, A2:A51, "<"&G2))

また全ての階級にこの関数を適用するためにARRAYFORMUL()関数が使えます。

=ARRAYFORMULA(COUNTIFS(A2:A51, ">="&F2:F9, A2:A51, "<"&G2:G9))

ここでスプレッドシートには以下のような表ができる。

階級(以上)階級(未満)階級値頻度
-50-2.59
052.512
5107.510
101512.59
152017.52
202522.53
253027.54
303532.51

ヒストグラムを作成する

階級値と頻度の部分を選択して、メニューから挿入、グラフを順にクリックします。

グラフが表示され右側にグラフエディタが出てきます。グラフエディタが出ない場合はグラフをダブルクリックすると出ます。グラフエディタでグラフの設定を少しいじっていきます。

まず設定タブで、グラフの種類を縦棒グラフにする。

X軸が階級値、系列が頻度になっていることを確認する。(グラフを挿入するときにヘッダーを入れていない場合はセルの範囲が表示されていることになります。)また、もしそれ以外の値が出ているときは、行と列を切り替えるにチェックが入っている場合があるので外してください。

行1を見出しとして使用、列Hをラベルとして使用にはチェックを入れればグラフは完成です。

完成したヒストグラムです。グラフのタイトル(頻度と階級値の部分)のところはダブルクリックで変更できます。

累積度数分布図を作成する

累積度数は単純に度数を足していけば良いです。表はこのような感じになります。

階級値頻度未満累積度数以上累積度数
-2.59950
2.5122141
7.5103129
12.594019
17.524210
22.53458
27.54495
32.51501

未満累積度数は階級値が低い方から順に頻度を足していきます。以上累積度数は階級値が高い方から順に頻度を足していきます。

階級値と未満累積度数、以上累積度数を選択して先ほどのやり方と同様にグラフを挿入します。(Macの場合はコマンドキーを利用すれば離れたセルの選択ができます。)

以下にグラフエディタの設定と実際に作成された画面を表示します。

階級値をのラベルを表示したい場合は、グラフエディタのカスタマイズタブのラベルをテキストとして使用するにチェックを入れておきましょう。

コメント

タイトルとURLをコピーしました