Excelの使い方とチートシート
オンライン版Excel
多くの分析関数は無料のオンライン版エクセルで動く
- 分析関数も動くが、アドインの分析ツールが使えない(重回帰分析でP値を見ることなど)
- excel webで作成したファイル
ライセンス認証しないExcel
- 基本的に開いて見るだけであるが、osxでpagesを使って開くより、素早く開けるなどの特徴があり、ライセンスを持っていなくてもインストールしておく価値がある
それぞれの関数と機能
先頭行の固定
[表示]
[ウィンドウ枠の固定]
[先頭行の固定]
AVERAGE関数
- 平均
- rolling meanは一部限定して選択することで達成する(あとは全部に適応)
RAND関数
- 0~1を返す関数
= RAND()
-
ランダムサンプルで用いることができる
-
0~100で整数にしたいとき
= INT(RAND() * 100)
IF関数
= IF(条件式, 1, 0)
- 質的変数を数値変換するときなど
- 具体例
ピボットテーブル
- pandasのgroupbyみたいなもの
テーブルの作成
- ヘッダー付きのデータでaggしたいものをすべて選択(indexも含んだほうが良い)
挿入
ピボットテーブル
操作
- キーとなる要素を
行
に設定する - 状態を知りたい要素を
列
に設定する - 集計対象の値を
値
に設定する(個数を知りたいときはindexを用いる)- 量的変数は
合計
,最大
,最小
,平均
,分散
等 - 質的変数は
個数
等
- 量的変数は
テーブルの結合
- pandasのmerge, sqlのjoinのようなことができる
VLOOKUP
= VLOOKUP(検索クエリ, 検索対象, 検索対象の何列目か)
- 検索クエリは範囲にしないことが多い
- 検索対象は範囲であることが多い
- 検索対象で何列目を取り出すか = 具体例
ロングフォーマット, ワイドフォーマット
- テーブルの横持ち縦持ちを切り替える
- 変換したいデータをコピー
- データを
形式を選択して貼り付け
の形式を選択して貼り付け
のネストしているボタンにアクセス 行/列の入れ替え
を選択
CORREL関数
- 相関係数を出す
fx
からcorrel関数を選択して実行
= CORREL(列1, 列2)
分析のセットアップ
ファイル
オプション
アドイン
設定
->分析ツール
単回帰分析・重回帰分析
データ
->データ分析
回帰分析
- データを設定して実行
移動平均
データ
->データ分析
移動平均
区間
-> windowのサイズ出力先
-> 出力先
確率(や値)を返す関数
標準偏差や分散
引数を標本と見なし、母集団の標準偏差の推定値を返す
= STDEV.S(...)
不偏分散を返す
= VAR.S(...)
引数を母集団全体と見なし、標準偏差を返す
= STDEV.P(...)
- 偏差値や変動係数の計算で用いられる
二項分布
= BINOM.DIST(成功数, 試行回数, 確率, FALSE)
= BINOM.DIST(6, 10, 0.5, FALSE) # -> 0.2050781, 10回のコイン投げで6回表が出る確率
正規分布
観測値の確率を返す
= NORM.DIST(観測値, 平均値, 標準偏差, TRUE)
観測値の累積確率を返す
= NORM.DIST(観測値, 平均値, 標準偏差, FALSE)
- 例えばこれが0.025以下であれば異常値のようにみなせる
正規分布(逆関数)
確率から値を返す
= NORM.INV(確率, 平均, 標準偏差)
カイ二乗分布
= CHISQ.DIST(x, 自由度, 関数形式)
- 自由度は
m*n
のとき(m-1)*(n-1)
- 関数形式が
True
であれば確率を返し、False
であれば累積確率を返す - 参考
検定
Z検定
- 母集団の平均と標準偏差が判明しているときに一致するかどうか
- 片側確率が帰ってくる
- ユースケース
- 理想のデータがあり、すでに母集団の平均と分散がわかっているとき、ある範囲を切り取ったサンプル空間がこの平均と分散に従うか
= Z.TEST(観測範囲, 母集団の平均, 母集団の標準偏差)
T検定
- 2つのサンプル群に平均の有意差があるかの検定
- ユースケース
- 10人にダイエット薬を与えたときに、与える前と与えた後の差があるかどうか
= T.TEST(範囲1, 範囲2, 尾部, 検定の種類)
= T.TEST($A:$A, $B:$B, 2, 1) # 具体例
尾部
->1: 片側確率
,2: 両側確率
検定の種類
->1: 対になっているデータのt検定
,2: 2つの母集団の分散が等しいときのt検定
,3: 2つの母集団の分散が等しくないときのt検定
- 参考
- 具体例
数式的定義
\(s^2 = \frac{(n_a-1)s_a^2 + (n_b-1)s_b^2}{n_a + n_b - 2}\)
自由度は(na + nb - 2)
正規分布から信頼区間を求める
- 母集団の標準偏差がわかっているとき
= CONFIDENCE.NORM(有意水準, 母集団の標準偏差, 標本数)
= CONFIDENCE.NORM(0.05, 2.5, 50) # 有意水準 0.05で2.5の標準偏差でsampleが50のとき
T分布から信頼区間を求める
- 母集団の標準偏差を推定しているとき
= CONFIDENCE.T(有意水準, 母集団の標準偏差の推定値, 標本数)
カイ二乗検定
- やり方
- テーブルから縦横の合計を出して、期待値のテーブルを作成する
fx
をクリックしてすべて表示
からCHISQ.TEST
を選択- 実測値と期待値(期待度数)を比較して実行
= CHISQ.TEST(観測範囲, 期待範囲)