数理データサイエンス
AIリテラシー講座 ~基礎~PR用1分動画
データの特徴を読み解き、起きている事象の意味合いを
理解できる能力(データリテラシー)の基礎を学びます。
第1回 データを読む
※別途会員登録が必要です
- 担当講師
-
(京都大学 教授)
- 内容
-
集められたデータを読んで理解するとは、見えないものをデータを通じて見ることである、という基本的な考え方を説明し、具体例として国勢調査などのアンケート調査や物理法則、公衆衛生政策などをあげる。
見えないものを捉えるための考え方として、母集団からの標本抽出について説明する。標本抽出の方法として、単純無作為抽出、層別抽出、多段抽出をあげる。
データ形式の代表的な分類として、連続データと離散データについて説明する。また、データの意味的分類として、量的データと質的データについて説明する。度数分布表とヒストグラムを例にしてこれらのデータの分類と違いについて説明する。
集められたデータを読んで理解するとは、見えないものをデータを通じて見ることである、という基本的な考え方を説明し、具体例として国勢調査などのアンケート調査や物理法則、公衆衛生政策などをあげる。
見えないものを捉えるための考え方として、母集団からの標本抽出について説明する。標本抽出の方法として、単純無作為抽出、層別抽出、多段抽出をあげる。
データ形式の代表的な分類として、連続データと離散データについて説明する。また、データの意味的分類として、量的データと質的データについて説明する。度数分布表とヒストグラムを例にしてこれらのデータの分類と違いについて説明する。
第2回 データを読む
- 担当講師
-
(京都大学 教授)
- 内容
-
量的データの性質は分布を用いることでよく理解できるが、データの特徴を一つの値に集約して表現できると大変便利である。このような値は代表値と呼ばれ、ここでは、基本的な代表値として平均値、中央値、最頻値について説明する。 代表値は一つの数字でデータ全体の特徴を表すことができる便利なものであるが、その特徴をよく理解して用いないとデータを大きく見誤る危険性がある。ここでは、各代表値の性質やそれらの違いについて箱ひげ図を用いて説明する。
量的データは、代表値とそのばらつき表す指標をセットで用いることで、より正確にその特徴を捉えることができる。ここでは、ばらつきを表す指標として最も基本的かつ重要な、分散、標準偏差、偏差値について説明する。
第3回 データを読む
- 担当講師
-
(京都大学 特定講師)
- 内容
-
身長と体重のように、複数の変数のデータを同時に観測することもあるだろう。それらの変数間の関係を調べるための方法の一つとして、直線的な関係を調べる共分散とその定量的な指標である相関係数について説明する。
相関関係と因果関係とは一般には関連がない。相関係数が大きくても因果関係がないことがある。交絡因子による擬似相関がその例である。また、相関係数が小さくても因果関係がある場合もある。相関に関する注意点について説明する。
変数が3つ以上ある場合に変数間の関係性を調べるにはどうしたら良いだろうか。それには2変数間の相関を、全ての変数間の組み合わせに対して計算すればよい。そこで用いられる相関係数行列と散布図行列について説明する。
第4回 データを説明する
- 担当講師
-
(京都大学 教授)
- 内容
-
2つの質的変数の関係を調べるには、まずはクロス集計表や分割表の形にデータをまとめることで、その関係を大まかにつかむ。クロス集計表における関係の強さはχ二乗値で測ることができる。
観測したデータをそのまま信じることはできない。観測データには、観測の誤差や、打ち切りや脱落などがありうる。
統計情報は悪用すれば、ウソをもっともらしく述べるための道具にもなりうる。いくつかの有名な例を見てみる。
第5回 データを説明する
- 担当講師
-
(京都大学 特定講師)
- 内容
-
質的データに対する可視化手法について述べる。具体的には棒グラフ、円グラフについて描き方の注意点も含めて解説する。
量的データに対する可視化手法について述べる。折れ線グラフ、散布図、ヒートマップなど代表的な可視化手法を解説した後、ヒストグラムによる可視化手法についても触れる。
一般的なデータに対して様々な可視化が可能なこと、特にテレビやウェブなどのメディアで用いられるようなデータの図表表現ついて紹介しながら解説する。
第6回 データを説明する
- 担当講師
-
(京都大学特定講師)
- 内容
-
データの比較の方法について、どのように比較を行えば何がわかったことになるのかを、相関や因果について復習をしながら説明する。例えば、条件を揃えることの必要性を述べ、具体例としてA/Bテストを紹介する。
何を目的にどのような可視化を行うと良いのか、具体例を交えつつ説明する。このパートでは、目的にそぐわなかったり、誤解を招いたりしかねない、不適切な可視化の事例について紹介し、どのように改善すべきかを説明する。
何を目的にどのような可視化を行うと良いのか、具体例を交えつつ説明する。このパートでは、実際に同じデータを複数の方法で可視化した場合に、どの可視化がどのような面で優れているのかを考えてみたり、可視化を行うことで新たな気づきが得られた例を紹介する。
第7回 データを扱う
- 担当講師
-
(京都大学 教授)
- 内容
-
データ解析を行う際に使用するツールについて学ぶ。特にデータの収集において欠かすことができないスプレッドシートについては、代表的な表計算ソフトであるExcel(エクセル)を例に挙げて理解を深められるように説明する。
実際に代表的な表計算ソフトであるExcel(エクセル)を使い、自分でデータを入力したうえで、四則演算などの極めて初歩的なデータ処理を行えるように説明する。
表的な表計算ソフトであるExcel(エクセル)を使い、データの並び替え・ランキング・絞り込みなどを行いつつ、作業を効率化するショートカットの有用性なども説明する。
第8回 データを扱う
- 担当講師
-
(京都大学 教授)
- 内容
-
引き続き、代表的な表計算ソフトであるExcel(エクセル)を使ったデータ処理を行うために、データの入力や四則演算その他の処方的な関数を使った処理の復習を説明する。
代表的な表計算ソフトであるExcel(エクセル)を使い、平均、標準偏差、新たな変数作成をなどにも挑戦できるように説明する。
汎用性が高いcsv形式のデータを入手してデータ加工処理をおこなってみる。またExcel(エクセル)からcsv形式のデータ保存の仕方についても説明する。
- 初学者でも分かりやすい内容です
- 一部に専門性のある内容を含みます
- 専門性の高い内容です
- コマ数
- 全 8 コマ(1コマ45分程度)
コマ数 | 担当講師 | 内 容 |
---|---|---|
全 8 コマ (1コマ45分程度) |
山本 章博(京都大学 教授) |
第1回 データを読む |
林 和則(京都大学 教授) |
第2回 データを読む | |
中野 直人(京都大学 特定講師) |
第3回 データを読む | |
鹿島 久嗣(京都大学 教授) |
第4回 データを説明する | |
木村 真之(京都大学 特定講師) |
第5回 データを説明する | |
關戸 啓人(京都大学特定講師) |
第6回 データを説明する | |
田村 寛(京都大学 教授) |
第7回 データを扱う | |
田村 寛(京都大学 教授) |
第8回 データを扱う |
※別途会員登録が必要です