データ
データとは
データとは、対象となるものの状態や条件などを表す数値や文字や記号のことです。 たとえば、ある人をあらわすデータとして、身長や体重などがあります。
| 項目 | 値 |
|---|---|
| 身長 | 166cm |
| 体重 | 54kg |
| 性別 | 男性 |
| 年齢 | 18歳 |
| 生年月日 | 2000年8月1日生まれ |
データの種類
データには計測して数値で表せるデータと、 計測できないデータがあります。 前者を定量データ、後者を定性データと呼びます。
| データ | 例 |
|---|---|
| 定量データ | 年齢・身長・体重・GPA・年収など |
| 定性データ | 人種・ジェンダー・職業・性格など |
Q. 定量データと定性データの例をさがしてみよう
データをそろえる
表記がバラバラだと集計できませんので形式を揃えます。 この作業を名寄せと呼びます。 (もともとは金融用語です)
たとえば、日本の国名だけでも多くの表記が混在する可能性があります。
日本
日本国
にほん
にっぽん
JP
Japan
Nihon
Nippon
これらを必要に応じて、「日本」や「Japan」に統一します。
同じ数字でもいろんな表記がありえます。混ざっていると計算しづらいですね。
1,234.56
1234.56
0001234.56
+1234.56
1.23456K
1.23456e+3
1234.56
一二三四・五六
千二百三十四.五六
こちらも、たとえば「1234.56」に統一します。
データをさがす
データは目的をもって可能な限りひろく収集するのが理想ですが、現実にはさまざまな制約があります。 データを新たにあつめることができない場合、目的にかなう既存のデータがないか探しましょう。 インターネットには多くの統計データなどが公開されていますので、しっかり探してみてください。
- 図書
オープンデータ
- Kaggle Dataset - データ分析のコンペサイトに登録されているデータセット。たとえば京都のレストランレビューのデータセットなどがあります。Kyoto Restaurant Reviews Dataset
- e-Stat 政府統計の総合窓口 - 国勢調査など政府統計のデータセット
- RESAS 地域経済分析システム
[!] 提供されているデータの利用条件を確認してください。
研究者用データセット
- SSJデータアーカイブ - 統計調査、社会調査の個票データを提供している学術機関です。
- 情報学研究データリポジトリ -
データをつくる
データはさがすだけでなく、自分で作り出すこともできます。
世の中には、まだデジタルデータ化されていないデータも多数あります。
日々の記録もデータです。 いろいろな種類のセンサで計測し記録をとってみるのもよいです。
参考:Dear Data