データ

データとは

データとは、対象となるものの状態や条件などを表す数値や文字や記号のことです。 たとえば、ある人をあらわすデータとして、身長や体重などがあります。

項目
身長 166cm
体重 54kg
性別 男性
年齢 18歳
生年月日 2000年8月1日生まれ

データの種類

データには計測して数値で表せるデータと、 計測できないデータがあります。 前者を定量データ、後者を定性データと呼びます。

データ
定量データ 年齢・身長・体重・GPA・年収など
定性データ 人種・ジェンダー・職業・性格など

Q. 定量データと定性データの例をさがしてみよう

データをそろえる

表記がバラバラだと集計できませんので形式を揃えます。 この作業を名寄せと呼びます。 (もともとは金融用語です)

たとえば、日本の国名だけでも多くの表記が混在する可能性があります。

日本
日本国
にほん
にっぽん
JP
Japan
Nihon
Nippon

これらを必要に応じて、「日本」や「Japan」に統一します。

同じ数字でもいろんな表記がありえます。混ざっていると計算しづらいですね。

1,234.56
1234.56
0001234.56
+1234.56
1.23456K
1.23456e+3
1234.56
一二三四・五六
千二百三十四.五六

こちらも、たとえば「1234.56」に統一します。

データをさがす

データは目的をもって可能な限りひろく収集するのが理想ですが、現実にはさまざまな制約があります。 データを新たにあつめることができない場合、目的にかなう既存のデータがないか探しましょう。 インターネットには多くの統計データなどが公開されていますので、しっかり探してみてください。

[!] 提供されているデータの利用条件を確認してください。

研究者用データセット

データをつくる

データはさがすだけでなく、自分で作り出すこともできます。

世の中には、まだデジタルデータ化されていないデータも多数あります。

日々の記録もデータです。 いろいろな種類のセンサで計測し記録をとってみるのもよいです。

参考:Dear Data

results matching ""

    No results matching ""