おえぷろべい

お絵かきとかプログラミングとか米国株投資についてのなんやかんや

データ分析とデータリテラシーについて

f:id:feci:20211010211626j:plain

データサイエンス的な何か

 

Udemyでデータ分析とデータリテラシーについての講座をなぜか分かりませんが購入してしまいました。

このページはその講座内容の備忘録的な感じに使っていきたいと考えています。

 

 

〇データの定義

データとは、計算、議論、理由付けなどの基礎として使われる「事実に基づく情報」のことを意味します。

 

情報とは、データaを分析または加工することによって得られるデータa’のことです。

そしてそのような情報を収集してデータという形で蓄積をして、さらにそのデータをもとに分析または加工することでまた情報を得る、というのがデータと情報の関係のようです。

 

つまりデータリテラシーとしては、「データ=情報」ではなく「データ≒情報」という認識のほうがより正確なようです。

 

またDataとは複数形の言葉です。

なのでデータサイエンスの分野であつかう「データ」という言葉は、基本的には複数のデータを意味しているようです。

 

データの単一系はDatumです。

データサイエンスの分野でDatumという概念をメインで使うことがあるのかはちょっと分かりませんが、まあなんかそういうことらしいです。

 

 

〇データの分類

データは下記のような形で分類することができます。

 

◇量的データと質的データ

すべてのデータは「量的データ」と「質的データ」という形で分類することができます。

 

a:量的データ

量的データとは、数値の形で測定することができるデータのことです。

量的データはさらに「離散変数と連続変数」または「間隔尺度と比例尺度」という形に分類されます。


a-1:離散変数と連続変数

離散変数とは、整数で構成される「ある具体的な値」をとることができるデータのことです。

連続変数とは、実数などで構成される「いかなる値」もとることができデータ数のことです。

 

a-2:間隔尺度と比例尺度

間隔尺度とは、ある均等な間隔に沿って測定される値のことです。

間隔尺度には原点である0という値が存在しません。

 

比例尺度とは、それぞれの測定値に対する比率のことです。

比例尺度には原点である0という値が存在します。

そして比例尺度では、負の値をとるということありません。

 

 

b:質的データ

質的データとは、数値ではない形であつかわれるデータのことです。

たとえば、テキストやカテゴリなどの文字列データがこれに該当します。

 

また質的データは何らかの定量化と測定方法によって、整数として表させることもあります。

質的データは「名義尺度と順序尺度」、または「質的データと二分データ」に分類される。


b-1:名義尺度

名義尺度とは、各データに序列の存在しない質的データのことです。

名義尺度は定量化して測定することができないデータです。

なので名義尺度をむりやり定量化して測定した情報がもしあったとしても、その情報には人間の意思決定に影響を与えるような価値というものは存在しません。


b-2:順序尺度

順序尺度とは、各データに序列が存在する質的データのことです。

順序尺度も各データに序列が存在するということは留意されますが、無理矢理な定量化と測定によって得られる情報の価値は、名義尺度の場合と同様に無価値なものとなっています。

 

b-3:二分データ

二分データとは、2進数などの2つの値だけをとることができる質的データのことです。

データの世界では、質的データとバイナリデータは別のものとして取りあつかうというルールがあるようです。

 

質的データ           = 質的データ
バイナリで表現できる質的データ = 二分データ


またバイナリとは、「コンピュータが直接的に処理するために2進数で表現されるデータ」のことらしいです。

 

 

◇整理区分によるデータの分類

整理区分によってデータを分類する場合は、「構造化データ」と「半構造化データ」と「非構造化データ」の3つに分類することができます。

 

a:構造化データ

構造化データは、あらかじめ定義されたデータモデルに従って整理されているデータです。

構造化データは表になっていて、Y軸の列に項目、X軸の行に値が記録されていることが多い。

 

具体例としては、スプレッドシートCSVファイル、データベースなどに格納管理されているデータがこれに該当します。

 

b:半構造化データ

半構造化データは、表形式のデータではないけれども何らかの形では構造をもっているデータです。

HTMLファイル、XMLファイル、JSONファイルなどに格納管理されているデータがこれに該当します。

 

c:非構造化データ

非構造化データは、何らかの構造というものをまったく持たないデータのことです。

非構造化データは人の意思決定において有益な情報を含んでいる可能性はありますが構造化ができないので、データの分析、格納、管理をすること自体が難しいデータだと言えます。

 

テキストファイル、プレゼン資料、メール、画像ファイル、音声ファイル、動画ファイルなどにあるデータがこれに該当します。

非構造化データが全データに占める割合は、3つの分類の中で圧倒的に高いようです(一説には80%前後)。

 

d:メタデータ

これは整理区分によるデータの分類ではないのですが、ほかに書く場所がないのでここで説明しておきます。

 

メタデータとは、データに関するデータのことです。

なのでメタデータはデータに関する基本情報とも言われます。

 

メタデータは半構造化データを処理してそこから有益な情報を抽出する際に役に立ちます。

たとえば画像ファイルを例にすると、画像の所有者、画像を作成した日付、画像を作成した場所、ファイルサイズ、フォーマット(拡張子)などがこの画像ファイルのメタデータに該当します。

 

メタデータ機械的に作成することも人の手で作成することも可能です。

 

 

◇静的データと動的データ

データの状態によってデータを分類する場合は、「静的データ」と「動的データ」の2つに分類することができます。

 

a:静的データ

静的データとは、コンピューターの保存領域に物理的に保存されているデータのことです。

サーバーやHDD、USB、DVDなどに保存されているデータなどがこれに該当します。

 

b:動的データ

動的データとは、複数のシステム間を流れているデータおよび一時的にメモリに保存されているデータのことです。

 

動的データは読み込みや更新がなされる前提のデータです。

監視カメラやブロックチェーンのデータなどがこれに該当します。

 

 

トランザクションデータとマスターデータ

 

a:トランザクションデータ

トランザクションデータは取引によって記録されるデータのことです。

 

b:マスターデータ

マスターデータはビジネスを進めるうえで中心的な役割を担うデータのことです。

マスターデータは分類的にはトランザクションデータに属するデータですが、性質的にはトランザクションデータとは異なります。

 

 

 

※終了のお知らせ

この分野の勉強にまわす時間とエネルギーが足らなくなってきたので、中途半端ではありますがこのページの更新はここで終了とさせていただきます。

申し訳ありません。