Search

Tips for Data Science

はじめに

本書の目的は、データサイエンスに関わる技術的なTipsをある程度体系的にまとめることを目指します。

きっかけは、こんな事があったからです。

  • ローカルのPCでメモリがカツカツの状態で分析をしている。
  • 条件が異なる結果を知りたくて、Jupyter notebookのコードの変数のみを変更し、全てのセルを全て実行を手作業でやっている。
  • 計算スピードが上がらないからといってAWSやGCPのマシンスペックを無駄にあげている。
  • 分析プロジェクトのディレクトリ構造がプロジェクトによって、適当に作成しているため、過去の結果を探せない。
  • 文字化けで悩んでる。数Gのファイルをテキストエディタで開いてUTF-8に変換している。

これらは、ちょっとした知識・経験であっさり解決するような内容です。

最近では、モデリングなどの知識・技術は高いものの、Linuxコマンドもあまり使った事がなかったり、 AWSやGCPに分析環境を構築することができないデータサイエンティストが多い印象です。

こうした現状を踏まえると、多変量解析や機械学習・深層学習のアルゴリズムやコーディングだけでなく、 その他の技術的なTipsをきちんと伝えていかないと無駄が多いと感じました。

しかし、本書ですべてを網羅することは不可能なので、記述量が膨大になりそうな場合は 基本的に学び方やどこを見ればいいかという形でまとめようと思います。

また、再現性が担保された分析環境構築というのがデータ分析において非常に重要な要素と考えています。 それについても、まとめようと思います。

本書を読み、実際に体験することで、例えば以下のようになれることを目的とします

  • 自身で開発環境の中に分析環境を作れるようになる。
  • 与えられたデータや使うコードに対して、適切なマシンスペックで処理をする事ができるようになる。
  • 計算機に任せたほうがいいことは、計算機に任せるようになる。

取り扱う内容

順番は適宜変更する可能性があります。

  • 仮想環境の作り方
  • Linuxコマンド
  • Linux環境で作業しやすい状態をつくる方法
  • 分析再現性のための環境構築のツール
  • 開発環境での作業の仕方

取り扱わない内容

  • 機械学習や深層学習の解説
  • 具体的なアルゴリズムの解説

この文章について

  • データサイエンスに関わるTipsをJupyter Bookに変換したものです。
  • 自身で学びながら身につけたいが何から手をつけていいかわからない方のために、学びの道筋を示し、自習できるようにしています。
  • データサイエンスに関わる、様々な情報を私なりに解釈したり、実際に試した上で便利と感じたものを書き綴っています。ある程度内容を整理していますが、メモ的に書いてあり説明が足りない部分もあります。
  • この文章は執筆時点での情報です。特に技術的な内容に関しては比較的更新が多い内容も含まれるため、すでに私が使っていなかったり、使い方が変更されたりしていることがあります。

想定している対象の読者

基本的に、駆け出しのデータサイエンティストや実務経験が少ないデータサイエンティストになります。

例えば、

  • データサイエンティストになり始めて、いろんなことを学びたい人
  • エンジニア力が足りないと感じていて、何から手をつけていいかわからない人

その他

著者

くろたんく(Twitter : @black_tank_top

ライセンス

CC BY-NC-ND 4.0