Tips for Data Science

はじめに

本書の目的は、データサイエンスに関わる技術的なTipsをある程度体系的にまとめることを目指します。

きっかけは、こんな事があったからです。

これらは、ちょっとした知識・経験であっさり解決するような内容です。

最近では、モデリングなどの知識・技術は高いものの、Linuxコマンドもあまり使った事がなかったり、 AWSやGCPに分析環境を構築することができないデータサイエンティストが多い印象です。

こうした現状を踏まえると、多変量解析や機械学習・深層学習のアルゴリズムやコーディングだけでなく、その他の技術的なTipsをきちんと伝えていかないと無駄が多いと感じました。

しかし、本書ですべてを網羅することは不可能なので、記述量が膨大になりそうな場合は基本的に学び方やどこを見ればいいかという形でまとめようと思います。

また、再現性が担保された分析環境構築というのがデータ分析において非常に重要な要素と考えています。それについても、まとめようと思います。

本書を読み、実際に体験することで、例えば以下のようになれることを目的とします

順番は適宜変更する可能性があります。

データサイエンスに関わるTipsをJupyter Bookに変換したものです。
自身で学びながら身につけたいが何から手をつけていいかわからない方のために、学びの道筋を示し、自習できるようにしています。
データサイエンスに関わる、様々な情報を私なりに解釈したり、実際に試した上で便利と感じたものを書き綴っています。ある程度内容を整理していますが、メモ的に書いてあり説明が足りない部分もあります。
この文章は執筆時点での情報です。特に技術的な内容に関しては比較的更新が多い内容も含まれるため、すでに私が使っていなかったり、使い方が変更されたりしていることがあります。

基本的に、駆け出しのデータサイエンティストや実務経験が少ないデータサイエンティストになります。

例えば、