Jupyterをインストールしたのでcsvとjsonデータをpandasとmatplotlibで分析してみる

JupyterをMacにインストールするの続き Jupyterをインストールしたので活用する 今回使うデータは、「Trending YouTube Video Statistics」 Kaggleのページから取ってくる(会員登録が必要) https://www.kaggle.com/datasnaek/youtube-new と打ったディレクトリと同じ階層に取ってきたデータを配置する 今回は、USのデータのみ使う データを配置したので、新しいノートを作成する まずは、「New」>「Notebook」>「Python3」をクリック csv/jsonデータを読み込む Terminalでpandasをインストール Jupyter画面で操作 配置した、csvを読み込む read_csvでいい感じに読み込んで表示してくれる あとで使うので、変数に格納しておく columns一覧を表示するにはこちら(唐突) jsonを読み込むにはread_jsonでOK 読み込んだデータをグラフ化する pandasで読み込んだデータをグラフで描写するにはmatplotlibを使う terminalでインストールする category_idごとのview数を出してみる csvとjsonのデータを合体させてグラフ化する このままだと、Categoryが数字なので、何のこっちゃわからない category_idとCategory名の結びつきは別のjsonデータの方に載っていた jsonのデータをpandasで読み込む 中身を見ると、itemsの中がさらにjson形式で格納されている itemsの中を表で表示してみる 多分、idというのがcsvデータの方のcategory_idで、Category名がsnippet.titleと思われる csvデータの方の「category_id」とjsonデータの方の「id」を結びつけて合体させる これでいい感じに表示された

JupyterをMacにインストールする

重い腰を上げてJupyterをMacにインストールする こちら のリンクを参考にする Jupyter NotebookをMacで動かしてみる 3.5ではうまくいかなかった 3.5ではうまくいかなかった とっととインストールしたい方は、下の3.6でやってみたらうまくいったをご確認ください 難しいことはやらず、バージョンを変えて 3.6でやってみる 3.6でやってみたらうまくいった failになった こちらのリンクを参考にエラー解消する pyenv install でエラーが発生する。 インストールの画面が立ち上がるので、言われるがままインストールする 3.6.6にしてしまったが、これでインストールできた これで無事にJupyterが起動する

svmで天気を分析してみる

dockerでpython環境を整えた話の続き ■準備 特に何も分析したいものがないので、天気のデータを分析する 気象庁のページから情報を拝借、データの形を整える csvデータはこちら できたのは、こんな感じの中身のデータ 気温、降水量(mm)、日照時間(h)、降雪量(cm)、風速(m/s)などの情報から天気を当てさせようとしている ■中身 中身はこんな感じ ■実行 リストで出ているのが、予測天候 テストデータとして使われたデータ(答え)はtest_labelに入っているので照らし合わせても良いが、一応一番下を見ると、80%くらい(0.804347826087)の割合で当たっていることがわかる 今は、cross_validationを使って学習データと、テストデータを作成してしまっているが、もう少し地道に学習データとテストデータの割合を調整すれば正答率も変わってきそう

dockerでpython環境を整えた話

■docker install Install Docker ■create container プロセス確認 コンテナの名前は指定しないとランダムにつけられるらしい Dockerコンテナのおもしろい名前 ■operate container dockerを始める dockerに入る 意味があるのかわからないがログインをしておく docker.comで登録したアカウント ■ディレクトリをマウントしてログインする わかるようにファイルを作っておく そしてマウントしつつログイン ■imageとして保存 ■必要モジュール入れる padasが入らない pip3でも入らない なぜか一度pythonコンソールに入ったら入った これで一旦環境は整ったので機械学習入門するぞ

vdbenchのログをmatplotlibで分析した話

vdbenchで出力したログを今までExcelで解析していたが、何十万行となるとExcelさんでは追いつかないので、重い腰を上げてmatplotlibに任せてみたら、思いの外捗った。 24万行近くあったが3秒くらいでグラフプロット完了。 以下のリンクを参考にしました。 http://myenigma.hatenablog.com/entry/2015/10/09/223629 とりあえず色々インポート フォルダ構造 vdbenchのログ ※フィクションのため、実際のログとだいぶ違うかも 実行ファイルの中身 いざ実行 行指定をしたかったので、for row in data:ではなくwhileを使っています。 本当はx軸を日付にしたかったが日付をまたぐと順番が前後してしまうとか、 「/」とか「:」が入っているとエラーとなったり、日付の扱いが悩ましい。。