Data Science by R and Python

統計学を、広く、深く、わかりやすく。

僕が、統計学を始めた理由 -興味の中心にはいつも「ヒト」がいるみたいです-

今日は雑記 今日まで何日か、Rの使い方を書いてきたので、今日は「僕が、どうして統計学」に飛び込んだかという話を書いてみようと思います。昨日から「Sunny Brain, Rainy Brain」という本を読んでいる影響です。ちなみにこの本には「ポジティブ」と「ネガ…

ヒートマップで行列を可視化する! -ggplot2を用いたmicroarray発現量の可視化をしよう!-

今日のテーマは「ヒートマップ」 ヒートマップというのは、行列を可視化する時などに便利な手法です。有名なのは「遺伝子発現」というのを可視化する場合です。この他、店舗の一人の人が買った商品を可視化するのに使ってみてもおもしろいかもしれません。同…

オープンデータを解析する- ggplot2を用いたボロノイ分割で厚木市のコンビニ出店を見てみよう!-

オープンデータ 今日もオープンデータを可視化して、何かの役に立ててみようということをやってみたいと思います。昔、同級生が卒業研究で画像認識をやっていて、そのときに「ボロノイ分割」というものがありました。聞いているとですね、いろんな分野に応用…

線形モデルを簡単にわかりやすく! -データに直線を引いて、傾向を捉えるときの注意点-

線形モデルとは 今日のテーマは「線形モデル」です。多くの人が聞き慣れている「線形モデル」という言葉ですが、これについて今回はお話ししたいと思います。線形モデルは、他に「回帰モデル」という人もいますし、「線形回帰モデル」ということもあります。…

大学のゼミどんなことしてるんですか? -数理科学・統計の中身-

雑記 久々に、実家に帰ってきまして。。。和歌山の海の近くでのんびりしながら、ブログを書いております。今日は、完全に雑記です。さて、大学で、研究室に所属すると「ゼミ」というものがあります。ゼミは、研究室毎にやり方が違います。基本は「研究の発表…

(番外編1)Rを使ったグラフィック -ggplot2でウォーターフォール図-

Rのグラフィックでウォーターフォールチャートを作成しよう! さて、今回はRでまさかのウォーターフォールチャートを作成するという完全に趣味の領域の話をします。 ウォーターフォールチャートとは まずは、Wikipediaから引用しましょう。 滝グラフ(たきグ…

確率の謎・ベイズの定理 - 2名のうち1名が女の子とわかったとき、2名とも女の子の確率? -

ベイズの定理?? 今日は、ベイズの定理について。ベイズの定理を聞いたことのない人もいるかもしれませんので、まずはベイズの定理から説明します。ベイズの定理は数学的には次のように書き表されます。 数式をみても、さっぱり意味の分からない人もいらっ…

(第2回)Rを使ったグラフィック -ggplot2-

Rのグラフィック第2弾 さて、前回の記事(第1回)Rを使ったグラフィック -ggplot2- - Data Science by R and Pythonから、時間が少しかかりましたが、ggplot2を持ちいたグラフィックの第2弾を紹介します。 描画要素の配置の指定を行う。 ここで、指定するの…

【予告】データフェストを開催します!(仮)

予告 9月27日(土), 28日(日)の2日間でデータフェストというイベントを開催する予定です。内容としては、2日間で「何かのデータ」を解析して、結果を導くというものです。対象は、データ解析を学び始めた、学んでいる大学生・院生とする予定です。 追記:…

データの見える化 - なんで見える化するのか(統計の基本) -

前置き 前回、長いブログを書いて、ちょっとお疲れモードなので、今日は短めに。夏休みブログ7日目。今日のテーマは「統計解析」の基本である「データの見える化」をする理由についてお話しします。 「見える化」とは 大学3年生(今からもう2年前)に始めて…

「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく-

「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 …

疎な行列をRで扱う -R tips-

疎な行列(Sparse Matrix) ユーザーの購入履歴において、ユーザーを行、アイテムを列、アイテムを購入したら1、アイテムを購入しなかったら0となるような行列や、自然言語処理で用いられる単語文書行列は単語を行、文書を列、単語の出現頻度(出現の有無)…

【雑記|個人的見解として】大学の統計教育で統計を現場で使える人材は生まれるか?+何をすべきか?

* 本記事について(8/16) 本記事について、所属をかいたまま所見を述べるのは不適切であるという指摘をいただきましたので修正いたします。また、表現上適切ではない箇所がありますので、その点を加筆・修正いたします。 追記(8/16) それから、これは追記…

(第1回)Rを使ったグラフィック -ggplot2-

今日のテーマはRのグラフィック Rといえば、統計解析のソフトウェアという印象が強く、回帰・判別などいろんな手法を使えるソフトウェアとして認識されています。でも、それだけではありません。グラフィックにも強みがあります。plot関数をはじめ、histogra…

オープンデータを使ってみよう!-流山市の桜を最適なルートで回ろう!-

今回のテーマはオープンデータ! 最近、何かと話題のオープンデータ。今回は、オープンデータで遊んでみたよという記事です。オープンデータと言えば、「慶應義塾大学SFC研究所データビジネス創造・ラボ」と「アクセンチュア」が第2回データビジネス創造コン…

スポーツデータアナリティクス基礎講座 -反省・感じたこと-

スポーツデータアナリティクス基礎講座 先日のブログで、紹介したスポーツアナリティクス基礎講座に7/27(日)に登壇させていただきました。 【セミナー情報】スポーツ統計学の講座に登壇します - Data Science by R and Python URL : 7月27日 第1回 スポー…

夏休み!にやりたいこと!

夏休み 遂に、夏休みまで後2日になりました。夏休みというのは、名ばかりなわけですが。でも、時間があるのは確かなので、読んでみたい本とか、勉強・研究してみたい内容とか、まとめてみようと思います。まず、勉強・研究したい内容から。 勉強したい・研究…

戦略構築に活かす決定木 -Decision Tree-

今日のテーマ「決定木(けっていぎ)」 決定木は、統計の手法の中でも非常によく用いられる手法です。昨日、相談を受けていろいろ勉強したこともあるので、勉強した内容をここにまとめてみようと思います。まずは、決定木の説明と、どのようなケースで用いる…

【セミナー情報】スポーツ統計学の講座に登壇します

スポーツデータアナリティクス基礎講座 今回は、スポーツ統計学についてセミナーでお話をさせていただくことになりました。こちらにも案内と簡単な内容を書かせていただきます。 概要(スポーツ統計学とは) スポーツ統計学はデータ主導型マネージメントによ…

健康管理の未来 - データによって変わる未来

今日は、こんなテーマでブログを書きます。 データ解析のこれから データ解析をやり始めて、そろそろ2年目になります。いろんなデータに触れて、いろんな手法に触れて。まだまだ、やりたいないことだらけだけど、これからのデータ解析はどうなるのか?という…

【雑談】SFCにできたデータサイエンス科目

今日は雑談を書きます。 最近気になっている「SFCのデータサイエンス科目」について 今年度から、慶應のSFCのカリキュラムが変わって、データサイエンス科目なるものが登場したらしい。以下のURLに詳細があるみたい。しかも、必修科目に加えられてて、なんか…

機械学習 - Naive Bayes Method

こんにちは。 最近、ちまたで流行ってる機械学習とかに手を出し始めております。 先日はサポートベクターマシン(通称SVM)を勉強して、ちょっと感動しました。 ここ数日はナイーブベイズ(単純ベイズ)について勉強しています。ナイーブベイズ法と言えば、…

【雑記】データ解析の現場にきて思うこと

こんにちは。今週の水曜日(5/14)に学内の発表があるのでその準備に追われています。60分の発表なのに、120分ぐらいのスライドをつくってしまったのでどうしよう...と途方に暮れているのが今です。発表内容はこちら 20140512_水曜セミナードラフトv1 from …

【Bioinformaticsの基礎】自分用

【自分勉強用】 RNAとは http://kuchem.kyoto-u.ac.jp/seika/inoue/RNAtowa/RNA.htmlスプライシング http://ja.wikipedia.org/wiki/Pre-mRNA_スプライシングRNAへの転写 http://seesaawiki.jp/w/dhlkai/d/RNA%A4%D8%A4%CE%C5%BE%BC%CC%A4%C8%A5%D7%A5%ED%A5%…

データの読み方|解析結果にだまされないようにしよう!

保護者の年収や習慣と、子供の学力の関係性についての調査が出ています。特に身近だから「年収と子供の学力」には「線形的な」関係があるというところで、TwitterでRTされて盛り上がってるけど、調査内容を少し斜めから見て、疑ってみても良いかもしれません…

データ解析のためのPythonの設定まとめ

これがなかなかしっかりまとまってるので紹介 http://qiita.com/sky_y/items/4b9641b01e713ea4ab73データ解析のためのPythonインストールまとめ - Qiita

vimの使い方

vim

vimの使い方の基本的なところをここで確認できる。http://www15.ocn.ne.jp/~tusr/vim/vim_text0.html#mozTocId814447Vimの使い方

mysqlのインストール方法

環境はMac OS X Mavericksで行っています。 この動画の手順に合わせて操作すれば、mysqlをきちんとインストールすることができました。https://www.youtube.com/watch?v=3Zn_SPvmz-o MySQL 5.6のインストール(Mac OS X v10.8 Mountain Lion) - YouTube次に…

【私事】大学院に進学いたします。

私事で恐縮ですが、次年度より大学院に進学いたします。専攻は相変わらず、統計学です。研究領域は、大きく変わりゲノム解析となる予定です。(ゲノムと聞くと生物学っぽいですが、、、白衣を着て実験はしません)。ただ、このほかにもビッグデータ解析とか…

【備忘録】Markov chain Monte Carlo Method

今回は、いつもの統計の勉強がテーマではなく、僕の備忘録です。。。 Markov chain Monte Carlo(MCMC)とは マルコフ連鎖とモンテカルロ積分を用いる、パラメータ推定を行う方法の1つ。 MCMCのモチベーションは、高次元空間のパラメータなどの事後分布の「正…