Data Science by R and Python

統計学を、広く、深く、わかりやすく。

2014-08-01から1ヶ月間の記事一覧

集中講義の感想 -3日間ブログ書けなかった言い訳など-

from: Multiple Imputation in Stata: Imputing 3日間の集中講義を受けてきました。 8/27~8/29の3日間朝9:00〜17:00の時間帯をぶっとうしで講義を受ける「集中講義」を受講していました。その疲れで、3日間ブログを書けませんでした...(←言い訳。今回の…

plotlyパッケージでグラフをシェアしよう! -Rによるグラフィックス-

Plotlyパッケージを紹介します。 PlotlyはRのグラフィックのライブラリで、グラフの作成や共有をインタラクティブに行えて、かつかなりハイレベルな図をブラウザーで表示できるという特徴を持っています。 実際、書いたものをアップロードして、URLでブログ…

正規表現の勉強をしたのでメモ(自分用).

//メタ文字 //[abc] :aかbかcのどれか一文字にマッチさせる //[]と一緒に使えるメタ文字 //[a-z]:a-zのうちのどれか //[^abc]:^(キャレット):これの中の文字以外の1文字 var s = '@tomoshige_n,@temoshige'; var rs = s.match(/t[^ao]moshige/); if(rs){ a…

ShinyをCSSで拡張しようぜ!(その2) - Rでつくるウェブアプリケーション -

ShinyのCSSでの拡張第2弾 今日は、昨日書いた記事の続きを書きます。昨日の記事では、wwwフォルダーの中にCSSファイルを入れて拡張しようということを行ったわけですけど、別の方法もあります。それが、紹介することです。HTMLをご存知の方は知っていると思…

ShinyをCSSで拡張しようぜ! - Rでつくるウェブアプリケーション -

Shiny 先日、記事で「Shiny」というパッケージを用いたウェブアプリケーションの作成方法についてお話ししました。今回は、そんなウェブアプリケーションをCSS(cascading style sheets)で拡張しようじゃないか!というお話です。こちらの記事により詳しく…

機械学習とは何か? - 自分なりに説明+具体例:サポートベクターマシン-

機械学習とは? 今日は、機械学習をテーマにしてブログを書いてみます。「機械学習」と言えば、Googleなわけですけど、最近Googleがワールドカップの勝敗予想を機械学習で行って「すげー!」っておそらく一部界隈では盛り上がりました。最近では一般にも「機…

時間ができたので一般化線形モデル(ロジスティック回帰)のコードを書いてみた

ロジスティック回帰 ロジスティック回帰モデルといえば、一般化線形モデルの代表格で、統計を少しでも勉強している人は知っている・聞いたことのある手法だと思います。今回は、そのロジスティック回帰を実際にRでプログラムするということをやってみます。…

Shiny -Rでつくるウェブアプリケーション!-

shinyでウェブアプリケーションを作成する Rでは、"shiny"というライブラリを使うことで、ウェブアプリケーションを作成することができます。僕も、最近知って今日初めて少しだけ勉強したので、ここに書いてみます。まだ、少ししか見ていないのですが、結構…

僕が、統計学を始めた理由 -興味の中心にはいつも「ヒト」がいるみたいです-

今日は雑記 今日まで何日か、Rの使い方を書いてきたので、今日は「僕が、どうして統計学」に飛び込んだかという話を書いてみようと思います。昨日から「Sunny Brain, Rainy Brain」という本を読んでいる影響です。ちなみにこの本には「ポジティブ」と「ネガ…

ヒートマップで行列を可視化する! -ggplot2を用いたmicroarray発現量の可視化をしよう!-

今日のテーマは「ヒートマップ」 ヒートマップというのは、行列を可視化する時などに便利な手法です。有名なのは「遺伝子発現」というのを可視化する場合です。この他、店舗の一人の人が買った商品を可視化するのに使ってみてもおもしろいかもしれません。同…

オープンデータを解析する- ggplot2を用いたボロノイ分割で厚木市のコンビニ出店を見てみよう!-

オープンデータ 今日もオープンデータを可視化して、何かの役に立ててみようということをやってみたいと思います。昔、同級生が卒業研究で画像認識をやっていて、そのときに「ボロノイ分割」というものがありました。聞いているとですね、いろんな分野に応用…

線形モデルを簡単にわかりやすく! -データに直線を引いて、傾向を捉えるときの注意点-

線形モデルとは 今日のテーマは「線形モデル」です。多くの人が聞き慣れている「線形モデル」という言葉ですが、これについて今回はお話ししたいと思います。線形モデルは、他に「回帰モデル」という人もいますし、「線形回帰モデル」ということもあります。…

大学のゼミどんなことしてるんですか? -数理科学・統計の中身-

雑記 久々に、実家に帰ってきまして。。。和歌山の海の近くでのんびりしながら、ブログを書いております。今日は、完全に雑記です。さて、大学で、研究室に所属すると「ゼミ」というものがあります。ゼミは、研究室毎にやり方が違います。基本は「研究の発表…

(番外編1)Rを使ったグラフィック -ggplot2でウォーターフォール図-

Rのグラフィックでウォーターフォールチャートを作成しよう! さて、今回はRでまさかのウォーターフォールチャートを作成するという完全に趣味の領域の話をします。 ウォーターフォールチャートとは まずは、Wikipediaから引用しましょう。 滝グラフ(たきグ…

確率の謎・ベイズの定理 - 2名のうち1名が女の子とわかったとき、2名とも女の子の確率? -

ベイズの定理?? 今日は、ベイズの定理について。ベイズの定理を聞いたことのない人もいるかもしれませんので、まずはベイズの定理から説明します。ベイズの定理は数学的には次のように書き表されます。 数式をみても、さっぱり意味の分からない人もいらっ…

(第2回)Rを使ったグラフィック -ggplot2-

Rのグラフィック第2弾 さて、前回の記事(第1回)Rを使ったグラフィック -ggplot2- - Data Science by R and Pythonから、時間が少しかかりましたが、ggplot2を持ちいたグラフィックの第2弾を紹介します。 描画要素の配置の指定を行う。 ここで、指定するの…

【予告】データフェストを開催します!(仮)

予告 9月27日(土), 28日(日)の2日間でデータフェストというイベントを開催する予定です。内容としては、2日間で「何かのデータ」を解析して、結果を導くというものです。対象は、データ解析を学び始めた、学んでいる大学生・院生とする予定です。 追記:…

データの見える化 - なんで見える化するのか(統計の基本) -

前置き 前回、長いブログを書いて、ちょっとお疲れモードなので、今日は短めに。夏休みブログ7日目。今日のテーマは「統計解析」の基本である「データの見える化」をする理由についてお話しします。 「見える化」とは 大学3年生(今からもう2年前)に始めて…

「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく-

「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 …

疎な行列をRで扱う -R tips-

疎な行列(Sparse Matrix) ユーザーの購入履歴において、ユーザーを行、アイテムを列、アイテムを購入したら1、アイテムを購入しなかったら0となるような行列や、自然言語処理で用いられる単語文書行列は単語を行、文書を列、単語の出現頻度(出現の有無)…

【雑記|個人的見解として】大学の統計教育で統計を現場で使える人材は生まれるか?+何をすべきか?

* 本記事について(8/16) 本記事について、所属をかいたまま所見を述べるのは不適切であるという指摘をいただきましたので修正いたします。また、表現上適切ではない箇所がありますので、その点を加筆・修正いたします。 追記(8/16) それから、これは追記…

(第1回)Rを使ったグラフィック -ggplot2-

今日のテーマはRのグラフィック Rといえば、統計解析のソフトウェアという印象が強く、回帰・判別などいろんな手法を使えるソフトウェアとして認識されています。でも、それだけではありません。グラフィックにも強みがあります。plot関数をはじめ、histogra…

オープンデータを使ってみよう!-流山市の桜を最適なルートで回ろう!-

今回のテーマはオープンデータ! 最近、何かと話題のオープンデータ。今回は、オープンデータで遊んでみたよという記事です。オープンデータと言えば、「慶應義塾大学SFC研究所データビジネス創造・ラボ」と「アクセンチュア」が第2回データビジネス創造コン…