Python

Python 形態素解析エンジンMeCaBを使ってTwitterの分析

形態素解析は簡単にいうと文を名詞、動詞などの品詞分類をコンピュータを使って行うことをいいます。 そのソフトのひとつがMeCaBです。ググると導入方法がたくさんでてきますが、時々刻々環境が変わり、その度うまくいかない報告が出ているようです。 僕も苦…

Python+R PypeRの使い方

PythonとRを同時に使うことが多いため、PypeRなるライブラリを使ってみます。 ファイル操作はPython、ネットワーク分析はRに軍配が上がると思いますが、往復するのが面倒臭いと思って導入してみました。 sudo pip install pyperでインストール import pyper …

Python zipファイルの解凍時やurllib.unquote()の日本語が文字化けする問題周辺のまとめ

Windowsで圧縮したzipファイルをUbuntuで解凍するとファイル名や子ディレクトリ名に文字化けが発生することがあります。 解決方法はたくさんあるようですが、いまいち理解できないものもありました。 ほとんどの問題は、Windowsのcp932コードを変換する際に…

Python BeautifulSoupによるxml解析

前回、 AmazonAPI Pythonによるxmlデータの取得 - 備忘録 によって、Amazonからの商品情報をxml形式で受け取りました。今回は、xmlをSQLやcsvに保存できる程度に綺麗に変換してみようと思います。 前回のコードですが、最後の行を変更しています #coding:utf…

AmazonAPI Pythonによるxmlデータの取得

以前Amazonのデータを取得するAPIの登録方法を紹介しました。 Amazon Product Advertising API 登録の流れ - 備忘録 今回は実際にPythonによってデータをxml形式で取得し、xmlパースを行うことによって欲しい形式に変換する手順を追ってみましょう。AmazonAP…

SQLite インストールと基本操作

大きなデータを扱う機会が増えて、csvでは重かったり、手の届かない処理をしたいと思ってデータベースSQLを触ったことがあります。 SQLはcsvなどに比べて軽く、準備されている関数(SQL文)をプログラムから投げることでソートや検索のプログラムを組まなく…

Python unicode型とstring型について

僕はPythonを使って一年も経たない入門者ですが、その短い期間で一番頻繁に悩んだ問題が、unicode型とstring型の変換エラーだと思います。 Traceback (most recent call last): File "/home/ryota/test.py", line 14, in <module> print a UnicodeEncodeError: 'asci</module>…

Python NextworkXの使い方

Rを用いて巨大なネットワークを可視化しようと試みていましたが、どうも綺麗に出力できない。。これは試作段階の情報量が少ないデータですが、Amazonの「この商品を買った人はこんな商品も買っています」をエッジとして商品を繋げたネットワークです。 特に…