綾小路龍之介の素人思考

[regex] twitterのハッシュタグの正規表現

twitterのタイムラインから、ハッシュタグを抽出したくなった。正規表現は「#[0-9a-zA-Z_\-]+」とかける。

twitter本家は、ハッシュタグフォーマットの定義を公表してはいないけど、多くの場合に当てはまる正規表現を考えると以下のようにかける。日本語タグとかは無視。

#[0-9a-zA-Z_\-]+

抽出する場合は以下のようにかける。

#!/usr/bin/perl
my $text = "twitter timeline #hoge";
my $tw_hashtag_regex = q{#[0-9a-zA-Z_\-]+};
while ($text =~ /($tw_hashtag_regex)/g) {
        print $1, "\n";
}
exit;
__END__

リファレンス

  1. 正規表現 - Google 検索
  2. Twitterのつぶやき中のハッシュタグを検知する - Life with IT
  3. twitter アカウント|ハッシュタグ 正規表現 - Google 検索
  4. ハッシュタグ - TwitterまとめWiki
  5. Using Regular Expressions to Match Twitter Users and Hashtags | Live Granades
  6. RegExp: How to extract usernames out of Tweets (twitter.com)?- WeAsk

ソーシャルブックマーク

  1. はてなブックマーク
  2. Google Bookmarks
  3. del.icio.us

ChangeLog

  1. Posted: 2009-07-26T07:50:57+09:00
  2. Modified: 2009-07-26T07:50:57+09:00
  3. Generated: 2017-10-25T23:09:16+09:00