Posted at

Macの辞書ファイルを作るスクリプト

More than 3 years have passed since last update.

githubで使える絵文字のmarkdown形式でサジェスト?してくれる、辞書ファイルを作るくそみたいなスクリプト

作ったファイルを設定で取り込めば"えじ"で変換すると:hoge:みたいな感じでgithubで使える絵文字がでてくれます。

http://www.emoji-cheat-sheet.com

から絵文字を持ってきてます。


create_emoji_dictionary.sh

#!/bin/sh

EMOJI_DIR=/tmp/emoji_`date +"%Y%m%d_%H%M%S"`
mkdir -p $EMOJI_DIR
python emoji_to_dic.py > $EMOJI_DIR/mardkdown_utf8.txt
iconv -f utf-8 -t utf-16 $EMOJI_DIR/mardkdown_utf8.txt > $EMOJI_DIR/mardkdown.txt
open $EMOJI_DIR


emoji_to_dic.py

#!/usr/bin/env python

# -*- coding: utf-8 -*-
import argparse
import codecs
import sys
import urllib
from HTMLParser import HTMLParser

'''
Fixed variables
'''

url = 'http://www.emoji-cheat-sheet.com/'

'''
Parser
'''

class EmojiParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.isToken = False
self.token = ''

'''
' Find software version tag.
'''

def handle_starttag(self, tag, attrs):
self.isToken = False
attrs = dict(attrs)
if tag != 'span':
return
if 'class' not in attrs:
return
if attrs['class'] != 'name':
return
self.isToken = True

'''
' Extraction version data.
'''

def handle_data(self, data):
data = data.strip('\ \n:')
if not self.isToken:
return
if not data:
return
print u'"えじ",":' + data + u':","普通名詞"'

def GetParser():
return EmojiParser()

'''
Main.
'''

if __name__ == "__main__":
parser = GetParser()
if not parser:
print 'none parser.'
sys.exit(1)
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
parser.feed(urllib.urlopen(url).read())