文字化けするときは下記のようにすると上手くいくことがよくある。
with open(path,encoding='utf-8_sig') as f:
text=f.read()
正規表現で文字を取り出すサンプル
import re, codecs, pandas as pd
path=r'input\taobao_utf8.txt'
with open(path,encoding='utf-8_sig') as f:
text=f.read()
str='[0-9]{4}-[0-9]{2}-[0-9]{2}.+\)'
rs = re.compile(str).findall(text)
str_date='[0-9]{4}-[0-9]{2}-[0-9]{2}'
str_shop='\([0-9]+\)'
result=[[re.compile(str_date).findall(s),
re.compile(str_shop).findall(s)]
for s in rs]