# %%
from langchain_community.document_loaders.html import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader(file_path='/home/onoyu1012/workspace/elasticsearch/お好み焼き - Wikipedia.html')
data = loader.load()
print(data)
# %%
from langchain_text_splitters.character import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=0)
documents = text_splitter.split_documents(documents=data)
for document in documents:
print(document)
print(len(document.page_content))
# %%
import os
os.environ['HUGGINGFACEHUB_ACCESS_TOKEN'] = '<INPUT YOUR HUGGINGFACE ACCESS TOKEN>'
# %%
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
embedding = HuggingFaceEmbeddings(model_name='intfloat/multilingual-e5-large')
# %%
from elasticsearch import Elasticsearch
username = 'admin'
passwrod = '<INPUT YOUR ADMIN PASSWORD>'
host = 'https://%s:%s@<INPUT YOUR HOSTNAME>:<INPUT YOUR PORT NUMER>' % (username, passwrod)
print(host)
client = Elasticsearch(hosts=host, ca_certs='<INPUT YOUR CERTIFICTE AUTHORITY FILE PATH>')
# %%
from langchain_elasticsearch import ElasticsearchStore
vectorstore = ElasticsearchStore.from_documents(documents=documents, embedding=embedding, index_name='test3', strategy=ElasticsearchStore.ApproxRetrievalStrategy(hybrid=True), es_connection=client)
# %%
results = vectorstore.similarity_search(query='九州のお好み焼きについて教えて下さい。')
for result in results:
print(result)
# %%
#client.cat.indices(index='*', h='index').splitlines()
# %%
client.close()
page_content='北九州市では、マヨネーズとケチャップを混ぜたオーロラソースをつけて食べるのが定番となっている。\n\n宮崎市には、神戸風の肉天が名物として提供される地域もある。\n\n熊本市域ではお好み焼きに刻んだ沢庵を入れる店が多く、肉は薄切りではなくひき肉を入れる店もある。\n\n沖縄[編集]\n\n沖縄県には「ヒラヤーチー」(平焼き)と呼ばれる料理があり、これはキャベツではなくネギやニラなどを使用する一銭洋食やどんどん焼きに近い軽食である。また、「ポーポー」という小麦粉の薄焼きで味噌や黒糖などを巻いた菓子もあり、こちらはお好み焼きの祖先とされる「麩の焼き」に酷似している。\n\n日本国外[編集]\n\n台湾では「大阪燒」(ダーバンシャオ/中:DàBǎnShāo)の名称で、四角いお好み焼きが、屋台などで広く売られている。\n\nオーストラリア・クイーンズランド州でも人気のお好み焼き屋があり、マーケットやイベント等で出店されることがある。' metadata={'source': '/home/onoyu1012/workspace/elasticsearch/お好み焼き - Wikipedia.html'}
page_content='広島お好み焼物語 ふしぎな食べものが生まれたのはなぜ?' metadata={'source': '/home/onoyu1012/workspace/elasticsearch/お好み焼き - Wikipedia.html'}
page_content='同じ広島県内であっても、地域によって色々なバリエーションがある[出典 65]。これらは定番というものではなく、お好み焼きのメニューの一つとして提供されるものである。特に近年、「ひろしまフードフェスティバル」で「てっぱんグランプリ」を開催して競うこともあり、年々進化しつつある[122]。毛利元就の故郷・安芸高田市では、石丸伸二市長の音頭取りで、地元の食材を使った「あきたかた焼き」を考案した[123]。中国・九州地方の一部の県で、お祭りの露店・屋台で見られる割り箸に巻きつける形で焼いた「はしまき」「箸巻き」「はし巻き」[出典 66]の箸を抜いた状態の「広島お好みロール」などもある[125]。\n\n府中市は、人口あたりのお好み焼き提供軒数が広島随一ともいわれ\n\n[94]\n\nミンチ肉や細切れ肉を入れ、これを「\n\n府中焼き」と呼ぶ\n\n[出典 67]\n\n家具・' metadata={'source': '/home/onoyu1012/workspace/elasticsearch/お好み焼き - Wikipedia.html'}
page_content='目次の表示・非表示を切り替え\n\nお好み焼き\n\n37の言語版\n\nالعربية\n\nمصرى\n\nবাংলা\n\nCatalà\n\nČeština\n\nDansk\n\nDeutsch\n\nΕλληνικά\n\nEnglish\n\nEspañol\n\nفارسی\n\nSuomi\n\nFrançais\n\nGaeilge\n\nעברית\n\nMagyar\n\nՀայերեն\n\nBahasa Indonesia\n\nItaliano\n\nJawa\n\nქართული\n\n한국어\n\nМакедонски\n\nBahasa Melayu\n\nNederlands\n\nPolski\n\nPortuguês\n\nRomână\n\nРусский\n\nSimple English\n\nSvenska\n\nไทย\n\nTürkçe\n\nУкраїнська\n\nTiếng Việt\n\n中文\n\n粵語\n\nリンクを編集\n\nページ\n\nノート\n\n日本語\n\n閲覧\n\n編集\n\n履歴表示\n\nツール\n\nツール\n\n操作\n\n閲覧\n\n編集\n\n履歴表示\n\n全般\n\nリンク元\n\n関連ページの更新状況\n\nファイルをアップロード\n\n特別ページ\n\nこの版への固定リンク\n\nページ情報\n\nこのページを引用\n\n短縮URLを取得する' metadata={'source': '/home/onoyu1012/workspace/elasticsearch/お好み焼き - Wikipedia.html'}