Chat GPTに事前に情報を渡して学習させる方法
1.Webスクレイピングという技術
WebサイトからWebページのHTMLデータを取得し、
見出しや写真といった特定のデータを抽出する技術
データの取得を「クロール」、データの抽出を「スクレイプ」と呼ぶ
Pythonのスクレイピングに適したライブラリ
Webページ取得 | データ抽出 | 特徴 | |
Requests | ○ | ✖️ | Webページを取得する シンプルで人が直感的に分かりやすいプログラムを記述できる |
Beautiful Soup | ✖️ | ○ | 取得したWebページの情報を加工する |
Selenium | ○ | ○ | Webページ取得と、データ抽出の両方が利用できる JavaScriptが使用されたサイトやログインにも使用できる 動作が遅いのがデメリット |
RequestsでHTMLのデータを取得し、
BeautifulSoupでページのタイトルや見出しなどの情報を摘出する
2.パラメータ設定
import requests
from bs4 import BeautifulSoup
# 指定したURLのWebページを取得
url = 'https://example.com'
res = requests.get(url)
# BeautifulSoupを使ってWebページのテキストを取得
soup = BeautifulSoup(res.text, 'html.parser')
text = soup.get_text()
# 取得したテキストをチャットGPTに渡す
response = chat_gpt.generate(text)
3.注意点
Webスクレイピングは、Webページの利用規約に違反する場合がある
事前に利用規約を確認し、適切に利用する必要がある
Webスクレイピングは、自動的に大量のリクエストを送信するため、
Webサイトのサーバーに負荷をかける可能性がある
適切な間隔を空けてリクエストを送信する
Webサイト内の情報やコンテンツを
複製・再利用することが禁止されている場合が多いので注意すること
コメントを残す