랭킹즈앤팩츠: [파이썬 실전] 이커머스 키워드 추출기 만들기: 기초 구조와 크롤링 설정

안녕하세요! 오늘은 이커머스 셀러들에게 꼭 필요한 키워드 추출 프로그램을 파이썬으로 어떻게 설계하는지, 그 기초 구조를 공유합니다. 복잡한 객체지향보다는 누구나 이해하기 쉬운 함수(Function) 단위 코딩으로 시작해 보겠습니다.

프로그램은 크게 '시작을 알리는 메인 문'과 '실제 일을 하는 함수'로 나뉩니다.

Main 문: 프로그램의 입구입니다. 여기서 '시작(Start)'과 '종료(End)'를 출력하며 전체 흐름을 제어합니다.
함수(def): 특정 기능을 수행하는 독립된 단위입니다. 예를 들어 get_keyword_panda_rank()라는 함수를 만들어 키워드를 추출하는 '실무'를 맡깁니다.

키워드를 뽑으려면 각 쇼핑 카테고리(패션잡화, 남성신발 등)의 고유 번호를 알아야 합니다.

네이버나 판다랭크 같은 사이트는 각 카테고리마다 고유한 ID(예: 50001724)를 부여합니다.
라이브러리에서 자동으로 주지 않기 때문에, 일일이 클릭하며 이 번호들을 수집해 리스트나 딕셔너리로 만들어 두는 과정이 필요합니다. (이게 진정한 실전 데이터죠!)

웹사이트에서 데이터를 긁어올 때, "나는 로봇이 아니에요"라고 알려주는 과정이 필수입니다. 이때 requests 모듈의 headers에 두 가지 정보를 반드시 넣어야 합니다.

User-Agent: 내가 어떤 브라우저(크롬, 엣지 등)를 쓰는지 알려줍니다.
Referer: 내가 어떤 페이지를 거쳐서 이 데이터에 접근했는지 알려줍니다. (철자에 주의하세요! Referrer가 아니라 표준상 Referer로 쓰입니다.)

import requests

import json

def get_keyword():

url = "데이터를 가져올 주소"

headers = {

"User-Agent": "모바일/PC 브라우저 정보",

"Referer": "이전 페이지 주소"

}

# 데이터 요청 및 제이슨(JSON) 변환

response = requests.get(url, headers=headers)

data = response.json()

return data

랭킹즈앤팩츠