2026년 3월 27일 금요일

[파이썬 실전] 이커머스 키워드 추출기 만들기: 기초 구조와 크롤링 설정

 안녕하세요! 오늘은 이커머스 셀러들에게 꼭 필요한 키워드 추출 프로그램을 파이썬으로 어떻게 설계하는지, 그 기초 구조를 공유합니다. 복잡한 객체지향보다는 누구나 이해하기 쉬운 함수(Function) 단위 코딩으로 시작해 보겠습니다.

1. 프로그램의 큰 그림: 메인(Main)과 함수(Function)

프로그램은 크게 '시작을 알리는 메인 문'과 '실제 일을 하는 함수'로 나뉩니다.

  • Main 문: 프로그램의 입구입니다. 여기서 '시작(Start)'과 '종료(End)'를 출력하며 전체 흐름을 제어합니다.

  • 함수(def): 특정 기능을 수행하는 독립된 단위입니다. 예를 들어 get_keyword_panda_rank()라는 함수를 만들어 키워드를 추출하는 '실무'를 맡깁니다.

2. 카테고리 데이터 수집의 노가다(?): 번호 따기

키워드를 뽑으려면 각 쇼핑 카테고리(패션잡화, 남성신발 등)의 고유 번호를 알아야 합니다.

  • 네이버나 판다랭크 같은 사이트는 각 카테고리마다 고유한 ID(예: 50001724)를 부여합니다.

  • 라이브러리에서 자동으로 주지 않기 때문에, 일일이 클릭하며 이 번호들을 수집해 리스트나 딕셔너리로 만들어 두는 과정이 필요합니다. (이게 진정한 실전 데이터죠!)

3. 크롤링의 필수 방패: 헤더(Headers) 설정

웹사이트에서 데이터를 긁어올 때, "나는 로봇이 아니에요"라고 알려주는 과정이 필수입니다. 이때 requests 모듈의 headers에 두 가지 정보를 반드시 넣어야 합니다.

  1. User-Agent: 내가 어떤 브라우저(크롬, 엣지 등)를 쓰는지 알려줍니다.

  2. Referer: 내가 어떤 페이지를 거쳐서 이 데이터에 접근했는지 알려줍니다. (철자에 주의하세요! Referrer가 아니라 표준상 Referer로 쓰입니다.)

import requests
import json

def get_keyword():
    url = "데이터를 가져올 주소"
    headers = {
        "User-Agent": "모바일/PC 브라우저 정보",
        "Referer": "이전 페이지 주소"
    }
    
    # 데이터 요청 및 제이슨(JSON) 변환
    response = requests.get(url, headers=headers)
    data = response.json()
    return data

💡 오늘 요약

  • 구조: 메인에서 함수를 호출하는 간단한 방식부터 시작하세요.

  • 준비: 카테고리 고유 번호 리스트를 미리 확보하는 것이 핵심입니다.

  • 매너: User-AgentReferer 설정으로 서버 차단을 예방하세요.


0개의 덧글:

댓글 쓰기

에 가입 댓글 [Atom]

<< 홈