42일차: curl을 사용한 웹 요청

안녕하세요, MJ입니다. 오늘은 curl 명령어를 사용하여 웹 페이지의 데이터를 가져오는 방법을 익혀보겠습니다. curl은 다양한 프로토콜을 지원하는 강력한 데이터 전송 도구로, 웹 스크래핑 및 API 호출에 널리 사용됩니다. 이번 포스팅에서는 curl의 기본 사용법과 실습 예제를 통해 웹 요청을 수행하는 방법을 알아보겠습니다.

Table of Contents

1. curl이란?

curl은 “Client URL”의 약자로, URL 문법을 사용하여 데이터를 전송하거나 가져오는 명령어입니다. HTTP, HTTPS, FTP 등 다양한 프로토콜을 지원하며, 리눅스와 macOS 환경에서 기본적으로 사용 가능합니다. curl은 스크립트에서 쉽게 사용할 수 있어 웹 스크래핑 및 데이터 수집에 유용합니다.

2. curl 설치하기

대부분의 리눅스 배포판에는 curl이 기본적으로 설치되어 있지만, 설치되어 있지 않은 경우 아래의 명령어로 설치할 수 있습니다:

sudo apt-get install curl  # Ubuntu/Debian 계열
sudo yum install curl        # CentOS/RHEL 계열

3. curl 기본 사용법

curl의 기본 사용법은 다음과 같습니다:

curl [옵션] [URL]

예를 들어, 특정 웹 페이지의 HTML 내용을 가져오려면 아래와 같이 명령어를 입력합니다:

curl https://example.com

이 명령어를 실행하면 해당 웹 페이지의 HTML 코드가 출력됩니다.

4. curl을 사용한 웹 요청 실습

이번에는 curl을 사용하여 실제 웹 페이지의 데이터를 가져오는 방법을 실습해 보겠습니다.

4.1 웹 페이지의 HTML 가져오기

아래의 명령어를 사용하여 특정 웹 페이지의 HTML 내용을 가져옵니다:

curl -O https://www.example.com

위 명령어는 웹 페이지의 HTML을 가져와 현재 디렉토리에 저장합니다.

4.2 HTTP 헤더 정보 확인하기

웹 페이지의 HTTP 헤더 정보를 확인하려면 -I 옵션을 사용합니다:

curl -I https://www.example.com

이 명령어는 해당 웹 페이지의 HTTP 응답 헤더를 출력합니다. 출력 결과는 다음과 같습니다:

HTTP/2 200
content-type: text/html; charset=UTF-8
date: Mon, 22 Feb 2025 12:00:00 GMT
server: ExampleServer

4.3 POST 요청 보내기

curl을 사용하여 POST 요청을 보내는 방법도 알아보겠습니다. 아래는 예시입니다:

curl -X POST -d "param1=value1¶m2=value2" https://example.com/api

이 명령어는 지정된 URL로 POST 요청을 보내며, param1과 param2라는 파라미터를 포함합니다.

5. curl을 활용한 데이터 수집 예시

웹 스크래핑에 curl을 활용하는 방법을 알아보겠습니다. 아래는 웹 페이지에서 특정 정보를 추출하는 예제입니다:

curl -s https://example.com | grep "특정 키워드"

위 명령어는 예시 웹 페이지에서 “특정 키워드”가 포함된 줄을 출력합니다. -s 옵션은 진행 상태를 숨기고, grep 명령어를 사용하여 특정 단어를 검색합니다.

6. 주의사항

웹 스크래핑을 할 때는 몇 가지 주의사항을 지켜야 합니다:

웹사이트의 로봇 배제 표준(robots.txt)을 확인하여 스크래핑이 허용되는지 확인해야 합니다.
과도한 요청으로 서버에 부하를 주지 않도록 조심해야 합니다.

7. 결론

이번 포스팅에서는 curl 명령어를 사용하여 웹 페이지의 데이터를 가져오는 방법을 배웠습니다. curl의 기본 사용법과 다양한 웹 요청을 실습하며, 웹 스크래핑의 기초를 익혔습니다. curl은 데이터 수집 및 웹 스크래핑에 매우 유용한 도구이므로, 필요에 따라 활용해 보시기 바랍니다.

읽어주셔서 감사합니다. 다음 포스팅에서 만나요!

<다음 글: 43일차: 데이터 파싱 방법>

<이전 글: 41일차: 웹 스크래핑 개념 이해>

목차로 가기