본문 바로가기
Make

워드프레스 자동화 3편 : HTML 문서 텍스트 정제

by 코드렌즈 2025. 10. 4.
반응형

이전 글에서는 Inoreader를 이용해 좋은 글감이 자동으로 들어오는 파이프라인을 만들었습니다.
이제 그 데이터를 Make에서 자동으로 불러와,
HTML 문서 형태로 되어 있는 웹 페이지를 순수 텍스트 형태로 정제하는 과정을 실습해 보겠습니다.

이 과정은 이후 ChatGPT에 데이터를 넘길 때 매우 중요한 준비 단계입니다.
AI가 정확하게 내용을 이해하려면, HTML 태그나 광고 코드 등을 제거하고 본문만 깔끔하게 정제해야 하기 때문이죠.

🧩 이번 단계의 전체 흐름

이 단계에서는 총 세 가지 모듈을 연결합니다.

  1. Inoreader 모듈 – 새 글(URL)을 불러옴
  2. HTTP 모듈 – 해당 URL의 원문 HTML 데이터를 가져옴
  3. Text Parser 모듈 – HTML 태그를 제거하고 순수 텍스트로 변환
이 과정을 거치면, ChatGPT가 읽기 쉬운 “텍스트 원문”을 자동으로 생성할 수 있습니다.

1️⃣ Make에서 새로운 시나리오 만들기

  1. Make 대시보드에 로그인합니다.
  2. 왼쪽 메뉴에서 “Scenarios”(시나리오) 항목을 클릭합니다.
  3. 오른쪽 상단의 [ + Create a new scenario ] 버튼을 눌러 새 시나리오를 생성합니다.
  4. 빈 원형 화면이 나타나면, 가운데의 + 버튼을 클릭해 첫 번째 모듈을 추가합니다.

2️⃣ Inoreader 모듈 추가 및 연결

이제 Inoreader를 통해 새 글을 불러오는 첫 번째 모듈을 만듭니다.

검색창에 “Inoreader” 를 입력합니다.

 

모듈 목록 중에서 “List Articles” 를 선택합니다.

  • 이 기능은 현재 피드의 글들을 한 번에 가져오는 테스트용 기능입니다.
  • 추후 자동화 시에는 “Watch Articles”로 교체할 예정입니다.

모듈을 클릭하면 계정 연결 창이 뜹니다.

“Add” → 로그인 → Save” 순서로 진행해 Inoreader 계정을 연결합니다.

연결이 완료되면 “Type of article” 항목을 “Folder”로 설정합니다.
그다음 “Folder” 목록에서 이전 글에서 만들었던 폴더(예: “Sports”)를 선택하세요.

마지막으로 “Limit” 을 1로 설정해 테스트 시 한 개의 게시물만 가져오도록 합니다.

3️⃣ Inoreader 모듈 테스트

설정이 끝나면 모듈을 마우스 오른쪽 클릭하고 “Run this module only” 를 실행합니다.
화면 하단에서 Inoreader에서 가져온 데이터가 출력되는 것을 확인할 수 있습니다.

여기서 중요한 필드는 다음과 같습니다.

  • title : 게시물 제목
  • canonical_url : 실제 원문 주소(URL)
  • summary : 본문 요약 (간략한 텍스트)

이 중 canonical_url 필드가 다음 단계의 핵심이 됩니다.
HTTP 모듈은 바로 이 URL을 통해 실제 웹문서를 가져옵니다.

4️⃣ HTTP 모듈 추가 및 설정

Inoreader에서 불러온 글의 URL을 통해 웹문서 전체를 가져오는 단계입니다.

 

Inoreader 모듈 오른쪽의 + 버튼을 클릭합니다.

검색창에 “HTTP” 를 입력하고,
모듈 중 “Get a file” 을 선택합니다.

“URL” 입력란을 클릭하면 드롭다운이 열립니다.
→ “Inoreader → canonical URL → href” 항목을 선택합니다.
(즉, 이전 단계에서 가져온 글 주소를 그대로 불러옵니다.)

 

다른 옵션은 기본값으로 두고 OK 를 눌러 저장합니다.

⚠️ 주의:
“canonical URL”이 아닌 “link”를 선택하면 일부 사이트의 원문이 안 불러올 수 있습니다.
반드시 “canonical URL → href”를 선택해야 합니다.

5️⃣ HTTP 모듈 테스트

이제 “Run once” 버튼을 눌러 테스트를 진행합니다.


테스트를 실행하면 Inoreader → HTTP 순으로 모듈이 작동합니다.

정상적으로 연결되면, HTTP 모듈에 초록색 체크 표시가 생기고
오른쪽 상단에 작은 숫자(예: 1)가 표시됩니다.

그 숫자를 클릭하면 아래와 같은 정보를 볼 수 있습니다.

  • 요청한 URL 주소
  • 응답 상태(200 OK)
  • HTML 원문 데이터

즉, 실제 블로그 글의 전체 HTML 구조를 성공적으로 불러온 것입니다.

6️⃣ Text Parser 모듈 추가 (HTML → Text 변환)

HTTP로 가져온 HTML은 태그와 코드로 뒤섞여 있어 AI가 읽기 어렵습니다.
이를 해결하기 위해 Text Parser 모듈을 사용합니다.

 

HTTP 모듈 오른쪽의 + 버튼을 클릭합니다.

검색창에 “Text Parser” 를 입력합니다.

“HTML to Text” 옵션을 선택합니다.

“HTML Input” 칸에서 HTTP 모듈의 “Data” 항목을 선택합니다.

“OK” 버튼을 눌러 저장합니다.

 

이제 HTML 문서를 사람이 읽을 수 있는 텍스트로 자동 변환할 준비가 완료되었습니다.

7️⃣ 변환 결과 확인 및 테스트

하단의 “Run once” 버튼을 다시 눌러 전체 시나리오를 실행해 봅니다.
만약 경고 문구가 나타나더라도 무시해도 괜찮습니다.
(경고 내용: “루트 시나리오의 마지막 단계는 출력 형태여야 한다.” — 테스트 단계에서는 무시해도 됩니다.)

실행이 끝나면 Text Parser 모듈 결과 창을 열어보세요.
HTML 태그가 모두 제거된 순수 텍스트가 나타나면 성공입니다.

💡 이렇게 정제된 텍스트가 바로 다음 단계인 ChatGPT 본문 생성 모듈의 입력값으로 사용됩니다.

8️⃣ 시나리오 저장 및 정리

모든 모듈이 정상 작동하면 시나리오를 저장합니다.
이제 우리는 다음과 같은 결과를 얻은 셈입니다.

  • Inoreader에서 새 글을 자동으로 감지하고
  • HTTP로 웹문서를 가져와
  • Text Parser로 깔끔한 텍스트를 생성

즉, “웹상의 콘텐츠 → 읽기 쉬운 텍스트”로 가공하는 완성된 파이프라인이 만들어졌습니다.

🔜 다음 편 예고

다음 글에서는 ④편: ChatGPT로 본문·제목 자동 생성하기 를 다룹니다.

  • OpenAI API 연결 방법
  • 블로그 전문가 프롬프트 작성
  • 본문과 제목을 따로 생성하는 구조
  • 토큰 절약형 모델 설정과 결과 품질 개선 팁

이 과정을 마치면, 완전히 자동으로 초안 → 제목 → 요약문 까지 생성되는 AI 콘텐츠 생산 체계를 갖추게 됩니다.

 

워크플로우 자동화 플랫폼 Make 가입 방법

Make는 워크플로우 자동화 플랫폼으로, 다양한 웹 서비스와 애플리케이션을 손쉽게 연결해 반복 작업을 자동화할 수 있는 도구입니다. 노코드 방식으로 프로그래밍 지식이 부족한 분들도 직관적

codelenz.tistory.com

 

 

Make 워드프레스 자동 포스팅 시작 가이드 1편

“매일 포스팅이 좋은 건 알지만 시간 내기가 너무 힘들다”는 분들을 위한 워드프레스 일일 포스팅 자동화 가이드입니다.이번글에서는 워드 프레스 자동 포스팅을 위해 정보를 모으고(수집)

codelenz.tistory.com

 

 

워드프레스 자동화 2편 : Inoreader로 ‘질 좋은 글감’ 파이프라인 만들기

자동화의 핵심은 ‘좋은 글감이 자동으로 들어오게 만드는 것’입니다.아무리 훌륭한 ChatGPT 프롬프트와 자동화 시나리오를 만들어도, 글의 원재료가 되는 콘텐츠가 품질이 낮으면 결과물도 그

codelenz.tistory.com

 

반응형