From 084f46edd9fc58ebb2bec103327663e727b14ab0 Mon Sep 17 00:00:00 2001 From: icurfer Date: Sun, 19 Jan 2025 23:58:30 +0900 Subject: [PATCH] =?UTF-8?q?naver=ED=81=AC=EB=A1=A4=EB=A7=81=20&&=20wp=20ap?= =?UTF-8?q?i=EB=A5=BC=20=EC=9D=B4=EC=9A=A9=ED=95=9C=20=EC=9E=84=EC=8B=9C?= =?UTF-8?q?=EA=B8=80=20=EB=93=B1=EB=A1=9D=EA=B5=AC=ED=98=84?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 46 ++++++++++--- archived/_archived_main_naver_blog_text.py | 37 ++++++++++ main.py | 3 +- main_naver_blog_html.py | 78 ++++++++++++++++++++++ package/GetConfig.py | 3 + package/Utility.py | 1 - requirements.txt | 3 + sample.env.dev | 2 +- tempCodeRunnerFile.py | 2 + version | 2 +- 10 files changed, 164 insertions(+), 13 deletions(-) create mode 100644 archived/_archived_main_naver_blog_text.py create mode 100644 main_naver_blog_html.py create mode 100644 tempCodeRunnerFile.py diff --git a/README.md b/README.md index db0d672..2952093 100644 --- a/README.md +++ b/README.md @@ -1,9 +1,24 @@ # wp-post-automation +## 목적 +* 워드프레스 포스팅 자동화 기능 구현. + +## 주요내용 +### 프로젝트 소개 +2025.01.19 - 네이버 블로그 스크랩 및 워드프레스 임시글 등록 기능 구현 +* 초기 기능 구현 완료. 2024.10.04 - 테스트 완료. 프로젝트 1차 종료. * 워드프레스 포스팅 자동화 프로젝트. * make.com을 이용해서 만든 AutoMation Flow를 Python을 이용하여 변환. -## 기존 Flow +### 사용방법 +* sample.env.dev를 복사하여 루트 디렉토리에 .env.prd | .env.dev | .env 중 하나로 생성하여 사용 합니다. +* main.py가 기본 자동화 프로세스 입니다. + * 크롤링된 게시물을 OpenAI가 변형하여 마크다운으로 등록합니다. +* main_naver_blog_html은 네이버 블로그 전용 프로세스 입니다. + * 크롤링된 게시물을 그대로 마크다운으로 등록합니다. + +--- +## 참고 워크 플로우 * MariaDB에 저장된 최신 참고 url정보를 얻어온다. * HTTP모듈을 이용하여 참고 자료를 가져온다. * 가져온 HTML형태의 자료를 Text만 추출한다. @@ -15,35 +30,48 @@ * WordPress에 포스팅을 한다. ## 개발 계획 +### 2025.01.19 +* 네이버 블로그 포스트를 크롤링한다. +* API로 워드프레스에 임시글로 등록한다. +### 2024.10.04 * 기존 Flow를 Python으로 개발한다. * 트리거가 발생하면 실행시키는 컨테이너로 빌드한다. * kubectl create -f file.yaml을 이용하여 1회성 동작 하도록 구현한다. -### Python 개발 순서 +## Python 개발 순서 +### 2025.01.19 +* 현재 DB연동 기능은 없음. 실행시키면 URL을 넣어야동작합니다(완료). +* url을 이용해서 파싱하고 텍스트만 추출하는 기능 구현(완료). +* 마크다운 형태로 추출(완료). +* HTML문서 변환 코드 작성(완료). +* 워드프레스 API를 이용한 임시 포스트 등록(완료). +### 2024.10.04 * DB에서 url을 가져오는 코드작성(완료). * url을 이용해서 파싱하고 텍스트만 추출하는 기능 구현(완료). * OpenAI이용 코드 작성(완료)-비용 절감을 위하여 제목, 이미지 생성 제외. * HTML문서 변환 코드 작성(완료). * 워드프레스 등록 플로우 코드 작성(완료). -### 코드 리팩토링. +## 코드 리팩토링. +### 2024.10.04 * 전체 리팩토링(완료). * 모듈화, 패키지화(완료). ## Docker Image Build -2024.10.04 업데이트 +### 2024.10.04 업데이트 * Dockerfile 추가(완료). ## Kubernetes manifests -2024.10.04 업데이트 +### 2024.10.04 업데이트 * 샘플 템플릿 작성(완료) * 쿠버네티스 환경 테스트(완료). +--- + ## 코드 이슈 -### 네이버 블로그 크롤링 -2024.10.02 기준 -* 현재 일반 뉴스 기사는 잘 동작되는 것으로 보임. -* 네이버 블로그는 js이슈로 크롤링이 안되는 것으로 추측. selenium검토 필요. +* 특이사항 없음. + +--- ## 라이선스 ### 라이선스 검토 대상 diff --git a/archived/_archived_main_naver_blog_text.py b/archived/_archived_main_naver_blog_text.py new file mode 100644 index 0000000..88fe3cf --- /dev/null +++ b/archived/_archived_main_naver_blog_text.py @@ -0,0 +1,37 @@ +import requests +from bs4 import BeautifulSoup + +def get_naver_blog_content(url): + # 네이버 블로그의 모바일 버전으로 리다이렉트 + mobile_url = url.replace("blog.naver.com", "m.blog.naver.com") + + headers = { + "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" + } + + # HTTP 요청 + response = requests.get(mobile_url, headers=headers) + + if response.status_code != 200: + print(f"Failed to fetch the page: {response.status_code}") + return None + + # BeautifulSoup으로 HTML 파싱 + soup = BeautifulSoup(response.text, 'html.parser') + + # 본문 추출 (모바일 버전의 본문 클래스 사용) + content = soup.find("div", class_="se-main-container") + + if content: + return content.get_text(strip=True) + else: + print("Failed to extract the blog content.") + return None + +# 예제 URL +url = "https://blog.naver.com/kte1909/223724132196" +blog_content = get_naver_blog_content(url) + +if blog_content: + print("Blog Content:") + print(blog_content) diff --git a/main.py b/main.py index 2bc0119..fc57e56 100644 --- a/main.py +++ b/main.py @@ -8,9 +8,10 @@ config = GetConfig() dict_data = config.get_config_as_dict() # 2024-10-03 db에서 url정보 호출 +# DB없이 url을 직접 넣어서 동작시켜도 가능합니다. - 2025.01.19 print('### Get URL From DB') db = MariaDB(dict_data) -url = db.fetch_data_from_mariadb()['url'] +url = db.fetch_data_from_mariadb()['url'] # 최근 항목 조회. - 2025.01.19 # 2024-10-03 url을 이용해서 text추출 print('### Get content From URL') diff --git a/main_naver_blog_html.py b/main_naver_blog_html.py new file mode 100644 index 0000000..0396813 --- /dev/null +++ b/main_naver_blog_html.py @@ -0,0 +1,78 @@ +import requests +from bs4 import BeautifulSoup +from markdownify import markdownify as md +from package import GetConfig, MariaDB, ChangeTextToPost, WordPress +import markdown + +# 현재 DB연동 기능은 없음. 실행시키면 URL을 넣어야동작합니다. +def get_naver_blog_content_as_markdown(url): + # 네이버 블로그의 모바일 버전으로 리다이렉트 + mobile_url = url.replace("blog.naver.com", "m.blog.naver.com") + + # 웹브라우저 위장 -------------------------------------------------- + # 제외 하여도 이상 없이 동작하여 제외. + # headers = { + # "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36" + # } + + + # response = requests.get(mobile_url, headers=headers) + # --------------------------------------------------------------- + response = requests.get(mobile_url) + + if response.status_code != 200: + print(f"Failed to fetch the page: {response.status_code}") + return None + + # BeautifulSoup으로 HTML 파싱 + soup = BeautifulSoup(response.text, 'html.parser') + + # 본문 추출 (모바일 버전의 본문 클래스 사용) + content = soup.find("div", class_="se-main-container") + + if content: + html_content = str(content) + markdown_content = md(html_content) # HTML → Markdown 변환 + + # 빈 줄 제거 + markdown_content = "\n".join([line for line in markdown_content.splitlines() if line.strip()]) + + return markdown_content + else: + print("Failed to extract the blog content.") + return None + + +# 2024-10-03 환경 변수 호출 +print('### Get values From .env') +config = GetConfig() +dict_data = config.get_config_as_dict() + +# 예제 URL +url = input("Enter your blog address : ") +# markdown_content = get_naver_blog_content_as_markdown(url) +post_article = get_naver_blog_content_as_markdown(url) +# if markdown_content: +# print("Markdown Content:") +# print(markdown_content) + + # Markdown 파일로 저장 + # with open("blog_content.md", "w", encoding="utf-8") as file: + # file.write(markdown_content) + # print("Blog content saved as blog_content.md") + +print('### Convert to HTML - markdown to html') +# 2024-10-03 Markdown을 HTML로 변환 +html = markdown.markdown(post_article) +# 2024-10-03 워드프레스 포스팅 임시등록 +print('### Create post') +wp = WordPress(dict_data) +rs = wp.create_post(2,html) + +if __name__ == "__main__": + # print(post_article) + print("추가 확인을 위한 출력") + if rs.ok: + print(f"### 성공 code:{rs.status_code}") + else: + print(f"### 실패 code:{rs.status_code} reason:{rs.reason} msg:{rs.text}") \ No newline at end of file diff --git a/package/GetConfig.py b/package/GetConfig.py index 0f0100c..afb6284 100644 --- a/package/GetConfig.py +++ b/package/GetConfig.py @@ -3,10 +3,13 @@ from dotenv import load_dotenv # 우선순위: .env.prd > .env.dev > .env if os.path.exists('.env.prd'): + print("Read ::: .env.prd") load_dotenv('.env.prd') elif os.path.exists('.env.dev'): + print("Read ::: .env.dev") load_dotenv('.env.dev') else: + print("Read ::: .env") load_dotenv('.env') # 기본 .env 파일 class GetConfig: diff --git a/package/Utility.py b/package/Utility.py index 4ffc832..358051c 100644 --- a/package/Utility.py +++ b/package/Utility.py @@ -29,7 +29,6 @@ class WordPress(): def __init__(self, dict): self.wp_url = dict['wp_url'] self.wp_user = dict['wp_user'] - self.wp_user = dict['wp_user'] self.wp_api_key = dict['wp_api_key'] def create_post(self, category_id, content, media_id = None, status = "draft", title="파이썬 자동 포스팅"): diff --git a/requirements.txt b/requirements.txt index 0d8529e..8213198 100644 --- a/requirements.txt +++ b/requirements.txt @@ -3,6 +3,7 @@ anyio==4.6.0 beautifulsoup4==4.12.3 certifi==2024.8.30 charset-normalizer==3.3.2 +chromedriver-py==132.0.6834.83 colorama==0.4.6 distro==1.9.0 exceptiongroup==1.2.2 @@ -12,12 +13,14 @@ httpx==0.27.2 idna==3.10 jiter==0.5.0 Markdown==3.7 +markdownify==0.14.1 mysql-connector-python==9.0.0 openai==1.51.0 pydantic==2.9.2 pydantic_core==2.23.4 python-dotenv==1.0.1 requests==2.32.3 +six==1.17.0 sniffio==1.3.1 soupsieve==2.6 tqdm==4.66.5 diff --git a/sample.env.dev b/sample.env.dev index 877632b..05076fb 100644 --- a/sample.env.dev +++ b/sample.env.dev @@ -6,4 +6,4 @@ OPENAI_API_KEY=demo WP_URL='https://www.example.com' WP_USER='demo' WP_API_KEY='demo' -WP_POST_STYLE="문장" \ No newline at end of file +WP_POST_STYLE="문장" # OpenAI에 사용되는것. \ No newline at end of file diff --git a/tempCodeRunnerFile.py b/tempCodeRunnerFile.py new file mode 100644 index 0000000..6266243 --- /dev/null +++ b/tempCodeRunnerFile.py @@ -0,0 +1,2 @@ + +if rs.ok: \ No newline at end of file diff --git a/version b/version index 6c6aa7c..6da28dd 100644 --- a/version +++ b/version @@ -1 +1 @@ -0.1.0 \ No newline at end of file +0.1.1 \ No newline at end of file