
कोई फर्क नहीं पड़ता कि तकनीक कितना विकसित होती है, पुरानी दृष्टिकोण की एक स्ट्रिंग हमेशा विकास के लिए फैलती है। यह एक सहज संक्रमण, मानव कारक, तकनीकी आवश्यकताओं या कुछ और के कारण हो सकता है। डेटा प्रोसेसिंग के क्षेत्र में, इस हिस्से में सबसे महत्वपूर्ण डेटा स्रोत हैं। कोई फर्क नहीं पड़ता कि हमने इससे छुटकारा पाने का सपना कैसे देखा, लेकिन अभी तक कुछ डेटा तत्काल दूतों और ईमेल में भेजे गए हैं, न कि अधिक पुरातन स्वरूपों का उल्लेख करने के लिए। मैं आपको अपाचे एयरफ्लो के विकल्पों में से एक को काटने के लिए आमंत्रित करता हूं, जो बताता है कि आप ईमेल से डेटा कैसे ले सकते हैं।
पृष्ठभूमि
कई डेटा अभी भी ई-मेल के माध्यम से प्रेषित होते हैं, पारस्परिक संचार से शुरू होते हैं और कंपनियों के बीच बातचीत के मानकों के साथ समाप्त होते हैं। यह अच्छा है यदि आप डेटा प्राप्त करने के लिए एक इंटरफ़ेस लिख सकते हैं या लोगों को कार्यालय में डाल सकते हैं जो इस जानकारी को और अधिक सुविधाजनक स्रोतों तक पहुंचाएगा, लेकिन अक्सर यह अवसर मौजूद नहीं हो सकता है। मुझे जो विशिष्ट कार्य मिला, वह जाने-माने CRM सिस्टम को डेटा वेयरहाउस और फिर OLAP सिस्टम से जोड़ने के लिए था। ऐसा ऐतिहासिक रूप से हुआ कि हमारी कंपनी के लिए इस प्रणाली का उपयोग व्यवसाय के एक क्षेत्र में सुविधाजनक था। इसलिए, हर कोई वास्तव में इस थर्ड-पार्टी सिस्टम से डेटा पर काम करने में सक्षम होना चाहता था। सबसे पहले, ज़ाहिर है, एक खुले एपीआई से डेटा प्राप्त करने की संभावना का पता लगाया गया था। दुर्भाग्य से,एपीआई ने सभी आवश्यक डेटा की रसीद को कवर नहीं किया, और, सरल शब्दों में, यह थोड़ा टेढ़ा था, और तकनीकी समर्थन नहीं चाहता था या अधिक व्यापक कार्यक्षमता प्रदान करने के लिए पूरा नहीं कर सकता था। लेकिन इस प्रणाली ने संग्रह को अनलोड करने के लिए लिंक के रूप में डाक द्वारा समय-समय पर लापता डेटा प्राप्त करने की क्षमता प्रदान की।
, , . , , .
Apache Airflow
ETL Apache Airflow. , , , , .
Apache Airflow — , , ETL (Extract-Transform-Loading) Python. Airflow , — , — . Python , . , . :
Apache Airflow . .
, , :
from airflow.hooks.base_hook import BaseHook
import imaplib
import logging
class IMAPHook(BaseHook):
def __init__(self, imap_conn_id):
"""
IMAP hook
:param imap_conn_id:
:type imap_conn_id: string
"""
self.connection = self.get_connection(imap_conn_id)
self.mail = None
def authenticate(self):
"""
"""
mail = imaplib.IMAP4_SSL(self.connection.host)
response, detail = mail.login(user=self.connection.login, password=self.connection.password)
if response != "OK":
raise AirflowException("Sign in failed")
else:
self.mail = mail
def get_last_mail(self, check_seen=True, box="INBOX", condition="(UNSEEN)"):
"""
,
:param check_seen:
:type check_seen: bool
:param box:
:type box: string
:param condition:
:type condition: string
"""
self.authenticate()
self.mail.select(mailbox=box)
response, data = self.mail.search(None, condition)
mail_ids = data[0].split()
logging.info(" : " + str(mail_ids))
if not mail_ids:
logging.info(" ")
return None
mail_id = mail_ids[0]
if len(mail_ids) > 1:
for id in mail_ids:
self.mail.store(id, "+FLAGS", "\\Seen")
mail_id = mail_ids[-1]
if not check_seen:
self.mail.store(mail_id, "-FLAGS", "\\Seen")
return mail_id
: , , — . , . , , — . , .
: . , , . , , : , , , .. , , .
def download_from_url(self, url, path, chunk_size=128):
"""
:param url:
:type url: string
:param path:
:type path: string
:param chunk_size:
:type chunk_size: int
"""
r = requests.get(url, stream=True)
with open(path, "wb") as fd:
for chunk in r.iter_content(chunk_size=chunk_size):
fd.write(chunk)
def download_mail_href_attachment(self, mail_id, path):
"""
:param mail_id:
:type mail_id: string
:param path:
:type path: string
"""
response, data = self.mail.fetch(mail_id, "(RFC822)")
raw_email = data[0][1]
raw_soup = raw_email.decode().replace("\r", "").replace("\n", "")
parse_soup = BeautifulSoup(raw_soup, "html.parser")
link_text = ""
for a in parse_soup.find_all("a", href=True, text=True):
link_text = a["href"]
self.download_from_url(link_text, path)
, . imap_conn_id. Apache Airflow (, , ), .

, . , , , , , , (API, , ..). . CRM , UUID. SIP- , UUID, . , , . , , , . .
, , , .
from airflow.sensors.base_sensor_operator import BaseSensorOperator
from airflow.utils.decorators import apply_defaults
from my_plugin.hooks.imap_hook import IMAPHook
class MailSensor(BaseSensorOperator):
@apply_defaults
def __init__(self, conn_id, check_seen=True, box="Inbox", condition="(UNSEEN)", *args, **kwargs):
super().__init__(*args, **kwargs)
self.conn_id = conn_id
self.check_seen = check_seen
self.box = box
self.condition = condition
def poke(self, context):
conn = IMAPHook(self.conn_id)
mail_id = conn.get_last_mail(check_seen=self.check_seen, box=self.box, condition=self.condition)
if mail_id is None:
return False
else:
return True
, . — , PythonOperator
from airflow.models import DAG
from airflow.operators.python_operator import PythonOperator
from airflow.sensors.my_plugin import MailSensor
from my_plugin.hooks.imap_hook import IMAPHook
start_date = datetime(2020, 4, 4)
args = {
"owner": "example",
"start_date": start_date,
"email": ["home@home.ru"],
"email_on_failure": False,
"email_on_retry": False,
"retry_delay": timedelta(minutes=15),
"provide_context": False,
}
dag = DAG(
dag_id="test_etl",
default_args=args,
schedule_interval="@hourly",
)
mail_check_sensor = MailSensor(
task_id="check_new_emails",
poke_interval=10,
conn_id="mail_conn_id",
timeout=10,
soft_fail=True,
box="my_box",
dag=dag,
mode="poke",
)
def prepare_mail():
imap_hook = IMAPHook("mail_conn_id")
mail_id = imap_hook.get_last_mail(check_seen=True, box="my_box")
if mail_id is None:
raise AirflowException("Empty mailbox")
conn.download_mail_href_attachment(mail_id, "./path.zip")
prepare_mail_data = PythonOperator(task_id="prepare_mail_data", default_args=args, dag=dag, python_callable= prepare_mail)
...
mail_check_sensor >> prepare_mail_data
prepare_data >> ...
, mail.ru, , .. 2016 , , , . , - . , (UNSEEN).
संक्षेप में, हमारे पास निम्नलिखित अनुक्रम हैं: हम जांचते हैं कि क्या नए पत्र हैं जो शर्तों को पूरा करते हैं, यदि कोई हो, तो अंतिम पत्र से लिंक का उपयोग करके संग्रह डाउनलोड करें।
अंतिम बिंदुओं के तहत, यह छोड़ दिया जाता है कि इस संग्रह को अनपैक कर दिया जाएगा, संग्रह से डेटा को साफ और संसाधित किया जाएगा, और परिणामस्वरूप, यह पूरी चीज आगे की प्रक्रिया के ETL पाइपलाइन तक जाएगी, लेकिन यह पहले से ही लेख के दायरे से परे है। यदि यह दिलचस्प और उपयोगी निकला, तो मैं अपाचे एयरफ्लो के लिए ईटीएल समाधान और उनके भागों का वर्णन करना जारी रखूंगा।