ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

המשימה של העברת נתונים מגיליון אלקטרוני בקובץ PDF לגיליון של Microsoft Excel היא תמיד "כיפית". במיוחד אם אין לך תוכנת זיהוי יקרה כמו FineReader או משהו כזה. העתקה ישירה בדרך כלל לא מובילה לשום דבר טוב, כי. לאחר הדבקת הנתונים שהועתקו על הגיליון, סביר להניח שהם "יצמדו" לעמודה אחת. אז יהיה צורך להפריד אותם בקפידה באמצעות כלי טקסט לפי עמודות מהכרטיסייה נתונים (נתונים - טקסט לעמודות).

וכמובן, העתקה אפשרית רק עבור אותם קבצי PDF שבהם יש שכבת טקסט, כלומר עם מסמך שזה עתה נסרק מנייר ל-PDF, זה לא יעבוד באופן עקרוני.

אבל זה לא כל כך עצוב, באמת 🙂

אם יש לך אופיס 2013 או 2016, אז בתוך כמה דקות, ללא תוכניות נוספות, אפשר בהחלט להעביר נתונים מ-PDF ל-Microsoft Excel. ו-Word ו-Power Query יעזרו לנו בכך.

לדוגמה, בואו ניקח את דוח ה-PDF הזה עם אוסף של טקסט, נוסחאות וטבלאות מהאתר של הוועדה הכלכלית לאירופה:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

... ונסה לחלץ ממנו באקסל, אמור את הטבלה הראשונה:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

בוא נלך!

שלב 1. פתח את PDF ב-Word

משום מה, מעטים יודעים, אבל מאז 2013 Microsoft Word למדה לפתוח ולזהות קבצי PDF (גם סרוקים, כלומר ללא שכבת טקסט!). זה נעשה בצורה סטנדרטית לחלוטין: פתח את וורד, לחץ קובץ - פתח (קובץ - פתח) וציין את פורמט ה-PDF ברשימה הנפתחת בפינה הימנית התחתונה של החלון.

לאחר מכן בחר את קובץ ה-PDF שאנו צריכים ולחץ להרחיב (לִפְתוֹחַ). Word אומר לנו שהוא הולך להפעיל OCR על המסמך הזה לטקסט:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

אנו מסכימים ובתוך מספר שניות נראה את ה-PDF שלנו פתוח לעריכה כבר בוורד:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

כמובן שהעיצוב, הסגנונות, הפונטים, כותרות עליונות ותחתונות וכו' יעופו חלקית מהמסמך, אבל זה לא חשוב לנו – אנחנו צריכים רק נתונים מטבלאות. באופן עקרוני, בשלב זה כבר מפתה פשוט להעתיק את הטבלה מהמסמך המוכר ל-Word ופשוט להדביק אותה באקסל. לפעמים זה עובד, אבל לעתים קרובות יותר זה מוביל לכל מיני עיוותים בנתונים - למשל, מספרים יכולים להפוך לתאריכים או להישאר טקסט, כמו במקרה שלנו, בגלל. PDF משתמש ללא מפרידים:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

אז בואו לא נקצר פינות, אלא נעשה הכל קצת יותר מסובך, אבל נכון.

שלב 2: שמור את המסמך כדף אינטרנט

כדי לטעון לאחר מכן את הנתונים שהתקבלו לאקסל (באמצעות Power Query), יש לשמור את המסמך שלנו ב-Word בפורמט של דף אינטרנט - פורמט זה הוא, במקרה זה, מעין מכנה משותף בין Word ו-Excel.

כדי לעשות זאת, עבור לתפריט קובץ - שמור בשם (קובץ - שמור בשם) או הקש על המקש F12 במקלדת ובחלון שנפתח, בחר את סוג הקובץ דף אינטרנט בקובץ אחד (דף אינטרנט - קובץ בודד):

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

לאחר השמירה, אתה אמור לקבל קובץ עם סיומת mhtml (אם אתה רואה סיומות קבצים באקספלורר).

שלב 3. העלאת הקובץ לאקסל באמצעות Power Query

אתה יכול לפתוח את קובץ ה-MHTML שנוצר באקסל ישירות, אבל אז אנחנו נקבל, ראשית, את כל תוכן ה-PDF בבת אחת, יחד עם טקסט ושלל טבלאות מיותרות, ושנית, שוב נאבד נתונים בגלל שגוי מפרידים. לכן, נבצע את הייבוא ​​לאקסל באמצעות תוסף Power Query. זהו תוסף חינמי לחלוטין שבאמצעותו ניתן להעלות נתונים לאקסל כמעט מכל מקור (קבצים, תיקיות, מסדי נתונים, מערכות ERP) ולאחר מכן להפוך את הנתונים המתקבלים בכל דרך אפשרית, ולהעניק להם את הצורה הרצויה.

אם יש לך Excel 2010-2013, אז אתה יכול להוריד את Power Query מהאתר הרשמי של Microsoft - לאחר ההתקנה תראה לשונית שאילתת כוח. אם יש לך Excel 2016 ומעלה, אז אתה לא צריך להוריד שום דבר - כל הפונקציונליות כבר מובנית ב-Excel כברירת מחדל וממוקמת בכרטיסייה נתונים (תַאֲרִיך) בקבוצה הורד והמר (קבל ושינוי).

אז אנחנו הולכים לכרטיסייה נתונים, או בכרטיסייה שאילתת כוח ולבחור צוות כדי לקבל נתונים or צור שאילתה - מקובץ - מ-XML. כדי להפוך לא רק קובצי XML גלויים, שנה את המסננים ברשימה הנפתחת בפינה הימנית התחתונה של החלון ל כל הקבצים (כל הקבצים) וציין את קובץ ה-MHTML שלנו:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

שים לב שהייבוא ​​לא יסתיים בהצלחה, מכיוון. Power Query מצפה מאיתנו ל-XML, אבל למעשה יש לנו פורמט HTML. לכן, בחלון הבא שיופיע, תצטרך ללחוץ לחיצה ימנית על הקובץ שאינו מובן ל-Power Query ולציין את הפורמט שלו:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

לאחר מכן, הקובץ יזוהה כהלכה ונראה רשימה של כל הטבלאות שהוא מכיל:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

ניתן לצפות בתוכן הטבלאות על ידי לחיצה על לחצן העכבר השמאלי ברקע הלבן (לא במילה טבלה!) של התאים בעמודת הנתונים.

כאשר הטבלה הרצויה מוגדרת, לחץ על המילה הירוקה טבלתי - ואתה "נופל" לתוך תוכנו:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

נותר לעשות כמה צעדים פשוטים כדי "לסרוק" את התוכן שלו, כלומר:

  1. מחק עמודות מיותרות (לחץ לחיצה ימנית על כותרת העמודה - להסיר)
  2. החלף נקודות בפסיקים (בחר עמודות, לחץ לחיצה ימנית - החלפת ערכים)
  3. הסר סימני שוויון בכותרת (בחר עמודות, לחץ לחיצה ימנית - החלפת ערכים)
  4. הסר את השורה העליונה (עמוד הבית – מחק שורות – מחק שורות עליונות)
  5. להסיר שורות ריקות (בית - מחק שורות - מחק שורות ריקות)
  6. להעלות את השורה הראשונה לכותרת הטבלה (בית - השתמש בשורה הראשונה ככותרות)
  7. לסנן נתונים מיותרים באמצעות מסנן

כאשר הטבלה מובאת לצורתה הרגילה, ניתן לפרוק אותה על הגיליון באמצעות הפקודה לסגור ולהוריד (סגור וטען) on העיקרי לשונית. ונקבל יופי כזה שאיתו כבר נוכל לעבוד:

ייבא נתונים מ-PDF ל-Excel באמצעות Power Query

  • הפיכת עמודה לטבלה עם Power Query
  • פיצול טקסט דביק לעמודות

השאירו תגובה