תוכן
המשימה של העברת נתונים מגיליון אלקטרוני בקובץ PDF לגיליון של Microsoft Excel היא תמיד "כיפית". במיוחד אם אין לך תוכנת זיהוי יקרה כמו FineReader או משהו כזה. העתקה ישירה בדרך כלל לא מובילה לשום דבר טוב, כי. לאחר הדבקת הנתונים שהועתקו על הגיליון, סביר להניח שהם "יצמדו" לעמודה אחת. אז יהיה צורך להפריד אותם בקפידה באמצעות כלי טקסט לפי עמודות מהכרטיסייה נתונים (נתונים - טקסט לעמודות).
וכמובן, העתקה אפשרית רק עבור אותם קבצי PDF שבהם יש שכבת טקסט, כלומר עם מסמך שזה עתה נסרק מנייר ל-PDF, זה לא יעבוד באופן עקרוני.
אבל זה לא כל כך עצוב, באמת 🙂
אם יש לך אופיס 2013 או 2016, אז בתוך כמה דקות, ללא תוכניות נוספות, אפשר בהחלט להעביר נתונים מ-PDF ל-Microsoft Excel. ו-Word ו-Power Query יעזרו לנו בכך.
לדוגמה, בואו ניקח את דוח ה-PDF הזה עם אוסף של טקסט, נוסחאות וטבלאות מהאתר של הוועדה הכלכלית לאירופה:
... ונסה לחלץ ממנו באקסל, אמור את הטבלה הראשונה:
בוא נלך!
שלב 1. פתח את PDF ב-Word
משום מה, מעטים יודעים, אבל מאז 2013 Microsoft Word למדה לפתוח ולזהות קבצי PDF (גם סרוקים, כלומר ללא שכבת טקסט!). זה נעשה בצורה סטנדרטית לחלוטין: פתח את וורד, לחץ קובץ - פתח (קובץ - פתח) וציין את פורמט ה-PDF ברשימה הנפתחת בפינה הימנית התחתונה של החלון.
לאחר מכן בחר את קובץ ה-PDF שאנו צריכים ולחץ להרחיב (לִפְתוֹחַ). Word אומר לנו שהוא הולך להפעיל OCR על המסמך הזה לטקסט:
אנו מסכימים ובתוך מספר שניות נראה את ה-PDF שלנו פתוח לעריכה כבר בוורד:
כמובן שהעיצוב, הסגנונות, הפונטים, כותרות עליונות ותחתונות וכו' יעופו חלקית מהמסמך, אבל זה לא חשוב לנו – אנחנו צריכים רק נתונים מטבלאות. באופן עקרוני, בשלב זה כבר מפתה פשוט להעתיק את הטבלה מהמסמך המוכר ל-Word ופשוט להדביק אותה באקסל. לפעמים זה עובד, אבל לעתים קרובות יותר זה מוביל לכל מיני עיוותים בנתונים - למשל, מספרים יכולים להפוך לתאריכים או להישאר טקסט, כמו במקרה שלנו, בגלל. PDF משתמש ללא מפרידים:
אז בואו לא נקצר פינות, אלא נעשה הכל קצת יותר מסובך, אבל נכון.
שלב 2: שמור את המסמך כדף אינטרנט
כדי לטעון לאחר מכן את הנתונים שהתקבלו לאקסל (באמצעות Power Query), יש לשמור את המסמך שלנו ב-Word בפורמט של דף אינטרנט - פורמט זה הוא, במקרה זה, מעין מכנה משותף בין Word ו-Excel.
כדי לעשות זאת, עבור לתפריט קובץ - שמור בשם (קובץ - שמור בשם) או הקש על המקש F12 במקלדת ובחלון שנפתח, בחר את סוג הקובץ דף אינטרנט בקובץ אחד (דף אינטרנט - קובץ בודד):
לאחר השמירה, אתה אמור לקבל קובץ עם סיומת mhtml (אם אתה רואה סיומות קבצים באקספלורר).
שלב 3. העלאת הקובץ לאקסל באמצעות Power Query
אתה יכול לפתוח את קובץ ה-MHTML שנוצר באקסל ישירות, אבל אז אנחנו נקבל, ראשית, את כל תוכן ה-PDF בבת אחת, יחד עם טקסט ושלל טבלאות מיותרות, ושנית, שוב נאבד נתונים בגלל שגוי מפרידים. לכן, נבצע את הייבוא לאקסל באמצעות תוסף Power Query. זהו תוסף חינמי לחלוטין שבאמצעותו ניתן להעלות נתונים לאקסל כמעט מכל מקור (קבצים, תיקיות, מסדי נתונים, מערכות ERP) ולאחר מכן להפוך את הנתונים המתקבלים בכל דרך אפשרית, ולהעניק להם את הצורה הרצויה.
אם יש לך Excel 2010-2013, אז אתה יכול להוריד את Power Query מהאתר הרשמי של Microsoft - לאחר ההתקנה תראה לשונית שאילתת כוח. אם יש לך Excel 2016 ומעלה, אז אתה לא צריך להוריד שום דבר - כל הפונקציונליות כבר מובנית ב-Excel כברירת מחדל וממוקמת בכרטיסייה נתונים (תַאֲרִיך) בקבוצה הורד והמר (קבל ושינוי).
אז אנחנו הולכים לכרטיסייה נתונים, או בכרטיסייה שאילתת כוח ולבחור צוות כדי לקבל נתונים or צור שאילתה - מקובץ - מ-XML. כדי להפוך לא רק קובצי XML גלויים, שנה את המסננים ברשימה הנפתחת בפינה הימנית התחתונה של החלון ל כל הקבצים (כל הקבצים) וציין את קובץ ה-MHTML שלנו:
שים לב שהייבוא לא יסתיים בהצלחה, מכיוון. Power Query מצפה מאיתנו ל-XML, אבל למעשה יש לנו פורמט HTML. לכן, בחלון הבא שיופיע, תצטרך ללחוץ לחיצה ימנית על הקובץ שאינו מובן ל-Power Query ולציין את הפורמט שלו:
לאחר מכן, הקובץ יזוהה כהלכה ונראה רשימה של כל הטבלאות שהוא מכיל:
ניתן לצפות בתוכן הטבלאות על ידי לחיצה על לחצן העכבר השמאלי ברקע הלבן (לא במילה טבלה!) של התאים בעמודת הנתונים.
כאשר הטבלה הרצויה מוגדרת, לחץ על המילה הירוקה טבלתי - ואתה "נופל" לתוך תוכנו:
נותר לעשות כמה צעדים פשוטים כדי "לסרוק" את התוכן שלו, כלומר:
- מחק עמודות מיותרות (לחץ לחיצה ימנית על כותרת העמודה - להסיר)
- החלף נקודות בפסיקים (בחר עמודות, לחץ לחיצה ימנית - החלפת ערכים)
- הסר סימני שוויון בכותרת (בחר עמודות, לחץ לחיצה ימנית - החלפת ערכים)
- הסר את השורה העליונה (עמוד הבית – מחק שורות – מחק שורות עליונות)
- להסיר שורות ריקות (בית - מחק שורות - מחק שורות ריקות)
- להעלות את השורה הראשונה לכותרת הטבלה (בית - השתמש בשורה הראשונה ככותרות)
- לסנן נתונים מיותרים באמצעות מסנן
כאשר הטבלה מובאת לצורתה הרגילה, ניתן לפרוק אותה על הגיליון באמצעות הפקודה לסגור ולהוריד (סגור וטען) on העיקרי לשונית. ונקבל יופי כזה שאיתו כבר נוכל לעבוד:
- הפיכת עמודה לטבלה עם Power Query
- פיצול טקסט דביק לעמודות