Digital Archives: Reading and Manipulating Large-Scale Catalogues, Curating and Creating Small-Scale Archives

הסדנה בת שבועיים נועדה לפתח מיומנות מעשית וביקורתית כלפי ייצוג של ידע בארכיונים דיגיטליים ובניה של ארכיון דיגיטלי קטן.

בשבוע הראשון נלמד כיצד לעבוד עם קטלוגים ולבצע ‚קריאה מרחוק“ על ידי שימוש בכלי OpenRefine. באמצעות OpenRefine, נלמד לבחון בעין ביקורתית תוכן ומבנה של קטלוגים ושל תיאורי אוספים, לנקות לארגן את המידע כך שיהיה ניתן לעיבוד על ידי מכונה, אך גם קריא על ידי אדם. נלמד להעשיר את הקטלוגים במידע מתוך קבצי זהויות וממקורות חיצוניים של מידע מקושר ופתוח, כגון נתונים הקיימים בספריית הקונגרס, VIAF ועוד.

על סמך הנסיון המעשי שנרכוש בשבוע הראשון ומבט ביקורתי על מבני הידע, המשתתפות יעצבו ויממשו ארכיון דיגיטלי לאוסף המסמכים שלהן ויגדירו את המסגרת התיאורית של המטה-דאטה. העבודה תיעשה בעזרת הכלים Omeka ו-Tropy, ובמהלכה נדקדק בפרטים, ונתנסה בצורות שונות של ייצוג ידע.

תוכן הסדנה יהיה הן תיאורטי (על מהות ארכיונים בעידן הדיגיטלי, קבצי זהויות, אונטולוגיות) והן מעשי (התנסות בכלים).

לא נדרש ידע קודם.

השבוע הראשון: קריאה ועבודה עם דאטה ב OpenRefine

צורות רבות של מידע בפורמט דיגיטלי נמצאות היום במרכז עבודתו של החוקר במדעי הרוח. לעתים מדובר בקבצי טקסט גדולים מאוד, לפעמים רשימות, לעתים הנתונים מסודרים ומובנים ולעתים או לרוב – מבולגנים למדי. כשאנחנו רוצות ללמוד מה יש בתוך הדאטה, כיצד אפשר לארגן אותה? ובכלל, מה השיקולים, וכיצד אפשר להעשיר ולשפר? מה אפשר ללמוד מתוך דאטה על העולם, על התחום בו נוצר ושאותו מתאר, על יוצריו?

הכלי OpenRefine פותח על ידי Google ובהמשך נמסר לקהילה להמשך שימוש ולפיתוח. מדובר בכלי חופשי ופתוח לעיבוד נתונים והשימוש בו הוא יקר ערך לכל מי שעובדת עם נתונים מכל סוג. מכיוון שמטרתו העקרית היא data wragnling, כלומר ניקוי נתונים, ארגון, איחוד ועוד, ובכלל הכרות את תוכן הנתונים שלה: בין אם יהיו אלה תוצאות מחקר בטבלאות או גיליונות אלקטרוניים, בקטלוגים של ספריות או מוזיאונים בפורמט – MARC או XML, אילנות משפחה בפורמט GEDCOM, קבצי JSON, ציוצים וקבצי טקסט נוספים.

במהלך העבודה עם OpenRefine נחשפים לרעיונות ולמושגים בתכנות, ולשיטות הטובות ביותר בהיבטים רבים במדעי הרוח הדיגיטליים. הסדנה, איפוא, חורגת מלימוד ועבודה בכלי יחיד (שהוא חזק בפני עצמו וראוי לתשומת לב) והיא תעניק לתלמידים מגוון כישורים, כולל שימוש בממשקי API, שימוש בנתונים פתוחים מקושרים (LOD), איסוף של דפי אינטרנט, הבנת מושגים ושימוש באלגוריתמים של סיווג וקיבוץ ועוד.

1. סוגי קבצים שונים (CSV, TSV, גיליונות אלקטרוניים, JSON, XML TEI)

2. עבודה יעילה עם ביטויים רגולריים

3. כתיבת ביטויים עם GREL (שפת התכנות)

4. עבודה עם API (שמות גיאוגרפיים)

5. עבודה עם LOD (wikidata, Kima)

בסיום קורס זה המשתתפים יכירו את OpenRefine, שיטות עבודה מתקדמות בכלי, יתנסו בתסריטי עיבוד שונים כגון איסוף נתונים מהרשת, ניקוי והרחבה שלהם, מיפוי ישויות מתוך הנתונים אל מפות עוד.

תכנית אפשרית לשיעורים

שיעור מס‘ 1: הקדמה, הטענת נתונים, faceting

שיעור מס‘ 2: עבודה עם תאריכים – ביטויים רגולריים.

שיעור מס‘ 3: קיבוץ נתונים

שיעור מס‘ 4: העשרה של נתונים דרך REST API ומקורות גיאוגרפיים

תרגול מעשי: עבודה על נתונים שונים, פתרון בעיות טכניות

שיעור מס‘ 5: reconciliation – עבודה עם מקורות כגון wikidata

שיעור מס‘ 6: פורמטים שונים של קבצים – xml, json

שיעור מס‘ 7: איסוף נתונים מרשת האינטרנט

שיעור מס‘ 8: מטקסט למפה – ויזואליזציה של נתונים

שיעור מס‘ 9: סיכום

שבוע שני – בני והקמה של ארכיון דיגיטלי בקנה מידה קטן

ברשות חוקרות רבות, ספרנים וארכיונאים יש אוספים קטנים של מסמכים שצריכים לעבור תהליך של דיגיטיזציה, של הבניה כלשהי על מנת שאפשר יהיה לחקור, להציג או לחפש בהם. במקרים רבים, המסמכים הם חלק מסיפור גדול ורחב יותר, סיפור שצריך לתת לו ביטוי ונראות.

כיצד ניגשים למלאכה? האם יש צורך לדעת לתכנת על מנת לעשות זאת? אם שוכרים בעל מקצוע, איך מגדירים את הצרכים בצורה הנכונה והמתאימה לפרויקט, באופן שמשמר את הפרקטיקה של המחקר במדעי הרוח?

בסדנה בשבוע השני נשנה את קנה המידה ונעסוק בפרטים. בניה של ארכיון דיגיטלי היא רצף של בחירות והחלטות, ותהליך הדיגיטיזציה מחייב אותנו לחשוב מחדש על השיטות המסורתיות של איסוף, עיצוב ויצוג הידע הקיים בארכיונים.

נתחיל בסקירה של האוספים של המשתתפות והמשתתפים בסדנה, נכיר ונבקר דוגמאות של ארכיונים. נדון בסכמות שונות של תיאור נתונים ובשיקולים השונים בתהליך הבחירה, ובקיומו של ארכיון כגוף ידע שקיים בפני עצמו. לאחר מכן נשתמש ונבין את הכלים של ‚שיטות עבודה מומלצות‘ ליישום.

תכנית אפשרית לשיעורים:

שיעור מס‘ 1: הקדמה – דיון תיאורטי על ארכיונים

שיעור מס‘ 2: ארכיונים דיגיטליים: דוגמאות, אוספי התלמידים

שיעור מס‘ 3: עבודה עם חומרים ראשוניים, אם נוכל נסרוק חומרים.

שיעור מס‘ 4: מטה-דאטה – שיטות תיאור ומשמעותן, דילמות

שיעור מס‘ 5: עבודה עם אומקה

שיעור מס‘ 6: עבודה עם Tropy, ממשק עם Omeka

שיעור מעשי – עבודה על האוספים

שיעור מס‘ 7: קישור ושילוב מקורות חיצוניים

שיעור מס‘ 8: עיצוב אתר אומקה

שיעור מס‘ 9: סיכום