Work the Shell - 我们的 Twitter 自动回复器上线了!
我真不敢相信,这已经是我的第 52 篇专栏文章了。这意味着我为 Linux Journal 写作已经快四年半了。希望您也一直在阅读我的专栏,并享受我们每月对 shell 脚本编程世界的探索。在技术方面,过去四年半发生了相当大的变化。但在 Linux/shell 方面,它与我写第一篇专栏文章时惊人地相似。
上个月,我们继续构建了一个 Twitter 自动回复脚本,它可以读取和解析 Twitter 消息(又名推文)。我们让它工作起来,并在专栏结尾意识到,除了用户名和消息之外,我们实际上还需要捕获唯一的推文 ID,以便我们可以确保脚本跟踪它已经或尚未回复的内容。
该脚本通过 ID 跟踪推文,并且知道如何解析传入的 Twitter 流以及如何记住它是否看到过一个词的推文请求。运行一次,我看到
Twitter user @jlight asked for the time @jlight the time on our server is LOCALTIME
下次我运行它时,仅仅几分钟之后,我看到
Twitter user @truss asked for the time @truss the time on our server is LOCALTIME Twitter user @tlady asked what our address in tweet 7395272164 @tlady we're located at 123 University Avenue, Anywhere USA
看起来不错,但脚本中存在一个问题,因为其中一个输出诊断行是
Twitter user @ asked for the time @ the time on our server is LOCALTIME
不知何故,它没有识别出这位特定用户的用户 ID。在快速分析了实际的 Twitter.com 数据后,似乎第一条推文来自解析器部分,但没有关联的用户 ID。
为了调试这个问题,首先获取脚本的副本以便跟进(上个月的脚本位于 ftp://ftp.linuxjournal.com/pub/lj/listings/issue191/10695.tgz)。在 while 循环中,我将添加这一行来帮助调试
echo got name = $name, id = $id, and msg = $msg
现在当我运行脚本时,我看到的是
got name = , id = 7395437583, and msg = VERY cool got name = spin, id = 7395333666, and msg = time got name = astrong, id = 7395281516, and msg = time got name = truss, id = 7395281011, and msg = time
显然有些问题,但问题是什么呢?
我喜欢在脚本中使用临时文件而不是使用极其冗长和复杂的管道的原因之一是为了调试这类问题。
回想一下,主要的解析工作是通过 curl 将其输出馈送到 grep,然后是一系列 sed 调用,最后快速调用 awk 来完成的
$curl -u "davetaylor:$pw" $inurl | \ grep -E '(<screen_name>|<text>|<id>)' | \ sed 's/@DaveTaylor //;s/ <text>//;s/<\/text>//' | \ sed 's/ *<screen_name>//;s/<\/screen_name>//' | \ sed 's/ *<id>//;s/<\/id>//' | \ awk '{ if (NR % 4 == 0) { printf ("name=%s; ", $0) } else if (NR % 4 == 1) { printf ("id=%s; ",$0) } else if (NR % 4 == 2) { print "msg=\"" $0 "\"" } }' > $temp
添加命令more $temp紧随其后意味着我们可以查看数据流,看看第一行和第二行有什么不同(因为第二行被正确解析了)。这是我看到的
id=7395681235; msg="African or European?" name=jeffrey; id=7395672894; msg="North Hall IStage"
请注意,没有name=第一个消息中的字段。我的理论?awk 语句中存在逻辑错误,导致它以某种方式跳过了第一个条目。
为了测试这个假设,我将临时用另一个 awk 脚本替换整个 awk 脚本,该脚本输出记录号(模 4)后跟数据行
awk '{ print (NR % 4), $0 }' > $temp
结果与我们预期的完全一样,这有点令人困惑
1 7395934047 2 we are at the MGM as well! 3 14171725 0 sideline 1 7395681235 2 African or European? 3 14712874 0 jeffrey
在这里,Twitter 用户 sideline 发送了“we are at the MGM as well!”,而 jeffrey 发送了消息“African or European?”。
问题不是数据被吞噬了,而是 awk 脚本将用户名信息与错误的推文配对。让我们重新检查一下 awk 脚本
awk '{ if (NR % 4 == 0) { printf ("name=%s; ", $0) } else if (NR % 4 == 1) { printf ("id=%s; ",$0) } else if (NR % 4 == 2) { print "msg=\"" $0 "\"" } }'
NR%4=0 被正确标记为用户名,NR%4=1 为消息 ID,NR%4=2 为消息,NR%4=3 被跳过。(它是 Twitter 用户 ID,而不是推文 ID。在不同的上下文中可能有用,但对于我们正在做的事情没有用。)
问题很微妙,但当您将解析器生成的内容与 Twitter 流中的实际推文进行比较时,它会变得很明显。我们看到了前两个,如下所示
id=7395681235; msg="African or European?" name=jeffrey; id=7395672894; msg="North Hall IStage"
但实际上,推文 “African or European?” 是由 jeffrey 发送的,而 “North Hall IStage” 是由解析和格式化数据的后续行中标识的用户发送的。
结论?我们错误地分割了数据行。我们实际上应该在匹配 NR%4==0 之后添加回车符,而不是在 NR%4==2 之后添加回车符(这很微妙,我们使用 print 而不是 printf),像这样
awk '{ if (NR % 4 == 0) { printf ("name=%s;\n", $0) } else if (NR % 4 == 1) { printf ("id=%s; ",$0) } else if (NR % 4 == 2) { printf ("msg=\"%s\"; ", $0) } }'
现在,让我们再次尝试该语句
id=7395681235; msg="African or European?"; name=jeffrey; id=7395672894; msg="North Hall IStage"; name=sideline;
啊,对了!
问题解决后,我将删除添加的调试语句并释放监听器野兽
got name = jeffrey, id = 7395681235, and msg = African or European? got name = sideline, id = 7395672894, and msg = North Hall IStage got name = Genuine, id = 7395669466, and msg = ummmmm I know
完美。Bug 已调试!
现在当我们运行脚本时,它正确地只看到自上次运行以来新的推文,并且只回复它理解的推文
Twitter user @Larkin asked for the time @Larkin the time on our server is LOCALTIME Twitter user @jennyj asked for the time @jennyj the time on our server is LOCALTIME
再次运行脚本,它只会看到更新的内容
Twitter user @NoA asked for directions in tweet 7396527668 @NoA directions to our office are here: SOMEADDRESS
完美!现在,进行一些细微的调整。在调试过程中,我设置了变量tweet为/bin/echo,这样就不会用不必要的消息淹没我的关注者。将其改回 tweet.sh 脚本(如在之前的专栏系列中开发的),脚本实际上会回复推文。
第一次运行看起来像这样
$ sh tweet-listen.sh Twitter user @mosa asked for directions in tweet 7396566048 (sent tweet @mosa directions to our office are here: SOMEADDRESS) Twitter user @xwatch asked for the time (sent tweet @xwatch the time on our server is TIME) Twitter user @NoA asked for directions in tweet 7396527668 (sent tweet @NoA directions to our office are here: SOMEADDRESS)
为了确保它不会对一条推文查询回复多次,我将再次运行该脚本
$ sh tweet-listen.sh $
就是这样!现在只剩下一个很小的额外任务,将其添加到 crontab 中,使其成为一个活动的监听器,这可以通过每两分钟运行一次以下行来完成
*/2 * * * * bash $SCRIPTS/davesbot/tweet-listen.sh
这就是全部内容。恭喜,我们刚刚构建了一个功能齐全的 Twitter 机器人。
如果您想测试它,它在 Twitter 上有自己的帐户 @davesbot。首先发送一条 2-3 个词的消息,它会告诉您它可以做什么。从 LinuxJournal.com 站点获取最终源代码,网址为 ftp://ftp.linuxjournal.com/pub/lj/listings/issue192/10711.tgz。
Dave Taylor 从事 shell 脚本编程已经很长时间了。他是流行的 Wicked Cool Shell Scripts 的作者,可以在 Twitter 上通过 @DaveTaylor 找到他,更普遍地可以在 www.DaveTaylorOnline.com 找到他。